Vous êtes sur la page 1sur 631

Gilbert SAPORTA

Professeur au Conservatoire National

des Arts et Mtiers

OB

2e dition rvise et augmente

2006

Editions TECHNIP

27 rue Ginoux, 75737 PARIS Cedex 15, FRANCE

CHEZ LE MME .DITEUR


.. Approche pragmatique de la classification
J.P. NAKACHE, J. CONFAIS

..

Data rnining et statistique dcisionnelle

s.
..

TUFFRY

Statistique explicative applique


J.P. NAKACHE, J. CONFAIS

Les techniques de sondage, nOliveHe dition


P. ARDIllY

..

Analyse statistique des donnes spatiales


J.-J. DROESBEI, M. lEJEUNE~ d:sAPoRTX;Eds.

..

Modles statistiques pour donnes qualitatives


J .-1. DROESBEKE, M. LEJEUNE, G. SAPORTA,

Eds.

Plans d'expriences. Applications l'entreprise


J.-J. DROESBEKE, J. FINE, G. SAPORTA,

Eds.

Mthodes baysiennes en statistique


J.-J. DROESBEKE, J. FINE, G. SAPORTA,

Eds.

..

La rgression PLS. Thorie et pratique


M.TENENHAUS

Probabilits. Exercices corrigs


D.GHORBANZADEH

Tous droits de traduction, de reproduction et d'adaptation rservs pour tous pays.


Toute reprsentation, reproduction intgrale ou partielle faite pur quelque procd que ce soit, sans Je consentement de l'auteur ou de ses ayants cause, est illicite el constitue une contrefaon sanctionne par les articles 425 et suivants du Code pnaL Par ailleurs, la loi du 1 1 mars 1957 interdit formellement Jes copies ou les reproductions destines une utilisation collective.

Editions Teclmip. Paris, 2006. Imprim en France

ISBN 2-7108-0814-5

Avant-propos

La prcdente dition de cet ouvrage a t publie en 1990. Nous voquions alors les volutions de la statistique de la dcennie passe. Depuis lors, les de l'informatique n'ont cess. permettant d'une part l'utilisation de nouvelles mthodes fondes sur des calculs intensifs (simulation, mthodes non-paramtriques et algorithmiques), et d'autre part le traitement de donnes en masse qui a donn lieu l'mergence du data mining ou fouille de donnes . Les logiciels de calcul statistique n'ont cess de se perfectionner et de se diffuser tel point que des mthodes complexes sont employes de faon routinire sans pour cela que l'utilisateur les domine toujours. Cette nouvelle dition prend en compte ces volutions. Outre une mise jour de certains exemples, les principaux dveloppements concernent les mthodes de Monte Carlo, l'estimation non paramtrique, la modlisation prdictive avec l'introduction des mthodes de rgression en prsence de mul ticolinari t, la rgression logistique, les SVM et les techniques d'apprentissage. Nous avons galement rajout deux chapitres consacrs aux deux grandes mthodologies de recueil des donnes: sondages et plans d'expriences. Ce livre a pour but de donner aux tudiants et aux praticiens les outils ncessaires pour appliquer correctement les mthodes statistiques. La plupart des rsultats sont dmontrs, sauf certains pour lesquels les preuves trop techniques auraient alourdi ce livre. Les 21 chapitres sont regroups en cinq parties: La premire outils probabilistes donne les bases ncessaires l'infrence classique. L'approche probabiliste permet de prendre en compte le fait que notre univers n'est pas dterministe et que les donnes dont on dispose ne sont pas parfaites. La deuxime partie intitule statistique exploratoire regroupe les outils de description non-probabilistes des donnes, allant de la statistique descriptive unidimensionnelle ce que l'on appelle analyse des donnes en un sens restreint qui selon nous ne se limite pas aux mthodes drives de l'analyse en composantes principales et de la classification : pour nous le but de la statistique est d'analyser des donnes ... La troisime partie statistique infrentielle est consacre classiquement l'estimation et aux tests. La quatrime partie modles prdictifs regroupe les techniques de rgression au sens large o on cherche un modle reliant une rponse Y des prdicteurs Xj La cinquime partie concerne le recueil des donnes par sondages ou exprimentation. Le recueil des donnes constitue un pralable l'analyse; le placer en dernire parte peut sembler

vi

_Avant-propos

illogique, mais le fait est que la collecte des donnes ne peut se concevoir sans en connatre l'usage ultrieur, ce qui ncessite la comprhension de l'estimation el de la modlisation. Je remercie enfin tous ceux qui onl contribu un titre ou un autre la ralsation de cet ouvrage, ainsi que les ditions Technip pour leur patience et le soin apport sa ralsution.

Gilbert Saporta (mars 2006)

Table des matires

Avant propos .......................................................... v Introduction ............................................................ xx v

Premire partie: Outils probabilistes

Ch 1 : Le modle probabiliste ............................................ 3


1.1 Espace probabilisable ................................................ 3
1.1.1 1.1.2 Exprience alatoire et vnements ................................. 3 Algbre des vnements .......................................... 4

1.2

Espace probabilis ................................................... 5


1.2.1 L'axiomatique de Kolmogorov ..................................... 5 1.2.2 Proprits lmentaires ........................................... 5 Lois de probabilits conditionnelles, indpendance ......................... 6 1.3.\ Introduction et dtinitions ......................................... 6 1.3.2 Indpendance .................................................. 8 1.3.2.1 Indpendance de deux vnements ........................... 8 1.3.2.2 Indpendance deux deux et indpendancc mutuelle ............. 8 1.3.3 Formules de Bayes .............................................. 9 Rflexions sur le concept de probabilit ................................. 10 lA.1 La conception objectiviste ....................................... 10 104.1.1 La vision classique ...................................... 10 104.1.2 Un paradoxe clbre ..................................... Il 104.1.3 La vision frquentiste .................................... 12 104.2 La conception subjectiviste ....................................... 12 1.4.2.1 Mesure d'incertitude .................................... 13 1.4.2.2 Le baysianisme ........................................ 13

1.3

1.4

Ch 2 : Variables alatoires .............................................. \5


2.1
Loi de probabilit et moments d'une variable alatoire relle ................ 15 2.1.\ Dfinition et fonction de rpartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . \5 2.1.1.1 Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

viii

.Table des matires

2.1.2

2.1.3 2.1.4

2.1.1.2 Fonction de rpartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1.3 Variables continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. L lA Taux instantan de dfaillance . . . . . . . . . . . . . . . . . . . . . . . . . . . Loi d'une fonction d'une variable alatoire Y <p(X) ... 2.1.2.1 <p bijective . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2.2 <p quelconque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Indpendance de deux variables alatoires . . . . . . . . . . . . . . . . . . . . . . . . . Moments d'une variable alatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.104.1 L'esprance mathmatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.4.2 La variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.104.3 Autres momenLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.lAA Ordres stochastiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16 18

19
20 20 21 21 22 22 25 27

28
30 30 30

2.2

Lois de probabilit discrtes d'usage courant . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Loi discrte uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Loi de Bernoulli de paramtre p . ............................. 2.2.3 Loi binomiale 93(n ; p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.4 Loi de Poisson rJ'l(X-) .... 2.2.5 Loi hypergomtrique 'dC(N, Il, p) ou du tirage exhaustif. . . . . . . . . . . . . . . . 2.2.5.1 Esprance de l'hypergomtrique ........................... 2.2.5.2 Variance de l'hypergomtrique ............................ 2.2.5.3 Tendance vers la loi binomiale ............................. 2.2.6 Lois gomtrique, de Pascal, binomiale ngative . . . . . . . . . . . . . . . . . . . . . 2.3.1 1.3.2 2.3.3

31 33
36 36 36 37 38

2.3

Distributions continues usuelles .................................... 38


Loi uniforme sur [0, aJ ...................................... 38 Loi exponentielle de paramlre X- .... 39 Lois gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.3.3.1 Esprance ............................................. 40 2.3.3.2 Variance .............................................. 40 Lois bta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.3.4.1 Loi bta de type 1 ....................................... 41 2.304.2 Loi bta de type II ....................................... 41 2.3.4.3 Loi de l'arc sinus ....................................... 42 La loi de Laplace-Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.3.5.1 Valeurs remarquables .................................... 44 2.3.5.2 Moments .............................................. 44 2.3.5.3 Additivit ............................................. 45 2.3.504 Loi de U2 45 La loi log-normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Loi de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Loi de Weibull. . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Loi de Gumbel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.3.4

2.3.5

2.3.6 2.3.7 2.3.8 2.3.9

2.4

Le processus ponctuel de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 204.1 Flux poissonnen d'vnements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 204.2 tude de la dure T sparant deux vnements consculifs E j et Ei + 1 49 204.3 tude de la dure Y sparant n + 1 vnements . . . . . . . . . . . . . . . . . . . . . 50

aTable des matires

ix

lude du nombre d'vnements se produisant pendant une priode de dure T fixe ............................ 50 2.4.5 tude de la rpartition des dates El' E:!. ... El! dans l'intervalle AB . ........ 51 1.4.6 Le processus (Nt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.5 Convolution........... . ........................................... 51 2.5.1 Cas discret. ................................................... 51 2.5.2 Cas gnral ................................................... 53 2.5.3 Applications .................................................. 54 2.5.3.1 Somme de lois "y .. 54 2.5.3.2 Somme de lois uniformes sur [0, 1]. . . . . . . . ................ 55 2.6 Fonctions caractristiques ............................................ 55 1.6.1 Dfinitions et principales proprits ................................. 55 2.6.LI Dfinition ............................................. 55 2.U.2 Fonction caractristique d'une fonne 1inaire .................. 56 2.6.1.3 Convolution ........................................... 56 2.6.1.4 Cas d'une distribution symtrique ........................... 56 2.6.1.5 Drives l'origine et moments non centrs ................... 56 2.6.1.6 Unicit et inversion de la fonction caractristique ............... 57 2.6.2 Fonctions caractristiques des lois usuelles ........................... 58 2.6.2.1 Lois discrtes .......................................... 58 1.6.2.1 Lois continues .......................................... 58 1.6.3 Fonctions gnratrices ........................................... 60 2.7 Convergences des suites de variables alatores ............................ 60 2.7.1 Les diffrents types de convergence ................................. 60 2.7.1.1 La convergence en probabilit .............................. 60 2.7.1.2 La convergence presque sre ou convergence forte .............. 61 2.7.1.3 La convergence en moyenne d'ordre p ....................... 61 2.7.1.4 La convergence en loi .................................... 62 2.7.2 Convergence en loi de la binomiale vers la loi de Laplace-Gauss (thorme de De Moivre-Laplace) .................... 62 2.7.3 Convergence de la loi de Poisson vers la loi de Gauss. . ................ 64 2.7.4 Le thorme central-limite ........................................ 65

1.4.4

Ch 3 : Couples de variables alatoires, conditionnement. ...................... 69


3.1
3.1.1

tude d'un couple de variables discrtes ................................. 69 Lois associes un couple (X, Y) ................................... 69
3.1. LI Loi jointe ............................................. 69 3.1.1.2 Lois marginales ......................................... 69 3.1.1.3 Los conditionnelles .. . ................................. 70 Covariance et corrlation linaire ................................... 71 Moments conditionnels .......................................... 71 3.1.3.1 L'esprance conditionnelle . . . . . . . . . . .. ................. . 71 3.1.3.2 La variance conditionnelle ................................. 73 3.1.3.3 Exemple d'utilisation de l'esprance et de la variance conditionnelle ............................. 74

3.1.2 3.1.3

x
3. [.4

.. Table des matires


EXlension au conditionnement d'une variable continue Y par une variable discrte X ........................................ 76 3.1.5 Somme d'un nombre alatoire de variables iid . ........................ 76 Extension des variables lluelconques .................................. 77 3.2.1 Lois conjointes et lois marginales d'un couple de variables alatoires relles ...................................... 77 3.2.2 Conditionnement ............................................... 77 3.2.2.1 Prsentation nave ....................................... 77 3.2.2.2 Aperus thoriques. . . . . . . . . . . . . . . . . . . . . . .. . ............ 78 3.2.2.3 Ce qu'il faut retenir. ..................................... 79 Synthse gomtrique ................................................ 80 3.3.1 Espace de Hilbert des classes de variables alatoires de carr intgrables..... 80 3.3.2 Esprance conditionnelle et projection. . . . . . .. . ..................... 81 3.33 Rapport de corrlation de Yen X . ................................. 82

3.2

3.3

Ch 4 : Vecteurs alatoires, formes quadratiques et lois associes ................ 85


4.1 Gnralits sur les vecteurs alatoires rels ............................... 85
4.1.1 Fonction de rpartition et densit ................................... 4. L 1.1 Fonction de rpartition ................................... 4.1.1.2 Densit ............................................... 4.1.1.3 Changement de variables dans une densit .................... Fonction caractristique .......................................... Esprunce et matrice de variance-covariance .......................... Transformations linaires ......................................... Diinitons et fonction caractristique ............................... Densit de la loi normale p dimensions ............................. Cas particulier de la loi normale 1'1 deux dimensions ..................... Lois conditionnelles (sans dmonstration) ............................ Thorme central-limite multidimensionnel ........................... 85 85 85 85 86 87 88 89 89 90 90 92 92

4.1.2 4.1.3 4.1.4

4.2

Vecteurs alatoires gaussiens: la loi multinormale .........................


4.2.1 4.2.2 4.2.3 4.2.4 4.2.5

4.3

Formes quadratiques dfinies sur un vecteur gaussien et lois drives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .................... 93


Lois du X2 (khi-deux) ........................................... 93 Formes quadratiques ............................................ 94 Lois du F de Fisher-Snedecor ..................................... 97 Lo de Student. ................................................ 98 La loi multinomiale, introduction au test du X2 99 ................................. 99 4.4.1 Le schma de l'urne il k 4.4.2 Esprance et matrice de variance .................................. 101 4.4.3 Lois limite lorsque Tl .........)0 0::; 101 Lois de Wishart, de Hotelling, de 'Vilks ................................. 103 4.5.1 Loi de Wisbart ................................................ 103 4.5.2 La loi du T 2 de HoteLling. . . . . . . . . . . . . . . . . . . . . . . .. . ............. 104 4.5.3 La loi du lambda (A) de Wilks. . . ............................... 105 4.3.1 4.3.2 4.3.3 4.3.4

4.4

4.5

.Table des matires

xi

Deuxime partie: Statistique exploratoire

Ch 5 : Description unidimensionnelle de donnes numriques ................. 109


5.1 Tableaux statistiques ................................................ 109
5.1.1 5.1.2 Variables discrtes ou qualitatives. . . . . . . . . . .. . ................... 109 Variables continues ou assimiles ................................. 110 Reprsentations graphiques .......................................... 112 5.2.1 Barres el camemberts .......................................... 1 12 5.2.2 Histogrammes ................................................ 114 5.2.3 Bote moustaches ou box-plot ................................... 115 5.2.4 Courbe de concentration ........................................ 116 5.2.4.1 Proprits mathmatiques.. .................... . ....... 117 5.2.4.2 Indice de concentration ou indice de Gni .. .......... . ..... 117 Rsum; numriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . ... 119 5.3.1 Caractristiques de tendance centrale ..................... , ........ 120 5.3.1.1 La mdiane ........................................... 120 5.3.1.2 La moyenne arithmtique ................................ 120 5.3.1.3 Le mode ............................................. l21 5.3.2 Caractristiques de dispersion .................................... 121 5.3.2.1 L'tendue ou intervalle de variation ......................... 121 5.3.2.2 L'intervalle interquartile ................................. 121 5.3.2.3 La variance et l'cart-type ................................ 121 5.3.3 Cohrence entre tendance centrale et dispersion. . .................... 122 5.3.4 Caractristiques de forme ....................................... 123

5.2

5.3

Ch 6 : Description bidimensionnelle et mesures de liaison entre variables ........ 125


6.1 Liaison entre deux variables numriques ............................... 125
6.1.1 6.1.2 tude graphique de la corrlation .................................. Le coeficent de corrlation linaire ............................... 6.1.2.1 Dfinition ............................................ 6.1.2.2 Du bon usage du coefficient r . . . . . . . . . . . . . . . . . . . . .. . ..... 6.l.2.3 Matrice de corrlation entre p variables ...................... Caractre significatif d'un coefficient de corrlation ................... Corrlation partielle. . .. . ...................................... 6.1.4.1 Le modle nonnal p dimensions .......................... 6.1.4.2 Corrlation entre rsidus ................................. 6.1.4.3 Signification d'un coefticicnt de corrlation partielle. . .. . ...... i25 126 126 127 128 131 132 133 133 134

6.L3 6.1.4

6.2

Corrlation multiple entre une variable numrique et p autres variables numriques . . . . . . . . .. .......... ....................
6.2.1 6.2.2 6.2.3 6.2.4

. .. 134
134 135 135 136

Dtinition ................................................... Interprtution gomtrique ....................................... Calcul de R . . . . . . . . . . . .. . ................................... Signification d'un coefficient de corrlation multiple ...................

xii

IIIIIIII Table

des matires

6.3

6.4

6.5

Liaison entre variables ordinales: la corrlation des rangs. . . .. . .......... 6.3.1 Le coefficient de Spearman ...................................... 6.3.2 Le coefticient de corrlation des rangs T de M. G. Kendall .............. 6.3.2.1 Aspect thorique ....................................... 6.3.2.2 Ca1cu1 sur un chantillon ................................. 6.3.3 Coefficients de Oaniels et de Guttmann ............................. 6.3.4 Le coefficient W de Kendall de concordance de p classements ............ Liaison entre une variable numrique et une variable qualitative ............ 6.4.1 Le rapport de corrlation thorique (rappel) .......................... 6.4.2 Le rapport de corrlation empirique ................................ 6.4.3 Interprtation gomtrique et lien avec le coefficient de corrlation multiple .......................................... Liaison entre deux variables qualitatives ................................ 6.5.1 Tableau de contingence, marges et profils ........................... 6.5.2 L'cart l'indpendance ........................................ 6.5.2.1 Le X2 d'cart l'indpendance etles autres mesures associes .... 6.5.2.2 Cas des tableaux 2. X 2 .................................. 6.5.2.3 Caractre significatif de J'cart l'indpendance. . ............ 6.5.2.4 Autres mesures de dpendance ............................ 6.5.3 Un indice non symtrique de dpendance: Je Th de Goodman et Kruskal ..................................... 6.5.4 Le kappa de Cohen ............................................

136 137 138 138 138 141 141 143 143 143 145 J46 146 149 149 152 152 153 153 154

Ch 7 : L'analyse en composantes principales ............................... 155


7.1 Tableaux de donnes, rsums numriques et espaces associs .............. 7.1.1 Les donnes et leurs caractristiques ............................... 7.1.1.1 Le tableau des donnes .................................. 7.1. 1.2 Poids et centre de gravit ............. , ................... 7.1.1.3 Matrice de variance-covariance et matrice de corrlation ......... 7.1.1.4 Donnes actives et supplmentaires ......................... 7.1.2 L'espace des individus .......................................... 7.1.2.1 Le rle de la mtrique ................................... 7.1.2.2 L'inertie ............................................. 7.1.3 L'espace des vnriables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.3.1 La mtrique des poids ................................... 7.1.3.2 Variables engendres par un tableau de donnes ............... L'analyse ......................................................... 7.2.1 Projection des individus sur un sous-espace .......................... 7.2.2 lments principaux, ................... , ....................... 7.2.2.1 Axes principaux ....................................... 7.2.2.2 Facteurs principaux ..................................... 7.2.2.3 ComposanLes principales. . . . . . . . . . . . .. . ................. 7.2.2.4 Formules de reconstitution ............................... 7.2.3 Cas usuel. La mtrique DI/s'OU l'ACP sur donnes cenLres-rdules ....... 155 155 155 156 156 157 158 158 160 161 161 161 162 162 164 164 166 166 167 168

7.2

.Table des matires

xiii

7.3

Interprtation des rsultats .......................................... 169


7.3.1 des reprsentations sur les plans principtlux .................... Le pourcenltlge d'inertie ................................. Mesures locales. . . .. . ................................. A propos de la reprsentation simultane des individus et des variables en ACP .................................. Choix de la dimension .......................................... 7.3.2.1 Critres thoriques ..................................... 7.3.2.2 Critres empiriques ..................................... Interprtation interne . . . . . . . . . . . . . 7.3.3.1 Corrlations ({ variables facteurs)} ......................... 7.3.3.:! La place ct l'importance des individus ....................... 7.3.3.3 EtIet taille)l ......................................... IQterprtation externe: variables et individus supplmentaires, valeur-test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . .. Qunlit 7.3.1.1 7.3.1.1 7.3.1.3 169 170 170 171 171 171 171 173 173 175 176 176

7.3.2

7.3.3

7.3.4

7.4

Exemple ......................................................... 177


7.4.1 7.4.2 7.4.3 Valeurs propres ............................................... 177 Interprtation des axes .......................................... 178 Plan principal. . . . . . . . . . .. . .................................. 179 Analyse factorielle sur tableaux de distance et de dissimilarits .............. 181 7.5.1 Annlyse d'un tableau de distances euclidiennes ...................... 181 7.5.1.1 La soluton classique .................................... 181 7.5.1.2 Une transformation permettant de passer d'une distance non euclidienne il une distance euclidienne ....... 182 7.5.2 Le MDS ................................................. 183 7.5.2.1 Analyse d'un tableau de dissimilarits ....................... 183 7.5.2.2 Analyse de plusieurs tableaux de distances ................... 184 Extensions non linaires ..................................... , ....... 185 7.6.1 Recherche de transformations spares ............................. 185 7.6.2 La kernel-ACP }). . . . . . . . .. ..................... . ........... 187

7.5

7.6

Ch 8 : L'analyse canonique et la comparaison de groupes de variables .......... 189


8.1 Analyse canonique pour deux groupes. . . . . . . . . . . . . . .. . ................ 189
Recherche des variables canoniques ........ ' ........................ 8.1.1.1 tude de la solution dans [R" ...................... 8.1.1.2 Solutions dans ~l' et lH1'i .......... 8.1.2 Reprsentation des variables et des individus. . . . . . . . . . . . .. . ......... 8.1.3 Test du nombre de variables canoniques significatives .................. lVlthodes non symtriques pour deux groupes de variables ................. 8.2.1 Mthodes procuslennes de comparaison de deux contigu rations d'individus . . . . . . . . . . . . . . . . . . . . . . . . . . .. . .. 8.2.2 Mthodes factorielles ........................................... 8.2.2.1 L'analyse en composantes principales de variables instrumentales (ACPVI) ................................. 8.1.1 190 190 191 193 194 194 194 196 196

8.2

xiv

.Table des matires

8.3

8.2.2.2 ACP sous contrainte d'orthogonalit. . . . . . . . . . . . . . . . . . . . .. . 197 8.2.2.3 ACP des covariances partielles ............................ 197 L'analyse canonique gnralise ....................................... 197
8.3.1 8.3.2 Une proprit de l'analyse canonique ordinaire. .. . .................. 197 La gnralisation de J.O. Carroll (1968) ............................ 198

Ch 9 : L'analyse des correspondances .................................... 201


9.1 Tableau de contingence et nuages associs ............................... 201
9.1.1 Reprsentations gomtriques des profils associs un tableau de contingence ...................................... :W l La mtrique du X2 203

9.2

9.1.2 Analyse en composantes principales des deux nuages de profils '" .......... 205 9.2.1 ACP non centres et facteur trivial. . . . . . . .. . ...................... 205 9.2.2 ACP non centres des nuages de profils ............................. 206 9.2.3 Formules de transition .......................................... 207
9.2.4 Trace et reconstitulol1des donnes ............................... 9.2.4.] Dcomposition du c.p2 ........... 9.2.4.2 Formule de reconstitution ................................ Chox du nombre de valeurs propres en AFC ......................... 208

208
209

9.2.5 209 9.3 Un exemple ....................................................... 210 9.4 Analyse canonique de deux variables qualitatives, justification de la reprsentation simultane ....................................... 212 9.4.1 Mise sous forme disjonctive de donnes qualitatives ................... 212
9.4.2 9.4.3 9.4.4 Quantifications de variables qualitatives ............................ Analyse canonique des deux groupes d'indicatrices. . . . . . . . . . . . . .. . ... Reprsentation simultane optimale des (111 1 + 1112) catgories d'individus ............................... La mlhode des moyennes rciproques ............................. Conclusion..................... . ........................... 213 214 215 217 217

9.4.5
9.4.6

Ch 10 : L'analyse des correspondances multiples ............................ 219


10.1 Prsentation formelle. . . . . . . . . .. ................. . .............. 219
10.1.1 10.1.2 Donnes et notations ........................................ 219 Une proprit remarquable pour p = 2 ........................... 220 10.1.2.1 AFC formelle du tableau disjonctif ..................... 220 10.1.2.2 Proprits particulires des valeurs propres ct vecteurs propres ................................. 221 Le cas gnral p > 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . .... 222 10.1.3.1 Coordonnes des catgories ........................... 222 10.1.3.2 Coordonnes des individus ............................ 223 10.1.3.3 Formules de transition et relations barycentriques .......... 224 JO.1.3.4 Proprits des valeurs propres ......................... 225 10.1.3.5 AFC du tableau de Burt. ............................. 226 Analyse canonique gnralise de p tableaux d'indicatrices ........... 227

10.1.3

10.2 Autres prsentations .............................................. 226


10.2.1

_ Table des matires

xv
Un critre d'association maximale .............................. Quantification optimale de variables qualitatives ................... 10.1.3.1 ACP de variables quantifies .......................... 10.2.3.1 Guttman et l'homognit maximale .................... Approximation d'ACP non linaire .............................

10.3

1004

227 228 228 228 230 10.2.4 Pratique de l'analyse des correspondances multiples .................... 131 10.3.1 Les contributions ........................................... 231 10.3.1.1 Contributions un axe factoriel. . . . . . . . . . . . .. . ........ 231 10.3.1.2 Contributions l'inertie totale ......................... 132 10.3.1 L'usage de variables supplmentaires . . ........................ 233 Un exemple: les races canines ....................................... 234 10.1.2 ]0.2.3

Ch Il : lVlthodes'de classification ....................................... 243


Il.1 Gnralits.............................................. . ..... 143
Distances et dissimlarits .................................... 143 1] .1.1.1 Dfinitions ........................................ 143 L1.1. 1.2 Similarits entre objets dcrits par des variables binaires ..... 244 11.1.1.3 Accord entre distances et dissimilarts ... , ........... , .. 245 11.1.2 Accord entre partitions, indice de Rand .......................... 245 Il.1.2.1 Tableau des comparaisons par paires associ une partition .... 245 11.1.2.2 Accord entre deux partitions ................. . .. . .... 246 11.1.3 Aspecls combinatoires de la classification ........................ 247 1 1.1.3.1 Nombre de partitions en k. classes de Il lments ........... 247 11.1.3.2 Nombre total de partitions Pn (nombre de Bell) ............ 148 Il.1.4 Sur l'existence et la caractrisation des classes d'un ensemble ........ 249 Les mthodes de partitionnement ................................... 250 Il.2. 1 Les mthodes du type nues dynamiques}) ou k-mealls ............ 250 1l.2.1.1 Inertie interclasse et inertie ntmclasse ..... , ............ 250 1 1.2.1.2 La mthode des centres mobiles ....................... 250 11.2.2 La mthode de Condorcet .................................... 252 11.3.1 Il.] .1

11.2

11.3 rvfthodes hirarchiques ................................. , ......... 254


Aspect fonne! ............................................. 254 11.3.1.1 Hirarchie de parties d'un ensemble E .................. 254 Il.3.1.2 Distances ultramtriques ............................. 255 1] .3.2 Stratgies d'agrgation sur dissimilarits . . . . . . . . . .. . ............ 256 11.3.2.1 Le saut minimum .................................. 257 L1.3.1.2 Le diamtre et aUlres stratgies ....................... , 258 Il.3.3 La mlhode de Ward pour distances euclidiennes .................. 258 11.3.4 Classification de donnes qualitatives ., ......................... 259 11.3.5 Considrations algorithmiques ................................ 260 11.4 Mthodes mixtes pour grands ensembles ............................. 261 11.5 Classification de variables . . . . . . .. ............................. .. 261 11.5.1 Variables numriques ....................................... 161 11.5.2 L'approche de Lennan et l'algorithme de la vraisemblance du lien ..... 262

xvi

_Table des madres

11.6 Exemples ...................................................... 262


1 1.6.1 11.6.2 Donnes voitures ........................................... Vacances ................................................. 11.6.2.1 Classification des professions ......................... 11.6.2.2 Classitication des modes d'hbergement ................. Races canines ............................................. 262 264 264 265 266

11.6.3

Troisime partie: Statistique infrentelle Ch 12 : Distributions des caractristiques d'un chantillon ................... 271
12.1

Fonction de rpartition d'un chantillon, statistiques d'ordre et quantiles ... 272


Fonction de rpartition empirique d'un chantillon ................. 272 Convergence de F,t(x) vers F(x) ............................... 273 chantillons ordonns et lois des valeurs extrmes ................. 273 12.1.3.1 Loi de YI = inf Xi .................................. 274 12.1.3.2 Loi de }~I = sup XI' ................................. 274 12.1.3.3 Loi de l'tendue W ................................. 274 12.1.3.4 Loi de Yi,:' . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . ......... 275 12.1.3.5 Rsultats asymptotiques pour les extrmes ............... 275 12.1.3.6 Distributions asymptotiques des quantiles ................ 276 Distributions d'chantillonnage de certains moments ................... 276 12.2.1 tude de la statistique X ..................................... 276 12.2.1.1 Proprits lmentaires .............................. 276 12.2.1.2 Lois des grands nombres ............................. 277 12.2.1.3 Application: loi d'un pourcentage ..................... 278 12.2.2 de la statistique S2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 279 12.2.2.1 Proprits ........................................ 279 12.2.2.2 Thorme limite pour S:! ............................. 280 12.1.2.3 Corrlation entre ct S2 ............................ 280 12.2.3 Cas des chantillons gaussiens ................................ 281 12.2.3.1 Loi de X ......................................... 281 Il.2.3.2 Loi de S1 et indpendance entre X et S2. . . .. . ........... 281 12.2.3.3 Esprance ct variance des principales caractristiques d'un chantillon gaussien ............................ 283 12.2,4 Application aux cartes de contrle ............................. 284 12.1.1 12.).2 12.1.3

12.2

Distribution du centre de gravit et de la matrice de variance d'un chantillon gaussien p-dimensionnel ............................. 285 12.4 La mthode ( delta et les statistiques asymptotiquement normales ....... 286
12.3 12,4.1 12.4.2 Stabilisation de la variance d'un pourcentage .................... 286 Stabilisation de la variance d'une loi de Poisson ............... " . 287 Valeurs propres d'une matrice de variance ....................... 287 Gnralisation au cas multidimensionnel ......................... 287

12.4.3 t 1.4,4

.Table des matires

xvii

Ch 13 : L'estimation .................................................. 289


13. t Gnralits ..................................................... 289 13.1.1 Exemples lmentaires ...................................... 289 13 .1.2 Qualits d'un estimateur ..................................... 289 L3.1.3 Recherche du meilleur estimateur d'un paramtre e ................ 291 L'exhaustivit ................................................... 291 13.2.1 Dfinition d'une statistique exhaustive ....................... .. 291 13.2.2 Lois pennettant une statistique exhaustive ........................ 193 13.2.3 L'information de Fisher ...................................... 295 13.2.4 Gnralisation il plusieurs dimensions e paramtre vectoriel E Dl<' .................. 297 L'estimation sans biais de variance minimale .......................... 298 13.3.1 Les rsultats thoriques ...................................... 298 l3.3.2 Exemple ................................................. 300 13.3.3 Ingalit de Frchet-Darmos-Cramer-Rao (FDCR) . . . . . . . . . . . , .. 301 La mthode du maximum de vraisemblance (lVIV) ..................... 305 L'estimation par intervalles (les fourchettes d'une estimation) ............ 307 13.5.1 Principe ................................................. 307 13.5.2 Esprance d'une variable normale .............................. 309 13.5.2.1 cr est connu ....................................... 309 13.5.2.2 cr est inconnu ..................................... 309 13.5.3 Variance d'une loi nonnale ................................... 309 13.5.3.1 111 est connu ....................................... 309 13.5.3.2 III est inconnu ..................................... 310 13.5.4 Intervalle de confiance pour une proportion p ..................... 310 13.5.5 Intervalle de confiance pour le paramtre d'une loi de Poisson ................................................ 3 L3 13.5.6 Ellipsode de confiance pour la moyenne d'une loi de Gauss multidimensionnelle .... . . . . . . . . . . . . . . . . . . . . . . . . . .. . .. 314 Intervalles de prdiction et de tolrance .............................. 315 13.6.1 Prvision d'une valeur d'une loi normale ........................ 315 13.6.2 Ellipsode de tolrance pour une distribution normale Nfl{P. ; I.) ....... 316 Estimation baysenne ............................................ 317 l3.7.1 Prsentation................................. . ........... 317 13.7.2 Estimation baysienne de la moyenne f.l. d'une loi normale de variance connue ......................................... 3 17 13.7.3 Estimation baysienne d'une proportion p ........................ 3l8 l3.7.4 Gnralisation ............................................. 319 Notions sur l'estimation robuste ......... . . . .. . .................... 319 Estimation de densit ............................................. 32 L 13.9.1 Gnralits ............................................... 321 13.9.2 De l'histogramme la fentre mobile ........................... 322 13.9.3 Lu mthode du noyau (Parzen) ................................ 323
#

13.2

13.3

13.4 13.5

13.6

13.7

13.8 13.9

xviii

_Table des matires

Ch 14 : Les tests statistiques ............................................ 325


14.1 Introduction............................................ . ...... 325
Les faiseurs de pluie ........................................ 325 Les grandes catgories de tests ................................ 327 14.2 Thorie classique des tests ......................................... 328 14.2.1 Risques et probabilits d'erreur ................................ 328 ] 4.2.2 Choix de la variable de dcision et de la rgion critique optimales: la mthode de Neyman et Pearson .............................. 329 14.2.3 tude de 1 - f3 : puissance du test ............................. 331 14.2.4 Tests et statistiques exhaustives . . . . . . . . . . . . . . . . . . . . . .. . ....... 332 14.2.5 Exemple ................................................. 332 14.2.6 Tests entre hypothses composites ................. . .......... 333 14.2.6.1 Test d'une hypothse simple contre une hypothse composite ....................... 333 14.2.6.2 Test entre deux hypothses compostres .. . .............. 334 14.2.6.3 Test du rapport des vraisemblances maximales ............ 334 14.2.7 Niveau de significaon, risques. vraisemblance et approche baysienne . . .. . .................................. 336 14.3 Tests portant sur un paramtre ..................................... 337 14.3.1 Moyenne d'une loi LG(nl, cr) ................................. 337 14.3.1.1 cr connu ................................... . .... 337 14.3.1.2 0' inconnu ........................................ 338 14.3.2 Variance d'une loi de LG(m, cr) ................................ 338 14.3.2.1 111 connu ......................................... 338 14.3.2.2 111 inconnu ........................................ 338 14.3.3 Test de la valeur thorique p d'un pourcentage pour un grand chantillon .................................... 339 14.4 Tests de comparaison d'chantillons ................................. 339 14.4.1 Tests de Fisher-Snedecor et de Student pour chantillons indpendants .............................................. 339 14.4.1.1 Cas de deux chantillons gaussiens X, E LG(m,. crI) et X2 E LG(m1' 0'2)' . . . . . . . . . . . . . . . . . . . . . . . . 340 14.4.1.2 Comparaison de moyennes en cas de variances ingales .......................................... 342 14.4.1.3 Cas d'chllnti11ons non gaussiens ...................... 342 14.4.2 Tests non paramtriques de comparaison de deux chantillons indpendants ............................. 342 14.4.2.1 Test de Smimov ........................... . ...... 342 14.4.2.2 Test de Wilcoxon-Mann-Whitney ........... . ......... 343 14.4.3 Test non paramtrique de comparaison de plusieurs chanti110ns dcrits par une variable qualitative: le test du X1 . . . . . . . . . . . . . . . . . . . 345 14.4.4 Test de comparaison de deux pourcentages (grands chantillons) ...... 346 14.4.5 Comparaison des moyennes de deux chantillons gaussiens indpendants p dimensions de mme malrice de variance ........... 347 14.4.5.1 Test de HoteHing ................................... 348 14.4.5.2 Distance de Mahalunobs ............................ 348 14.1.1 14.1.2

.Table des matires

xix

Comparaison de moyennes d'chantillons apparis ................. 349 14.4.6.1 Le cus gaussien. . . . . . . .. . ........................ 349 14.4.6.2 Test des signes .................................... 350 14.4.6.3 Le test de Wilcoxon pour donnes apparies. . .......... 350 14.4.7 Comparaison de variances d'chantillons apparis ................. 351 14.4.8 Le test de Mc Nemar de comparaison de deux pourcentages pour un mme chantllon .................................... 351 14.5 L'analyse de variance. . .. . ....................................... 352 ]4.5.1 Analyse de variance un facleur ............................... 353 14.5.1.1 Les donnes el le modle ............................ 353 14.5.1.2 Le lest ........................................... 353 14.5.1.3 L'estimation des effets .............................. 355 14.5.1.4 Comparaisons multiples de moyennes .................. 355 ... 14.5.1.5 TeSl de comparaison de k variances. . . . . . . . . . . . . . . . . . .. 356 14.5.2 Analyse de variance deux facteurs ............................ 357 14.5.2. L Le modle ........................................ 357 14.5.2.2 L'quation d'analyse de variance et le test ................ 357 14.5.2.3 L'estimalion des effets .............................. 358 14.5.2.4 Le cas du plan sans rptition ......................... 359 14.6 Tests et procdures d'ajustement ................................... 359 14.6.1 Les mthodes empiriques .................................... 359 14.6.1.1 La forme de l'histogramme ........................... 359 14.6.1.2 Vrification sommaire de certaines proprits mathmaLiques .................................... 360 14.6.1.3 Ajustements graphiques ............................. 360 14.6.2 Les tests statistiques gnraux ................................. 362 14.6.2.1 Le test du X2 362 14.6.2.2 Le test d'ajustement de Kolmogorov .................... 364 14.6.2.3 Le test d'ajustement de Cramer-von Mises ............... 364 14.6.3 Exemples d'application en fiabilit et en phnomnes d'attente ........ 365 14.6.3.1 Test du caractre exponentiel d'une loi de survie ........... 365 14.6.3.2 TeSl du camctre poissonnien des arrives une file d'attente. 367 14.6.4 Tests de normalit .......................................... 369 14.7 Quelques limites des tests .................. ,. . .................. 370

14.4.6

Ch 15 : Mthodes de Monte-Carlo et de rchantillonnage (Jack-knife, bootstrap) .................................................... 371


15.1

Gnration de variables alatoires .................................. 371


15.1.1 15.1.2 Gnration de variables uniformes sur lO ; 1] ..................... Mthodes gnrales de d'un chantillon artificiel de TI valeurs d'une variable alatoire X conLnue ................ .. 15.1.2.1 Inversion de la fonction de rpartition ................... 15.1.2.2 Mlhode du rejet de von Neumann ..................... Mthodes spcifiques ....................................... 15.1.3.1 Variable de Bernoulli X de paramtre p .................. 15.1.3.2 Loi 'YI) avec P enlier ................................. 371 372 372 372 374 374 374

15.1.3

xx
15.1.3.3 15.1.3.4

aTable des matires

Loi de Poisson {Jl() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374 Variable de Laplace-Gauss ........................... 375 15.2 Applications .................................................... 376 15.2.1 Simulation de fonctions de variables alaloires . . . . . . . . . .. . ....... 376 15.2.2 Calcul d'une intgrale par la mthode de Monte Carlo .............. 377 15.2.3 Distributions d'chantillonnage de statistiques complexes ............ 378 15.2.4 Donnes manquantes el imputation multiple ...................... 379 15.3 Mthodes de rchantiIJonnage ..................................... 380 15.3.1 Le bootslrap .............................................. 380 15.3.2 Le Jack-knife ............................................. 382 15.3.2.1 Dfinition ........................................ 382 15.3.2.2 Rduction du biais ................................. 382 15.3.2.3 Intervalle de confiance .............................. 383

Quatrime partie: Modles prdictifs 1

Ch 16 : La rgression simple ............................................ 387


16.1 Le modle thorique de la rgression simple .......................... 387
L'approximation conditionnelle ................................ 387 Cas o la rgression est linaire ............................... 388 16.2 Ajustement sur des donnes ........................ . ............. 389 16.2.1 Estimation de CL, 13, cr:! par la mthode des moindres carrs ........... 390 16.2.2 Proprits des carts rsiduels ................................. 393 16.2.3 Cas o le rsidu E suit une loi normale .......................... 394 16.3 Tests dans le modle linaire ....................................... 395 16.3.1 Analyse de variance de la rgression ............................ 395 16.3.2 Test d'une quation de rgression spcifie ....................... 396 16.3.3 Test de linarit de la rgression ............................... 397 16.3.4 Contrle des hypothses du modle linaire ............. . ....... 397 16.4 Applications .................................................... 398 16.4.1 Exemple ................................................. 398 16.4.2 Prvision d'une valeur ultrieure ............................... 401 16.5 Une mthode de rgression robuste .................................. 403 16.6 Rgression non paramtrique ...................................... 404

16.1.1 16.1 .2

Ch 17 : La rgression multiple et le modle linaire gnral ................... 407


17.1 Rgression et modle linaire ...................................... 407
17.1.1
Rgression entre variables alatoires ............................ 407 17.1.1.1 Aspect empirique: la recherche d'un ajustement linare .... 407 17.1.1.2 Modle probabiliste: l'hypothse de rgression linaire multiple ................................... 408 Le modle linaire gnral ................................... 409 17.1.2.1 Aspect empirique .................................. 409 17.l.2.2 Modle probabiliste ................................ 411 Synthse ................................................. 411

17.1.2

17.1.3

_ Table des matires

xxi

17.2

17.3

17.4

17.5

17.6

17.7

Estimation et tests des paramtres du modle (y; X(3 ; CT 2I) .... . ........ 412 17.2.1 Estimation de (3 et cr2 . . 412 17.2.1.1 Proprits gnrales ................................. 412 17.2.1.2 Proprits supplmentaires si e est gaussien ............... 414 17.2.1.3 Lois des cts du triangle reclangley,y*, X(3 ............. 415 17.2.1.4 Le modle (y; X(3; I) ............... , .............. 415 17.2.2 Tests dans le modle linaire .................................. 416 17.2.2.1 Le coefficient de corrlation multiple R et l'analyse de variance de la rgression .......................... 416 17.2.2.2 Test du caractre significatif d'un des coefficients de rgression ...................................... 417 17.2.2.3 Test de q coefficents de rgression, test d'une sous-hypothse linaire ...................... 418 17.2.3 ... Intervalle de prvision pour une valeur future ..................... 419 L'analyse des rsultato; ............................................ 419 17.3.1 L'tude des rsidus et des observations influentes .................. 419 17.3.2 La stablt des coefficients de rgression ......................... 421 17.3.2.1 Le facteur d'inllation de la variance (VIF) ................ 422 17.3.2.2 Le rle des valeurs propres de R ....................... 422 Slection de variables ............................................. 421 17.4.1 Les critres de choix ....................................... 422 17.4.2 Les techniques de slection ................................... 413 1704.2.1 Recherche exhaustive ............................... 423 17.4.2.1 Les mthodes de pas pas ............. . ............ 423 Traitement de la multicolinarit ................................... 424 17.5.1 Rgression sur composantes principales ......................... 424 17.5.2 La rgression ~( ridge}) ...................................... 425 17.5.3 La rgression PLS .......................................... 426 Un exemple ..................................................... 428 17.6.1 Rsultats de la rgression complte ............................. 428 17 .6. L l Analyse de variance de la rgression .................... 429 17.6.1.2 Estimation des paramtres ............................ 429 17.6.1.3 tude des rsidus et de l'influence des observations ........ 430 17.6.2 Recherche d'un modle restreint ............................... 431 Prdicteurs qualitatifs ............................................ 436 17.7.1 Le principe de quantification optimale .......................... 436 17.7.2 Retour sur l'analyse de la variance ............................. 436 17.7.3 Exemple: prix d'une voiture (suite) ............................ 437

Ch 18 : Analyse discriminante et rgression logistique ....................... 439


18.1 Mthodes gomtriques ........................................... 18.1.1 Variances interclasse et intraclasse ............................. 18.1.2 L'analyse factorielle discriminante (AFD) ........................ 18. t .2.1 Les axes et variables discriminantes .................... 18.1.2.2 Une analyse en composantes principales (ACP) particulire .. 18.1.2.3 Une analyse canonique particulire ..................... 440 440 442 442 444 444

xxii

_ Table des matires

18.2

18.3

18.4

18.5

18.6

18.7

18.1.204 AnaLyse de variance el mtrique W- l . . . . . . . . . . . . . . . . . . . 445 18.1.2.5 Un exemple classique: les iris de Fisher ................. 446 18.1.3 Rgles gomtriques d'affectation .............................. 447 18.1.3.1 Rgle de Mahalanobis-Fisher .. . ..................... 447 18.1.3.2 Insuffisance des rgles gomtriques .................... 448 Fonction de Fisher et distance de Mahalanobis pour deux groupes ........ 449 18.2.1 La fonction de Fisher (1936) .................................. 449 18.2.2 Application de l'analyse canonique .......................... , .450 18.2.3 quvalence avec une rgression muLtiple inhabituelle .............. 45 f 18.204 Fonctions de classement et fonction de Fisher .......... , .......... 452 18.2.5 Exemple infarctus ............................. _ ......... 452 Les SVM ou sparateurs vaste marge ............................ __ 456 18.3.1 L'hyperplan optimal ... . ................................... 457 18.3.1. i Le cas spamble ...................... . ........... 457 18.3.1.2 Le cas non-sparable ................................ 459 18.3.2 Changement despi:c~: ..................................... 460 Discrimination sur variables qualitatives ............................. 46 f 1804.1 Discriminante sur variables indicatrices ......................... 461 18.4.2 Discrimination sur composantes d'une ACM . . . . . . . . . . . . . .. . ..... 461 1804.3 Un exemple de credit scoring .............................. 462 Analyse discriminante probabiliste .................................. 467 18.5.1 La rgle baysienne et le modle gaussien ............ . ......... 467 18.5.1.1 Le cas d'galit des matrices de variance covariance ........ 468 18.5.1.2 Deux groupes avec galit des mutrices de variance ........ 469 18.5.1.3 Taux d'erreur thorique pour deux groupes avec~! ~2' 471 18.5.1.4 Tests et slection de variables ................. _ _ ..... 472 18.5.2 Mthodes non paramtriques 474 Rgression logistique binaire (deux groupes) ....... _.................. 475 L8.6.1 Interprtation ............................................. 475 18.6.2 Estimation .................... . ......................... 476 18.6.3 Tests et slection de variables ............. _ ................... 478 18.6.4 Comparaison avec l'analyse discriminante linaire ................. 480 Validation ............................................. . ..... 481 18.7.1 Procdure de classement ..................................... 481 18.7.2 Validit d'un score, courbe ROC, AUe. .......................... 482

Ch 19 : Mthodes algorithmiques, choix de modles et principes d'apprentissage .... 487


19.1 Arbres de rgression et de discrimination ........................... _487 19.1.1 Dveloppement d'un arbre binaire ............. . .............. 488 . ... _ ........ 488 19.1. L.l Arbres de rgression.. _............. 19. L 1.2 Discrimination en k classes .......................... ,488 19.1.1.3 Discrimination en deux classes ........................ 489 J9.1.2 Utilisation d'un arbre ....................................... 489 19.1.3 Slection d'un sous-arbre ............................ _ ....... 490 19.104 Avantages et inconvnients ............ _...................... 491

.Table des matires

xxiii

19.2

Rseaux de neurones ............................................. 493


19.2.1 19.2.2 Le perceptron multicouche ................................... 494 L'estimation................................. . ........... 495 Combinaison de modles .......................................... 496 19.3.1 Retour sur le bootstrap ...................................... 496 19.3.2 Le boosting ............................................... 496 Choix de modles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . ...... 497 19.4.1 Critres de vraisemblance pnalise ................ . ......... 497 19.4.1.1 Le critre AIC d'Akak ............................. 498 19.4.1.2 Le critre BIC de Schwartz ........................... 498 19.4.1.3 Elments de comparaison el de rflexion ................. 499 19.4.2 Approche empirique ...... . . . . . . . . . . . . . . . . . .. . ............. 500 19.4.2.1 Le dilemme biais-variance ........................... 500 .. 19.4.2.2 Evaluation et chox de modle ........................ SOl Les apports de la thorie statistique de l'apprentissage de V. Vapnik ..... 502 19.5.1 Risque et risque empirique ................................... 502 19.5.2 La VC-dimension et l'ingalit de Vapnik ........................ 503 19.5.3 Le principe de minimisation structure du risque .................. 505 Prdire ou comprendre '! .......................................... 506

19.3

19.4

19.5

19.6

Cinquime partie : Recueil des donnes

Ch 20 : Sondages ..................................................... 511


20.1 Objectifs et notations ............................................. 511
Gnralits ............................................... 511 Notations ................................................ 511 Le sondage alatoire simple ........................................ 512 20.2.1 Estimation de la moyenne .................................... 512 20.2.2 Algorithmes de tirage ....................................... 513 Sonduge probabilits ingales ..................................... 514 20.3.1 L'estimateur de Horvitz-Thompson ............................. 514 20.3.2 Le tirage ................................................. 515 Stratification ................................................... 515 20.4.1 Formules de base .......................................... 516 20.4.2 Rpartition proportionnelle ................................... 516 20.4.3 Rpartition optimale ........................................ 517 Sondage en grappes et tirage systmatique ............................ 518 20.5.1 de grappes probabilits ingales ........................ 518 20.5.2 de grappes probabilits gales .......................... 519 20.5.3 syslmatique ...................................... 519 Redressement ................................................... 519 20.6.1 Quotient, rgression ........................................ 519 20.6.2 Post-stratitication .......................................... 520 20.6.3 Poids de redressement ....................................... 52 L 20.1.1 20.\.2

20.2

20.3

20.4

20.5

20.6

xxiv

'I11III Table

des matires

Ch 21 : Plans d'expriences ............................................. 523


21.1 Introduction........ . .......................................... 523
21.1.1 21. 1.2 Vocabulaire ............................................... 523 Optimalit et orthogonalit ................................... 525 Plans pour facteurs quantitatifs et modle linaire du premier degr ....... 525 21.2.1 Le cas de la rgression simple ................................. 526 21.2.2 Plans orthogonaux pour p facleurs ............................. 526 21.2.2.1 Le plan factoriel complet ............................ 526 21.2.2.2 Plans fractionnaires de type 211 '1;. el plans de Plackett et Burman ............................... 528 21.2.3 Exemple ................................................. 530 Quelques plans pour surfaces de rponse du second degr ................ 532 21.3.1 Plans composites faces centres .............................. 532 21.3.2 Plans composites gnraux ................................... 534 21.3.3 Plans de Box-Behnkcn ...................................... 535 21.3.4 Application un problme d'optimisation ........................ 537 Plans pour facteurs qualitatifs ...................................... 538 21.4.1 Orthogonalits ............................................. 538 21.4.2 Facleurs III niveaux ........................................ 539 21.4.2.1 Carrs latins ...................................... 539 21.4.2.2 Carrs grco-latins ................................. 540 21.4.3 Plans asymtriques ......................................... 541 21.4.3.1 Un exemple de fusion ................................... 541 21.4.3.2 Un exemple de compression .............................. 542 Construction algorithmique de plans optimaux ........................ 543

21.2

21.3

21.4

21.5

Annexes ............................................................ 545


1. 2. 3. 4. 5. Tables usuelles ......................................................... 547 Formulaire ............................................................ 591 Calcul des fonctions de rpartition de certaines lois continues ..................... 595 Les fonctions eulriennes r el B . ........................................... 599 Quelques rsultats utiles d'algbre linaire .................................... 603

Bibliographie ......................................................... 609 Index des noms ....................................................... 615 Index .............................................................. 619

Introduction

Les mthodes statistiques sont aujourd'hui utilises dans presque tous les secteurs de l'activit humaine et font partie des connaissances de base de l'ingnieur, du gestionnaire, de l'conomiste, du biologiste, de l'informaticien ... Parmi les innombrables applications dans le domaine industriel: la tiabilit des matriels, le contrle de qualit, l'analyse des rsultats de mesure et leur planification, la prvision, et dans le domaine de l'conomie et des sciences de l'homme: les modles conomtriques, les sondages, les enqutes d'opinion, les tudes quantitatives de march, etc. Nous allons tenter de prciser dans les paragraphes suivants les notions fondamentales de la statistique et les rapports qu'elle entretient avec la thorie des probabilits ainsi que ce qu'on entend par dmarche statistique.

LA STATISTIQUE, LES STATISTIQUES ET LE CALCUL DES PROBABILITS


Selon la dfinition de l'Encyc/opedia Ulliversalis : Le mot statistique dsigne la fols un ensemble de donnes d'observatIons et l'activit qui consiste dans leur recueil, Jeur tratement et leur interprtation . Ainsi le relev des dbits journaliers d'une rivire de 1971 1983 consttue une statistique tandis que faire de la statistique sur ces donnes consisterait par exemple, tracer des graphiques mettant en vidence la priodicit du phnomne, calculer un dbit moyen ou prvoir la valeur maximale de la crue annuelle.

Individus et variables
Dfinitions gnrales
Faire de la statistique suppose que l'on tudie un ensemble d'objets quivalents sur lesquels on observe des caractristiques appeles variables )). Ainsi en contrle de fabrication on prlvera un ensemble de pices dans une production homogne et on mesurera leur poids, leur diamtre. En marketing on tudiera les clients

xxvi

_Introduction

d~une

entreprise en les dcrivant par leurs caractristiques socio-dmographiques et leurs achats passs.

La notion fondamentale en statistique est celle de groupe ou d'ensemble dobjets quivalents que l'on appelle population. Ce terme hrit des premires applications de la statistique la dmographie est employ pour dsigner toute collection d'objets tudier ayant des proprits communes. Ces objets sont appels des individus ou units statis-

tiques.
La statistique traite des proprits des populations ou de sous-populations plus que de celles d'individus particuliers: Gnralement la population tudier est trop vaste pour pouvoir tre observe exhaustivement : c'est videmment le cas lorsque la population est inti nie : par exemple l'ensemble de toutes les pices mtalliques que pourrait sortir une machine dans des conditions de fabrication dtermines, mais c'est aussi le cas lorsque les observations sont coteuses (contrle destructif entre autres). L'lude de LOUS les individus d'une population finie s'appelle un recensement. Lorsque l'on n'observe qu'une de la population on parle de sondage, la partie tudie s'appellant Ichantillon. Chaque individu d'une population est dcrit par un ensemble de caractristiques appeles variables ou caractres. Ces variables peuvent tre classes selon leur nature: variables quantitatives ou numriques: par exemple taille, poids. volume, s'expriment par des nombres rels sur lesquels les oprations arithmtiques courantes (somme, moyenne, ... ) ont un sens. Certaines peuvent tre discrtes (nombre fini ou dnombrable de valeurs) : nombre de dfauts d'une pice, de vhicules passant en une heure un page, etc. ou continues si toutes les valeurs d'un intervalle de IR; sont acceptables. variables qualitatives s'exprimant par l'appartenance une catgorie ou modalit d'un ensemble fini. Certaines sont purement nominales: par exemple type de traitement thermique subi par un alliage, catgorie socio-professionnelle d'un actif (ouvrier, cadre, employ ... ), d'autres sont ordinales lorsque l'ensemble des catgories est muni d'un ordre total; par exemple: trs rsistant, assez rsistant, peu rsistant. Le concept cl en statistique est la variabilit qui signifie que des individus en apparence semblables peuvent prendre des valeurs diftrentes : ainsi un processus industriel de fabrication ne fournt jamais des caractristiques parfaitement constantes. L'analyse statistique est pour l'essentiel une tude de la variabilit: on peut en tenir compte pour prvoir de faon probabiliste le comportement d'individus non encore observs, chercher la rduire ou l'expliquer l'aide de variables extrieures, ou chercher l'augmenter dans le but de distinguer le mieux possible les individus entre eux.

Tableaux de donnes
On prsente usuellement sous forme de tableau Il les donnes recueillies sur Il individus. Lorsque l'on observe uniquement des variables numriques le tableau a la forme d'une matrice Il et p colonnes de terme gnral x~ :

_Introduction

xxvii
..,

Xl

x-

xj

xl'

r}

Il

Lorsque les variables sOf!t toutes qualitatives, le tableau o x1 dsigne le numro de la catgorie de la variable gel laquelle appartient l'individu i est le tableau des codages rduits. Les numros des modalits tant arbitraires, on lui associera le tableau disjonctif ml + m? + ... + 1111, colonnes constitu de la faon suivante: A toute variable I1lj catgories on substitue un ensemble de /1Ij variables valant 0 ou 1 (les indicatrices des catgories), Ainsi au tableau 5 X 3 des observations sur 5 individus de 3 variables ri 2, 3 et 2 modalits respectivement:

2 3

2 2 222
correspond le tableau disjonctif 5 lignes et 7 colonnes suivant:

0-0 1 0:0 0 1: ] 0 1:0 1 o: l

o. 1
0 0 0

0 1: 1 0 0:0 0:0 1 0: 1 0

Mentionnons enfin les tableaux de contingence ou tableaux croiss qui rsultent d'un premier traitement et fournissent la ventilation de Il individus selon deux variables qualitatives 1111 el ml modalits:
1

2 j

111'2

N=
1111

IZij

xxviii

_Introduction

o nij est le nombre d'individus appartenant simultanment aux catgories deux variables.

et j des

Statistique et probabilits
La thorie des probabilits est une branche des mathmatiques qui traite des proprits de certaines structures modlisant des phnomnes o Je hasard intervient. En tant que thorie mathmatique abstraite, elle repose sur une axiomatique et se dveloppe de faon autonome par rapport la ralit physique. Seuls les noms des concepts utiliss (vnements, variables ... ) renvoient l'exprience. La thorie des probabilits permet de modliser efficacement certans phnomnes alatoires et d'en faire l'tude thorique. Quels sont ses liens avec la statistique qui repose plutt sur l'observation de phnomnes concrets? On peut en voir schmatiquement trois: tout d'abord les donnes observes sont souvent imprcises, entaches d'erreur. Le modle probabiliste permet alors de reprsenter comme des variables alatoires les dviations entre ~< vraies ), valeurs et valeurs observes. Deuximement on constate souvent que la rpartition statistique d'une variable au sein d'une population est voisine de modles mathmatiques proposs par le calcul des probabilits (lois de probabilit). Enfin et c'est il notre avis le rle le plus important du calcul des probabilits, les chantillons d'individus observs sont la plupart du temps tirs au hasard dans la population, ceci pour assurer mathmatiquement leur reprsentativit: si le tirage est fait de manire quiprobable chaque individu de la population a une probabilit constante et bien dfinie d'appartenir l'chantillon. Les caractristiques observes sur l'chantillon deviennent, grce ce tirage au sort, des variables alatoires et le calcul des probabilits permet d'tudier leurs rpartitions. Mentionnons ici les mthodes de validation par rchantillonnage (bootstrap, validation croise) qui consistent re-tirer des observations l'intrieur de l'chantillon initial. Il faut bien distinguer ce dernier rle du calcul des probabilits des deux premiers: dans les premiers cas le calcul des probabilits propose des modles simplificateurs, ventuellement contestables, du comportement d'un phnomne (par exemple supposer que la dure de vie X d'un composant lectronique suit une loi exponentieIJe P(X > x) = exp (- ex)) : dans le dernier cas, le calcul des probabilits fournit des thormes si le processus d'chantillonnage est respect: ainsi le thorme centrallimte permet d'tablir que la moyenne x d'une variable numrique mesure sur rz individus s'carte de la moyenne m de la population selon une loi approximativement gaussienne. Le calcul des probabilits est donc un des outils essentiels de la statistique pour pouvoir extrapoler la population les rsultats constats sur l ~ chantillon mais on ne peut y rduire la statistique: ct du calcul des probabilits, la statistique utilise des mathmatiques assez classiques (algbre linaire, gomtrie euclidienne) et de plus en plus l'informatique, car les calculs mettre en uvre ncessitent l'emploi d'ordinateurs: J'informatique a rvolutionn la pratique de la statistique en permettant la prise en compte de donnes multidimensionnelles ansi que l'exploration rapide par simulation de nombreuses hypothses.

_Introduccion

xxix

Ce livre met plus l'accent sur les techniques et la dmarche statistiques que sur la tho~ rie des probabilits, conue ici comme un outil pour la statistique et non comme un objet d'tude en elle-mme.

LA DMARCHE STATISTIQUE CLASSIQUE


Elle comporte usuellement trois phases : le recueil, l'exploration! l'infrence et la modlisation.

Le recueil des donnes


En dehors des cas o les donnes sont dj disponibles, il est ncessaire de les collecter. Les deux grandes mthodologies sont les sondages et les plans d'expriences.

Les sondages
Essentiellement utiliss dans les sciences humaines, mais galement pour obtenir des chantillons dans des bases de donnes, les techniques de sondages servent choisir dans une population les units interroger ou observer. Le choix des units se fait en gnral alatoirement, mais pas ncessairement avec des probabilits gales pour toules les units. L'important est qu'il n'y ait pas d'individus de la population qui aient une probabilit nulle de figurer dans l'chantillon, sinon les rsultats risquent d'tre biaiss car l'chantillon ne sera plus reprsentatif. Les mthodes non-alatoires sont galement souvent utilises dans les tudes de march et d'opinion qui constituent un secteur d'activit important.

Les plans d'expriences


Introduits au dbut du XXe sicle en agronomie, puis utiliss en recherche industrielle, ils ont pour but de provoquer l'apparition de donnes selon des conditions exprimentales prcises. La thorie des plans d'expriences permet de minimiser le cot de recueil des donnes en cherchant les expriences les plus efficaces. Bien qu'employes dans des contextes trs diftrents, ces deux mthodologies ont des point" communs: elles cherchent optimiser le recueil des donnes. Mais il n'y a pas d'optimum en soi, tout dpend du but recherch. En sondages on cherche estimer les paramtres d'une population avec une variance minimale en utilisant toutes les informations dont on dispose. Dans les plans d'expriences, on dispose d'un modle prdictfreliant approximativement une rponse des facteurs de variabilit: on cherche dterminer les expriences permettant d'estimer au mieux les paramtres du modle, ou les prvisions qui en dcoulent: un plan optimal pour un modle ne le sera pas pour un autre.

La statistique exploratoire
Son but est de synthtiser, rsumer, structurer l'information contenue dans les donnes. Elle utilise pour cela des reprsentations des donnes sous forme de tableaux, de graphiques, d'indicateurs numriques.

xxx

.lntroducton

Le rle de la statistique exploratoire est de mettre en vidence des proprits de l'chantillon et de suggrer des hypothses. Les modles probabilistes ne jouent ici qu'un rle trs restreint voire mme nul. Les principales mthodes de l'analyse exploratoire se sparent en deux groupes: Aprs une phase de description variable par variable, puis par couples de variables (la statistique descriptive classique) l'analyse des donnes au sens franais restreint, exploite le caractre multidimensionnel des observations au mogen de : mthodes de classification visant rduire la taille de l'ensemble des individus en formant des groupes homognes~ mthodes factorielles qui cherchent rduire le nombre de variables en les rsumant par un petit nombre de composantes synthtiques. Selon que l'on travaille avec un tableau de variables numriques ou qualitatives on utilisera l'analyse en composantes principales ou l'analyse des correspondances. Les liens entre groupes de variables peu vent tre traits par l'analyse canonique.

Lastatistiqe infrntille
Son but est d'tendre les proprits constates sur l'chantillon la population toute entire et de valider ou d'infinner des hypothses a priori ou fonnules aprs une phase exploratoire. Le calcul des probabilits joue souvent un rle fondamental. Donnons ici quelques exemples lmentaires.

Estimation d'une moyenne


Une mme grandeur est mesure Il fois de suite par un mme observateur, l'imprcision de l'instrument de mesure et d'autres facteurs rendent fluctuantes ces mesures et on obtient n valeurs diffrentes X), X2' , XIl' Comment dtenniner la vraie valeur m ? On peut admettre que ces valeurs constituent des observations ou ralisations indpendantes d'une variable X de moyenne thorique III (esprance mathmatique) si il n'y a pas d'erreurs systmatiques. La loi des grands nombres montre alors que la moyenne 1'chantillon constitue une bonne approximation de
m~

x=

x est une estimation de m. L'chantillon ayant t tir au hasard la valeur constate x n'est qu'une de celles que

~-~----.;.;. Il

+ ... +

de

l'on aurait pu trouver: c'est donc une variable alatoire qui aurait pu fournir une autre valeur si on avait rpt l'exprience dans les mmes conditions. Si Tl est assez grand le calcul des probabilts fournt avec une grande prcision la loi de rpartition des valeurs possibles de autour de 111 et on pourrait en dduire si m tait connu un interva1le du type [m 1l11l, 111 + llm l ayant une probabilit fixe, disons 95 %, de contenir Connaissant une observation x on inverse alors la problmatique et on peut en dduire une fourchette ou intervalle de confiance pour la vraie valeur m.

x.

Vrification d'une hypothse ou test


Le cas suivant est classique en contrle de qualit. Un client commande son fournisseur des lots de pices dont la qualit est spcifie par contrat: le fournisseur s'engage respecter un taux de pices dfectueuses infrieur 4 %. Avant de livrer, le fournisseur effectue un

_Introduction

xxx

contrle sur 50 pices el en trouve trois dfectueuses soit 6 % : doit-il livrer quand mme au risque de se faire refuser la marchandise? Le raisonnement est alors le suivant: si le taux thorique de dfectueux est de 4 % quelles sont les chances d'observer un tel nombre de dfectueux? Le calcul des probabilits montre alors qu'il y a une probabilit voisine de 0.32 d'observer trois pices dfectueuses ou plus (loi binomiale 03(50 ; 0.04)). Cette probabilit tant assez forte, l'vnement constat parat donc normal au fournisseur et ne semble pas de nature remettre en cause l'hypothse formule. Mais le client serait-il d'accord? ... Il faut alors calculer le risque d'un refus par le client. Dans ces deux cas le raisonnement procde du mme schma: l'chantillon est tir au hasard dans une population plus vaste; le calcul des probabilits permet ensuite de prciser les caractristiques de l'ensemble des chantillons que l'on aurai t pu obtenir par le mme procd, c'est l'tude des
distribut;ons~dJchantillonnage

.gn_jnY~r~~ l~sc::ol1c::JlJsions

de la phase prcdente pour en dduire la structure vraisemblable de la population dont est issu l'chantillon observ. C'est la phase infrentielle.

On ne manquera pas de constater la similitude de cette dmarche statistique avec la dmarche scientifique habituelle: observation, hypothses, vrification.
L'avnement des ordinateurs et le dveloppement du calcul statistique permettent dans une certaine mesure de s'affranchir de modles probabilistes souvent illusoires car choisis pour leur relative simplicit mathmatique mais pas toujours adapts aux donnes. Les mthodes de rchantillonnage renouvellent la problmatique de l'infrence en n'utilisant que les donnes observes.

La modlisation et la prvision statistique


La modlisation consiste gnralement rechercher une relation approximative entre une variable et plusieurs autres, la forme de cette relation tant le plus souvent linaire. Lorsque la variable expliquer )~ ou prvoir est numrique ainsi que les variables explicatives, on parle de rgression linaire, si certaines variables explicatives sont qualitatives le modle linaire gnral en est une extension. Lorsque l'on cherche prvoir une variable qualitative (appartenance une catgorie) on utilisera une mthode de discrimination.

STATISTIQUE ET DATA MINING


L'mergence d'immenses bases de donnes, souvent recueillies automatiquement. en particulier dans le fonctionnement des entreprises, a fait apparatre de nouvelles problmatiques, diffrentes de celles exposes prcdemment. 11 ne s'agit plus tant de dcouvrir ou d'estimer des modles de la ralit (dmarche scientifique) mais de donner des rponses des questions oprationnelles comme: quelles adresses d'un fichier dois-je envoyer une

xxxii

_Introduction

publicit pour obtenir un taux de retour maximal, qui dois-je accorder un crdit pour minimiser le risque de perte? La statistique n'est plus alors un auxiliaire de la science mais aussi un outil pour l'action. Le data mning que l'on peut traduire par fouille de donnes est apparu au milieu des annes 1990 comme une nouvelle discipline l'interface de la statistique et des technologies de l'information: bases de donnes, intelligence artiticielle, apprentissage automatique (machine leal1ling). David Hand (1998) en donne la dfinition suivante: Data Milling COl1ssts in the discovery of interesting. unexpected. or vall/able strl/ClUreS in large data selS . La mtaphore qui consste considrer les grandes bases de donnes comme des gisements d'o l'on peut extraire des ppites l'aide d'outils spcifiques n'est pas nouvelle. Ds les annes 1970 Jean-Paul Benzcri n'assignait-il pas le mme objectif l'analyse des donnes? : ( L'analyse des dOJlnes est lin outil pour dgager de la gangue des donnes le pl/r diamant de la vridique nature . Tel
M~

Jourdain, les statisticiens faisaient donc du data mining sans le savoir.

Data Mining versus modlisation statistique


La notion de modle en fouille de donnes prend un sens particulier: un modle est une relation entre des variables exprimable sous une forme analytique ou algorithmique qui ne provient pas d'une thorie mais est issu de l'exploration des donnes et ralise un bon ajustement. Ainsi il est courant d'explorer diffrents modles (linaires, non-linaires) en faisant varier les paramtres (nombre de couches dans un rseau de neurones, noyau pour des SVM etc.) jusqu' obtenir les meilleures prdictions. On est trs loin de la dmarche usuelle de modlisaton, mas plutt dans une optique pragmatique o il ne s'agit pas forcment de comprendre mais de prvoir du mieux possible. La dmarche n'est pas pour autant du pur empirisme et se fonde sur la thorie de l'apprentissage statistique: un modle ralise un compromis entre sa capacit rendre compte des donnes d'apprentissage et sa capacit de gnralisation de nouvelles donnes. L'infrence statistique classique a t dveloppe pour traiter des petits chantillons. En prsence de trs grandes bases de donnes le paradoxe est que tout devient significatif: par exemple, pour un million d'individus, l'hypothse d'indpendance entre deux variables sera rejete au risque 5 % si le coefficient de corrlation linaire est suprieur en valeur absolue il 0.002, ce qui est sans intrt. L'infrence classique ne fonctionne plus et la fouille des grandes bases de donnes amne repenser la notion de test: le choix d'un modle se fait en fonction de ses performances sur d'autres donnes que celles qui ont servi le choisir et le caler, d'o l'emploi de mthodes de validation croise ou de mesures de capacit de type dimension de Vapnik-Cervonenkis. En outre en Data Mining, on analyse des donnes recueillies d'autres fins: c'est une analyse secondaire destine valoriser des bases de donnes dj constitues: on ne se proccupe plus de collecter des donnes de manire efficace. L'chantillonnage ne perd cependant pas ses droits dans la phase de validation car il est souvent prfrable de travailler sur une partie de la base que sur la totalit. Plutt que d'opposer data mining et statistique, il vaut mieux considrer que le data mining reprsente la branche de la statistique consacre l'exploitation des grandes bases de

_Introduction

xxxiii

donnes. Si de nouvelles mthodes ont vu le jour en dehors du monde des statisticiens, il n'en reste pas moins que ces mthodes relvent de la statistique au sens large recueil, traitement, interprtation de donnes et que r esprit statistique imprgn des notions de marge d'erreur, de risque, d'incertain, reste indispensable pour en relativiser les conclusions. Le praticien de la statistique doit donc tre non seulement l'inlerface avec les disciplines d'application, mais aussi dominer les outils informatiques de son temps.

le modle probabiliste

En tant que thorie mathmatique, la thorie des probabilits n'a pas tre justifie: une fois ses axiomes poss, elle se dveloppe de faon autonome par rapport la ralit concrte. Il en va autrement lorsque l'on cherche appl iquer le calcul des probabil its : on ne peut alors luder la question de la nature de la probabilit et de la validit du modle probabiliste. Aprs trois paragraphes consacrs un expos simple<l) de la thorie on se proposera de donner quelques lments de rtlexion sur le concept de probabilit.

1.1

ESPACE PROBABILISABLE

On expose ici la formalisation d'une exprience o intervient le hasard .

1.1.1

Exprience alatoire et vnements

U ne exprience est qualifie d'alatoire si l'on ne peut prvoir par avance son rsultat et si, rpte dans des conditions identiques, elle peut (on aurait pu s'il s'agit d'une exprience par nature unique) donner lieu des rsultats diffrents. On reprsente le rsultat de cette exprience comme un lment w de l'ensemble n de tous les rsultats possibles: n est appel l'ensemble fondamental ou encore l'univers des possibles.

n=

Ainsi l'exprience alatoire qui consiste lancer deux ds, on peut associer l'ensemble {( l.1), (1.2), (1.3) ... } 36 lments.

II convient de noter ici que l'ensemble n ne se dduit pas de manire unique de l'exprience mais dpend de l'usage qui doit tre fait des rsultats: ainsi, si l'on convient une fois pour toutes qu'on ne retiendra de l'exprience des deux ds que la somme des points affichs, on peut trs bien se contenter d'un ensemble n' = [2, 3, 4 ... 12}.

IIIIIIiIIUn expos complet des fondements thoriques, comprenant en particulier le thorme de prolongement, dpasserait le cadre de ce livre. On se reportera l'ouvrage de J. Neveu (1964).

1_le modle probabiliste

Un J'llement est une assertion ou proposition logique relative au rsu1tat de l'exprience (ex. : la somme des points est suprieure 10). On dira qu'un vnement est ralis ou non suivant que la proposition est vraie ou fausse une fois l'exprience accomplie. A la ralisation d'un vnement on peut donc associer tous les rsultats de l'preuve correspondante; ainsi la somme suprieure ou gale 10 est l'ensemble de rsultats suivants:
[(4.6) ; (5.6) ; (6.6) ; (6.4) ; (6.5)}

c'est--dire une partie de n. Dsonnais nous identifierons un vnement la partie de pour laquelle cet vnement est ralis. On appelle vnemellt lmentaire une partie de

n.

n rduite un seul lment.

1. 1.. 2

Algbre des vnements

Rciproqument toute partie de peut-elle tre considre comme un vnement, ou du moins est-il utile qu'il en soit ainsi? Afin de rpondre cette question nous allons supposer pour l'instant que l'ensemble des vnements consttue une dasse (15 de parties de n dont nous allons dtinir les proprits en nous rfrant des besoins usuels; nous en profiterons pour introduire Je vocabulaire probabiliste. A tout vnement A, on associe son contraire not A tel que si A est ralis alors A ne l'est pas, et rciproquement. A est donc reprsent dans par la partie complmentaire de A.

.n

11 sera donc naturel d'exiger de cg la proprit suivante: si A

cg alors A

(g,

tant donn deux vnements A, B on est conduit s'intresser leur union A ou B (A U B) et leur intersection (A et B ou A n B). Il faudra donc que si A, B E (g, A U B et A n B E (J, et ceci d'une manire gnrale pour un nombre quelconque d'vnements. On dtnit galement l'vnement certain reprsent par tout entier et l'vnement logiquement impossible (tel que avoir une somme de points gale 13) reprsent par l'ensemble vide 0. Nous pouvons maintenant dfinir la classe cg par les trois axiomes:

VA

cg, A E

(g;

pour tout ensemble fini ou dnombrable Al, A2' .. " A'l d'lments de ((5,
ilE~

l! Ai E cg;
1 1

On peut montrer titre d'exercice que ces axiomes impliquent que 0 E cg et que (l Ai E cg. Les proprits prcdenles dtinissent ce que l'on appelle une cr-algbre de Boole ou une tribu, f7l(n) est une cr-algbre particulire, la plus grosse, mais il n'est pas toujours utile ni souhaitable de J'utiliser. On peut donc donner maintenant la dfinition d'un espace probabilisable:
DFINITION

On appelle espace probabilisable le COl/pIe (il ; cg) o cg constitue une tribu de parties

den.

l_Le modle probabilste

Donnons encore quelques dfinitions utiles:


DFINITIONS

vnemellts illcompatibles. Dellx \'l1ements A et B so1ll dits lu.:ompatibles si la ralisation de l'lin exclut celle de l'atltre, alllrement dit si les partes A et B de il som disjointes A n B = 0. Systme complet d'vnements. A" A 2 ., A ll formel1t lm systme complet d'l'nements si les parties AI; ... , An de il constituent tille partiton de

n:

Vi=F j { UA i =

1.2 1.2.1

ESPACE-PROBABiliS L'axiomatique de Kolmogorov

A chaque vnement on associe un nombre positif compris entre 0 et 1, sa probabilit. Afin d'viter toute discussion de nature philosophique sur le hasard, la thorie moderne des probabilits repose sur l'axiomatique suivante:
DFINITIONS

On appelle probabilit sur

(n, (g) (ou loi de probabilit) tille application P de (g dans [0, 1] telle que: P{fl) 1; - pour fol/! ensemble dnombrable d'vneme1lts incompatibles AI' A2' .. " Ali' on
li

peU Ai)

2:P(AJ,

On appelle espace probabilis le triplet (n, Cf:;;, P).

Une loi de probabilit n'est donc rien d'autre qu'une mesure positive de masse totale 1 et la thorie des probabilits s'inscrit dans le cadre de la thorie de la mesure.

1.2.2

Proprits lmentaires
: P(@) = O.
: P(A) = 1 - P(A). : P(A) :::; P(B) s A C B. : P(A U B) = P(A) + P(B) - P(A

Des axiomes on dduit immdiatement les proprits suivantes:


Proprit 1 Proprit 2 Proprit 3 Proprit 4 Proprit 5

: peU

Ai) :::;

2: P(AJ
i

n B).

Proprit 6 : Si Ai ~

alors lim P(A i ) = 0 (coll1mtit monotone squentielle).


/Ill

Proprit 7: Thorme des probabilits totales: Soit B j mellfs a/ors VA : P(A) =

systme complet d'l'lle-

2: P(A n Bi)'
i

1_Le modle probabiliste

fORMULE DE POINCAR

Cette formule permet de calculer la probabilit de la runion d'un nombre quelconque d'venements ; elle se dmontre par rcurrence:
11

Il

P(UAJ = 2:P(AJ i=1

2:
l:::5i<j~l

11

p(AinAj )

i"'l

2:
1~;<j</.::::51

Il

p(AinAjnAJJ

+ '" + (-1),,-lp(A 1nA:! ... . nA!!)

Remarque: P(A) 0 n'implique pas ncessairement A 0. Un vnement de probabilit nulle n'est pas ncessairement impossible: soit il = [0, 1] muni de la loi de probabilit uniforme (c'est--dire de la mesure de Lebesgue) alors P(l) 0 "dl.

De mme P(A) = 1 n'implique pas que A soit l'vnement certain: on parlera d'vnement presque certain et dans le cas prcdent d'vnement presque impossible. Les vnements de probabilit:nllsorit en ralit trs communs, comme on le verra dans l'tude des variables alatoires continues possdant une densit: tous les vnements (X = x) sont de probabilit nulle mais aucun n'est impossible. La variable X prend une valeur prcise une fois l'exprience ralise. Cela est comparable au fait qu'un intervalle de longueur donne 1 est fonn d'une infinit de points de longueur nulle.

1.3

LOIS DE PROBABILITS CONDITIONNELLES, INDPENDANCE

Les concepts suivants sont purement probabilistes.

1.3.1

Introduction et dfinitions

Supposons que l'on s'intresse la ralisation d'un vnement A, tout en sachant qu'un vnement B est ralis (fig. 1.1). Si A et B sont incompatibles la question est tranche: A ne se ralisera pas, mais si A n B ::f:. O. il est possible que A se ralise; cependant, l'univers des possibles n'est plus tout entier, mais est restreint B ; en fait, seule nous intresse la ralisation de A l'intrieur de B, c'est--dire A n B par rapport B.

FIGURE

1.1

, . Le modle probabiliste

Ceci justifie la dfinition suivante:


DFINITION

Soit B lm vnement de probabilit non Ilulle. On appelle probabilit conditiollllelle de A sac/wllt B (ml encore de A si B) le rapport Ilot P(AIB) :
P(AI B)

= P(A n
P(B)

B)

Il faut s'assurer que le nom de probabilit est justifi. Vrifions les axiomes:

P~ .,

DI
B)

p(n

B)

P(B)

P(B) = P(B)

p[ y(A, n B)]
P(B)
~P(Ai
i

B)

P(R)

2:P(A j lB)
i

c.q.f.d

On peut donc munir (n, (g) d'une nouvelle loi de probabilit, la loi de probabilit conditionnelle B fix et ceci pour tout B de probabilit non-nulle. Il sera ncessaire d'tendre ]a notion de 101 de probabilit conditionnelle lorsque B est de probabilit nulle (rappelons que la tribu ce contient de tels vnements) : cela sera fait au chapitre 3 dans certains cas particuliers.
_ Exemple: En fiabilit (ou en assurance sur la vie), on considre la fonction de survie
R(t) dfinie comme la probabilit qu'un individu vive au-del d'une date t: R(t) P(X> 1).

Cette fonction dtint une loi de probabilit sur

~+

et :

La probabilit conditionnelle de dfaillance (ou de dcs) entre t l et t 2 sachant que l'individu a dj fonctionn (ou vcu) jusqu' t 1 est: P(t ~ X <
1

f1/x > -

t ) =
1

R(t ) - R(t,)
1

R(t,)

Pour la loi de survie exponentielle P(X> t) conditionnelle vaut:

= exp( -ct) on constate que cette probabilit

il n'y a pas de vieillissement: la probabilit de fonctionner pendant t:. fi partir de t l est la mme qu'au dmarrage. Ce modle est couramment utilis en lectronique. IIIIIIB

1_Le modle probabiliste

1.3.2
1.3.2.1

Indpendance
Indpendance de deux vnements

DFINITION

A est indpendant de B si P(AI B)

= P(A).

Autrement dit. la connaissance de B ne change pas les chances


PROPRIT

de ralisation de ;\.

A indpendant de B ~ B indpendant de A.
On parlera dsormais d'vnements indpendants sans autre prcision. En effet, si P(AIB)

= P(A), alors:
P(A

B)
= P(A)

P(B)

et :

P(BIA) = P(A n B) P(A)

= P(B)

On a dmontr au passage

r importante formule:
1

P(A

B)

= P(A)P(B)

si et seulement si A et B sont indpendants.

N.B.: La notion d'indpendance n'est pas une notion purement ensembliste comme l'incompatibilit: deux vnements peuvent tre indpendants pour une loi de probabilit P et pas pour une autre P'. On s'en convaincra en vrifiant qu'en gnral si A et B sont indpendants, ils ne le sont plus conditionnellement il un troisime vnement C.

1.3.2.2

Indpendance deux deux et indpendance mutuelle

Soient A Jo A2' ... , Ail des vnements ~ ils sont dits mutuellement indpendants si pour toute partie J de l'ensemble des indices allant de 1 il Il on a :

II P(A
1

i)

Cette condition est beaucoup plus forte que l'indpendance deux deux, qui ne lui est pas quivalente mais en est une simple consquence.
Remarque: Dans les applications il est assez frquent que l'on n'ait pas dmontrer l'indpendance de deux vnements car celle-ci est une proprit de l'exprience alatoire. Ainsi lorsqu'on procde un tirage avec remise de Il individus dans une population finie les vnements relatifs aux diffrents tirages sont indpendants entre eux par construction.

modle probabiliste

1. 3.3

Formules de Bayes

Elles ont pour but d'exprimer P(A/B) en fonction de P(B/A).

Premire formllie de Bayes :


PCB/A) = P(A/B)P(B) P(A)

n suffit d'liminer P(A n B) entre P(A/ B)

P(A
=

P(B)

B)

et P(B/ A)

P(A

B)

Soit Bi un systme complet d'vnements. On peut crire: P(A Le thorme des probabilits totales devient donc:
P(A) =

n Bi)

P(A) P(A/ Bi)P(B i ).

2: P(A/ B;)P(Bi)
i

On en ddut alors la deuxime formule de Bayes:


P(BJA) =
k

PCA/Bi)P(Bj) 2:P(A/B,JP(BJ.J

_ Exemple: Dans une usine trois machines IvI" Nt!, !vI] fabriquent des boulons de mme type. MI sort en moyenne 0.3 % de boulons dfectueux, !vI2 0.8 % et Iv!} 1 %. On mlange 1 000 boulons dans une caisse, 500 provenant de MI' 350 de lH! et 150 de M]. On tire un boulon au hasard dans la caisse; il est dfectueux. Quelle est la probabilit qu'i1 ait t fabriqu par Ml (ou N!;. ou M3 ) ?

Lorsque l'on tire un boulon au hasard les probabilits dites {l priori qu'il provienne de lvl l , M 2 ou M} sont videmment P(M 1) 0.50, P(!vIl ) 0.35, PUV!3) = 0.15. Lorsque l'on sait qu'il est dfectueux, vnement not D, il faut alors calculer les probabilits conditionnelles:
P(M I / D), P(!vI2/ D), P(!v!3/ D)

Comme on connat P(D/ Iv!l) 0.003, PCD/IvI!) = 0.008 et P(DlM 3 ) formule de Bayes permet d'crire:
PM
(1

= 0.01

la deuxime

/D ) -

P(D/!v!I)P(M I } P(D/!vI I }P(A1 1)

+ P(D/!v!2)P(A1,!) + P(D/!v13 )P(Iv!3}


0.003 X 0.5 0.008 X 0.35

0.003 X 0.5 0.16 On trouverait de mme P(Iv!:./ D)

+ 0.01

X 0.15

= 0.48

Ce sont les probabilits {/ posteriori, sachant que le boulon est dfectueux. ail voit donc que la prse en compte d'une information (le boulon est dfectueux) modifie les valeurs des _ probabilits de lv!l. A12 et 1v!3'

10

1_le modle probabiliste

Le thorme de Bayes, simple consquence des axiomes et de la dfinition de la probabilit conditionnelle, tent une place part dans le calcul des probabilits en raison de son importance pratique considrable et des controverses auxquelles son application a donn lieu: il est la base de toute une branche de )a statistique appele statistique baysiemle. Parmi les applications courantes citons: en diagnostic mdical la rvision des probabilits de telle ou telle affection aprs obtention des rsultats d'examens de laboratoire, en matire financire la dtermination du risque de faillite des entreprises aprs observations de certains ratios. Le thorme de Bayes est souvent appele thorme sur la probabilit des causes ce qui se conoit aisment sur r exemple prcdent. Son application gnrale a donn lieu de violentes critiques de la part des logiciens pour qui causalit et alatoire sont antinomiques: il n' y a qu' une cause possible parmi des causes mutuellement exclusives et leur donner des probabilits n'aurait aucun sens. Certains auteurs interprtent le fail que les formules de Bayes ont t publies titre posthllme (enJ763) par la crainte du sacrilge: Thomas Bayes tait en effet un cclsiastique et l'application de sa formule la recherche des causes ultimes d'un vnement aurait pu conduire probabiliser l'existence de Dieu ...

1.4

RFLEXIONS SUR lE CONCEPT DE PROBABILIT

La thorie mathmatique des probabilits ne dit pas quelle loi de probabilit mettre sur un ensemble il parmi toutes les lois possibles (et elles sont nombreuses ... ). Ce problme concerne ceux qui veulent appliquer le calcul des probabilits, et renvoie la nature physique , si l'on peut dire, du concept de probabilit qui formalise et quantifie Je sentment d'incertitude vis--vis d'un vnement.

1.4.1

la conception objectiviste

Pour les tenants de ce point de vue, la probabilit d'un vnement peut tre dtermine de manire unique.

, .4.1.1

La vision classique

C'est ceHe qui est hrite des jeux de hasard . .n est en gnral fini et des raisons de symtrie conduisent il donner chaque vnement lmentaire la mme probabilit: ainsi le lancer d'un d parfait conduit un ensemble il 6 lments quiprobables. Le calcul des probabilits n'est donc plus qu'une affaire de dnombrement, d'o la clbre formule:
P(A)

= - - - de cas possibles ----Nombre

Nombre de cas favorables

L'analyse combinatoire fournit alors les rponses aux cas classiques. Cette approche ne s'tend pas aux cas o il n'est plus dnombrable (voir plus loin) et repose sur une conception idalise de l'exprience alatoire: les symtries parfaites n'existent pas; ainsi le d parfait n'est qu'une vue de l'esprit et ses 6 faces ne sont pas en ralit

1.Le modle probabiliste

11

quiprobables en raison de la non homognit de la matire et surtout des gravures des numros sur les faces.

1.4.1.2

Un paradoxe clbre

Les limites de la vision classique apparaissent, nous semble-t-il, assez bien dans le clbre paradoxe de Bertrand. Considrons un triangle quilatral et son cercle circonscrit. On tire une corde au hasard. Quelle est la probabilit que sa longueur soit suprieure celle du ct du triangle? Reproduisons ici les commentaires de Renyi (1966) : Premire solution. Comme la longueur de la corde est dtermine par la position de son milieu, le chox de la corde peut consister marquer un point au hasard l'intrieur du cercIe. La probabilit pour que la corde soit plus longue que le ct du triangle quilatral inscrit est alors videmment gale la probabilit pour que le milieu de la corde soit intrieur au cercle inscrit qui est. de rayon moiti (cf fig. 1.2). Si l'on admet que la rpartition de ce point est uniforme dans le cercle, on trouve pour la probabilit demande :

7I(r/2f
4

Deuxime solution. La longueur de la corde est dtermine par la distance de son milieu au centre du cercIe. Par raison de symtrie nous pouvons considrer que le milieu de la corde est pris sur un rayon donn du cercle et supposer que la rpartition de ce point sur le rayon est uniforme. La corde sera plus longue que le ct du triangle quilatral inscrit si son milieu est une distance du centre infrieur r/2 ; 'a probabilit cherche est alors 1/2 (cl fig. 1.3).

FIGURE 1.2

FIGURE

1.3

FIGURE

1.4

12

1_Le modle probabiliste

Troisime solution. Par raison de symtrie nous pouvons supposer qu'on a fix une des extrmits de la corde, soit Po. L'autre sera choisie au hasard sur la circonfrence. Si l'on admet que la probabilit pour que l'autre extrmit P tombe sur un arc donn de la crconfrence est proportionnelle la longueur de cet arc, la corde PoP est plus grande que le ct du triangle quilatral inscrit quand P se trouve sur rare P 1P2 donc la longueur est le 1/3 de celle de la circonfrence (cf. fig. lA) ; la probabilit est alors 1/3. Il est clair que ces trois hypothses de rpartition, sont galement ralisables. L'exemple parut paradoxal en son temps uniquement parce qu'on ne comprenait pas que des conditions exprimentales diffrentes pour le choix au hasard de la corde, dans les trois procds dcrits, conduisaient des mesures-probabilits diffrentes sur la mme algbre d'vnements.

1.4.1.3

La vision frquentiste

Elle repose sur la loi des grands nombres (voir chapitre 2). Une seule exprience ne suffisant pas pour valuer la probabilit d'un vnement on va rpter un trs grand nombre de fois l'exprience. Ainsi du lancer d'un d : la probabilit d'observer la [ace 6 est la limite du rapport:

-------=1
Nombre d'essais lorsque le nombre d'essais augmente indfiniment. En effet la loi des grands nombres assure que f converge vers )a probabi lit p de l'vnement. Du point de vue pratique il est clair que la vision frquentiste ne permet pas de trouver la probabilit d'un vnement puisqu'un tel processus ncessitant une infinit d'observations est physiquement irralisable: cela permet tout au plus de donner une dfinition de la probabi1it comme limite d'une frquence. Remarquons que dans la conception frquentiste il est impossible de donner une valeur et mme un sens la probabilit d'un vnement non rptable du genre ,< neigera-t-il le 25 octobre 2990) ; ce qui limite le champ d'application du calcul des probabilits. Cependant la critique la plus radicale du point de vue frquentiste eslla suivante: la dfinition de la probabilit repose sur la loi des grands nombres, or celle-ci est un thorme de probabilits qui suppose donc dfini le concept de probabi1it : il y a donc un cercle vicieux.

Nombre de 6 obtenus

1.4.2

la conception subjectiviste

Le point de vue classique tant trop limit, le frquentisme logiquement intenable, la probabilit d'un vnement sujette rvision en fonction d'infonnations nouvelles (thorme de Bayes), l'existence mme de probabilits objectives a t nie par beaucoup. C'est ainsi que le magistral Trait de Probabilits de de Finetti (1974) commence par l'afiirmation en lettres capitales <~ La Probabilit n'existe pas ) et continue par:
L'abandoll de croyances superstitieuses sur l'existence dll phlogistique, de l'thel; de l'espace et du temps absolu . .. Olt des fes, CI t Hne tape essentielle dans la pense scientifique. La probabilit, c01lsidre cOlllme qllelque chose ayant llne existence objectil'e est galement !lIle conceptioll errone el dangereuse, llne tentative d'extrioriser Olt de matrialiser 110S l'ritables conceptions probabilistes!

1.Le modle probabiliste

13

1.4.2.1

Mesure d'incertitude

La probabilit objective d'un vnement n'existe pas et n'esl donc pas une grandeur mesurable analogue la masse d'un corps, c'est simplement une mesure d'incertitude, pouvant varier avec les circonstances et l'observateur, donc subjective, la seule exigence tant qu'elle satisfasse aux axiomes du calcul des probabilits. Les tenants de l'cole subjectiviste proposent alors des mthodes permettant de passer d'une probabilit qualitative c'est--dire d'un simple pr-ordre sur les vnements. une mesure de probabilit. puisque la rptition n'est plus ncessaire on peut probabiliser des vnements non tables et tendre le domaine d'application du calcul des probabilits en particulier pour tout ce qui concerne les dcisions conomiques.

1.4.2.2

Le baysianisme

Un pas de plus va tre franchi par l'coh; baysienne (ou plus exactement nobaysienne vu les deux sicles de dcalage entre Bayes et ceux qui s'en rclament actuellement) qui va probabiliser tout ce qui est incertain et mme des phnomnes non alatoires. Pour 11ustrer la thorie baysienne modifions quelque peu l'exemple prcdent de la fabrication des boulons: supposons qu'il n'y ait plus qu'une machine et que l'on cherche estimer le pourcentage p de boulons dfectueux produit en moyenne par la machine: si l'on admet qu'il n'y a que trois valeurs possibles PI' p'}., P3 respectivement 1 % de probabilits a priori 1T), 1T,;!, 1Tj respectivement, la solution gales 0.3 %, 0.8 est inchange et la valeur la plus probable il posteriori est 0.008 (s r on tire un seul bouton dfectueux). Supposons qu'on tire maintenant Il boulons et que le nombre de boulons dfectueux soit k, la probabilit que le pourcentage de dfectueux produit par la machine soit P2 est alors:

On peut encore gnraliser et supposer que p prenne toutes les valeurs possibles dans l'intervalle rO, IJ. Si l'on connat la loi de probabilit de p sur [0, 1] et qu'elle admet une densitf(p) par rapport la mesure de Lebesgue, la fornlUle de Bayes s'crit:

P(p/II:)

= --:---------- p)"-kf(p) dp
()

(voir chapitre 3).

l,C~pk(1

C~pk( 1

- p)/J-kf(p)

A condition de connatre une distribution de probabilit li priori sur les valeurs de p, on peut donc en dduire les valeurs de p a posteriori les plus probables, donc estimer p. On aura remarqu que p n'est pas alatoire mais un paramtre the de valeur inconnue et que l'on a modlis notre incertitude sur ses valeurs, par une mesure de probabilit. Mais

14

1_le modle probabiliste

comment choisir cette mesure a priori? on retombe sur la difticult signale plus haut et, si cette probabilit est subjective, quel statut scientifique donner une grandeur qU peut varier d'un observateur li l'autre? Telles sonlles critiques usuelles faites par les objectivistes. De plus on a montr qu'un ordre de probabilits donn n'induisait pas ncessairement une mesure de probabilit unique P sur fi, compatible avec la relation d'ordre. P n'existe pas forcment ou encore, si P existe, P n' est pas toujours unique. Nous arrterons l ces quelques remarques et sans prendre parti dans une querelle qui dure encore, rappelons que le modle probabiliste a prouv son efticacit dans de nombreuses applications mais que comme tout modle ce n'est qu'une reprsentation simplificatrice de la ralit el que ses hypothses doivent tre mises l'preuve des faits. Nous renvoyons Je lecteur intress par la philosophie des probabilits aux travaux de de Finetti (1974), Matalon (1967), Matheron (1978) et Savage (1954). cits en rfrences.

Variables alatoires

Dans ce chapitre, on tudiera uniquement les variables alatoires relles. Les variables qualitatives ou ordinales ( valeurs dans un ensemble quelconque ou muni d'une structure d'ordre) ne feront pas l'objet d'une tude thorique; on les trouvera voques dans les chapitres consacrs la statistique.

2.1

LOI DE PROBABILIT ET MOMENTS D'UNE VARIABLE ALATOIRE RELLE Dfinition et fonction de rpartition
Gnralits

2.1.1
2. 1.1. 1

Le concept de variable alatoire formalise la notion de grandeur variant selon le rsultat d'une exprience alatoire. Considrons le lancer de deux ds parfaitement quilibrs: cette exprience se traduit par l'ensemble de tous les couples de chiffres de 1 6 :

n = 1(l, 1) ; (l, 2) ; ... ; (6, 6) 1


muni de la loi de probabilit P telle que P(w)

= 3~' Vw E n.

Intressons-nous la somme des points marqus par les deux ds. On dfinit ainsi une application S de !1 dans l'ensemble E = {2, 3, ... , 121 (fig. 2.1).

g-y;_S(_W)-------l
il
FIGURE

2.1

16

2aVariabies alatoires

Pour obtenir la probabilit d'une valeur quelconque de S, il suffit de dnombrer les w qui ralisent cette valeur. Ainsi:
P(S

5)

= P({(l,4)(2, 3)(3, 2)(4,

l)})

4 36

et gnralement P(S

s)

P( fS - I(S)}).

On voit que, pour dfinir la loi de probabilit sur S, on transporte la loi de probabilit de

n sur E par l'application S.


Si X est une application d'un ensemble probabilis (0, ((5, P) dans E, il faut donc que

E soit probabilisable, c'est--dire muni d'un tribu ,0/ et que rimage rciproque de tout lment de ET soit un vnement, c'est--dire un lment de ((5. On reconnat ici la dfinition mathmatique de la mesurabilit d'une foncton. Une variable alatore X est donc une application mesurable de (0,

(e, P) dans CE,

ET).

Lorsque E = IR':, on utilise comme tribu la a-algbre engendre par les intervalles de tRi. ; c'est la plus petite (autrement dit l'intersection de toutes les cr-algbres) contenant les intervalles. Cette tribu est appele tribu borlienne et est note !?A.
DFINITION 1

Une variable alatoire relle est une application Inesurable de (n, ((5, P) dans tRi. 1I11l1zi de sa tribu borlienne (tRi., g'j).

Pour tout borlien B, on dfinit Px(B) par:


PiE)

= P{ {wIX(w) E = P([X-I(E)])

B})

ceci dfinit une probabilit sur (tRi., f1J) d'o la :


DFINITION

011 appelle loi de probabilit de X la mesure image de P pllr X et on la note Px.

Pour une variable discrte, c'est--dire une variable ne pouvant prendre qu'un nombre fini (ou dnombrable) de valeurs x" X2' . , XII' la loi Px est constitue de masses ponctuelles. Px peut alors tre reprsente par un diagramme en btons. Ainsi, pour l'exemple du lancer de deux ds, on a la figure 2.2.

2.1.1.2

Fonction de rpartition

La fonction de rpartition d'une variable alatoire X est l'application F de tRi. dans [0, 1] dfinie par :
1

F(x) = P(X

<

x)

2/1111111Variables alatoires

17

6/36 5/36 4/36 3/36 2/36 1/36 5/36 4/36 3/36 2/36 1/36
1

7
FIGURE

10

11

12

2.2

PROPRITS

(sans dmonstration)

F est une fonction monotone croissante continue gauche. En tant que fonction monotone, elle admet un nombre de points de discontinuit au plus dnombrable. Rciproquement, toute fonction monotone croissante continue gauche telle que F( -,:r.;) = 0 et F( +y:,) = 1 dfinit une loi de probabilit unique sur IR.

Un exemple de fonction de rpartition correspondant une variable discrte (celle de S dfinie prcdemment) est donn par la figure 2.3.

F(x)

10

11

12

FIGURE

2.3

La figure 2.4 est un exemple de fonction de rpartition correspondant une variable continue (voir plus loin). L'importance pratique de la fonction de rpartition est qu'elle permet de calculer la probabilit de tout intervalle de IR :

IP(a::::; X< b)

F(/;) - F(l7) 1

18

2aVariables alatores

_______ J _________________________ _

F(x)

o
FIGURE

2.4

2.1.1.3

Varables continues

La notion de variable continue, ou plus exactement absolument continue, se confond avec celle de variable admettant une densit de probabilit.
DFINITION

Une loi de probabilit Px admet ulle densit fsi, pour tOtit intervalle / de
Px(l)

= If(X) dx = li 1(x)f(x) dx
1

lit Oll a :

P-

(li 1 est la fonction indicatrice de 1).

F est alors drivable et admetfpour drive. On a donc:

P( a

< X < b)

l
a

f(x) dx

F(b) - F(a)

(fig. 2.5)

f(x)

b
FIGURE

x
2.5

Une densitfest donc une fonction positive d'jntgrale gale 1 :

1
li,

1(X) dx =

2.Variables alatoires

19

On remarque que pour une variable densil :


P(X

= x) =

'\Ix

et on peut crire:

." + dx)
>
x)

Exemple: La variable X, dont la loi est dfinie par P(X

= exp( -

.x) pour tout

x positif, admet pour densit:


j'ex)
j(x)

= . exp( 0

.x)

si x ;;::: 0 si x

<0

(fig. 2.6)

f(x)

x
FIGURE

2.6

Elle est utilise couramment pour reprsenter la dure de vie de phnomnes sans velIis_ sement (comme les composants lectroniques).

2.1.1.4

Taux instantan de dfaillance

Si X est une variable contnue positive reprsentant une dure, on dfinit la fonction suivante:

Il . (x) -

j(x)

1 - F(x)

appeles selon les domaines d'application : ~< taux instantan de dfaillance , fonction de hasard ) ou encore quotient de mortalits ). Pour une dure de vie X, h(x) s'interprte comme la probabilit de dcs immdiatement aprs x, sachant que l'on a vcu jusqu' x. En effet, pour dx infiniment petit:
P(x

< X < x + dx/X > x)

j(x) dx 1 - F(x)

l1(x) dx.

F(x) est appele fonction de survie.

20

2_Variables alatoires

lI(x) caractrise la loi de X car on peut retrouver F(x) partir de h(x) : lI(x)

d --ln(1 - F(x
dx

F(x)

= 1-

exp( -lxlz(t)dt)

Une fonction 17(x) croissante est caractristique d'un phnomne de vieillissement. Si h(x) = c, il y a absence de vieillissement, le dcs est d des causes alatoires externes: X suit alors la loi exponentielle F(x) = 1 - exp( -ex), qui sera tudie plus loin.

2.1.2

loi d'une fonction d'une variable alatoire Y = <p(X)

On supposera X continue avec une densit f et une fonction de rpartition F. 'P sera suppos drivable. On recherche 9 et G densit et fonction de rpartition de Y.

2.1.2.1

cp bijective

'P est donc monotone. Si 'P est croissante, on a F(x)

= G('P(x)) car X < -y ~ y < 'P(x) d'o:


(fig. 2.7a)

y= <p(x)

(p-l(X)

x
x

(a)
FIGURE

(b)

2.7a
f['P - le)')] g(y)

FIGURE

2.7b

ou encore: Si 'P est dcroissante X

'P 'P

1[

-'(1')1 .'

<x

y> 'P(.-r), d'o:


(fig. 2.7b)

.,..;...,V!lr'i:\l:lleS alatoires

21

et en drivant: puisque 'P est dcroissante. bijective 'fl quelconque:


/'p'

g(y)

'fl'(X)

< 0, et on a la formule gnrale pour une application


f(x)
1<p'(x)1

g(y)

_ Exemple:

y = exp(X)
g(y)

et

X= ln Y
y

f(x)

exp(x)

2.1.2.2

<fi quelconque

Le principe consiste toujours identifier la fonction de rpartition G(y) en recherchant

r antcdent pOUf X de l'vnement Y < Y = <p(x).


Par exemple, si Y = X avec X dfini sur ~ : pey
2
1 G()!)

<

y) = P( -~

< X < + ~) :

F(~)

F(-~) 1

g(y) =

, 1 . 1 j(f;,) + f(-{y)-

2-vy

21Y

g(y) =

1 21; C{cf;,) + l( -1Y))

'} en partlcu '1er 9 () = 1(1Y). f' est une f"onctlOn pmre. y ~ SI.
'Jy

2.1.3

Indpendance de deux variables alatoires

Soient X et Y deux varables alatoires relles dfinies sur le mme espace probabilis. Le couple (X, Y) esl donc une applicaton mesurable de (n, cg, P) dans ~2 mun de sa tribu borlienne.
DFINITION

x eT Y sont lldpelldcl1ltes si, pour tout couple de borliens Bi et Bi'


P(X E Bi)

ml Cl :

n CY E

B)) = P(X E B,)P(Y E B)

22

2aVariables alatoires

En d'autres termes, la loi de probabilit p.n du couple (X, Y) n'est autre que la loi produit que l'on note:

COROLLAIRE

X el Y sont indpendantes si et seulement si la fonction de rpartition du couple (X, Y) dfinie par H(x, y) = P(X < x n y < y) est gale au produit des fonctions de rpartition respectives de X et de Y, appeles fonctions de rpartition marginales:
1

H(x, y) = F(.\") GCy) 1

Si X et Y admettent des densits f(x) et g(y), alors le couple (X, Y) admet pour densit f(x)g(y). Dans ce cas, la rciproque est galement vraie.

2.1.4

Moments d'une variable alatoire

Une loi de probabilit peut tre caractrise par certaines valeurs typiques associes aux notions de valeur centrale, de dispersion et de forme de la distribution.

2.' .4.'

L'esprance mathmatique

Pour une variable discrte, on dfinit l'esprance E(X) par la formule:

E(X) = LXjP(X =
j

xJ

(si cette expression a un sens). ECX) est la moyenne arithmtique des diffrentes valeurs de X pondres par leurs probabilits. Pour une variable continue admettant une densit, E(X) est la valeur, si l'intgrale converge, de (xf(x) dx.

J~

Ces deux expressions ne sont en fait que des cas particuliers de la dfinition gnrale suivante:
DFINITION

X tallt une l'ariable alatoire relle dfinie sur (n, ((5, P), l'esprance l11t.1thmatique de X est, si elle existe, l'intgrale de X par rapport il la mesure P .'
E(X) = ( XdP

Jn

D'aprs le thorme de la mesure image, on a:

E(X)

Lx

dPx(x)

23

nexiste une densit l(x) : dPx(x)

d'o, en particulier si Px est absolument continue par rapport la mesure de Lebesgue de IR, = l(x) dx et alors on retrouve:
E(X)

J~

(xf(x) dx

Il faut prendre garde au fait que l'esprance mathmatique n'existe pas toujours. Ainsi, la variable X ayant pour densit sur IR :
J(x)

= 'jj( 1 + x 2 )

(loi de Cauchy)

n'a pas d'esprance car l'intgrale

+x

-:>0

'jj(J

+ x-)

"1

dx diverge.

Les proprits lmentaires de l'esprance mathmatique sont celles des ." ...'6 ........ " et se dduisent de la linarit. Si il est une constante:
E(a) E(aX)
=(1

= aE(X)
= E(X)

E(X

+ a)

+ il

La plus importante proprit est l'additivit: l'esprance d'une somme de variables alatoires (qu'elles soient ou non indpendantes) est gale la somme de leurs esprances:

A. Esprance d'une fonction <p(X) d'une variable alatoire

Par dfinition, EI:<p(X).I =

(CPoX) dP si cette expression a un sens.

En utilisant nouveau le thorme de la mesure image, on a:

E('f'(X)) =

'f'(x) dPx(x)

Ce rsultat trs important est d'un emploi courant et permet de calculer l'esprance d'une variable <p(X) sans avoir dterminer la loi de tp(\x.

B. Ingalit de Jensen
Si <p est une fonction convexe, on peut montrer, si les esprances existent, que:
IE(tp(X)) 2: <p(E(X))
1

On en dduit en particulier:

E(jxl) 2:= IE(X)I


E(X'l) 2: (E(X)fE(exp(X)) 2: exp(E(X))

24

2_Variables alatores

C. Esprance d'un produit


Si X et Y sont deux variables alatoires de loi conjointe P,\T' on a, si }' expression a un sens:
E(XY)

Lx.\' dPXY(x, y)

Lorsque X et Y sont indpendants, dP,n,(x, y) factorise:


E(XY)

= dPx(x) (9 dP),(y) et l'intgrale double se

Lx dPx(x) Ly dP,.(y)

d'o:

X et Y indpendants ~ E(XY)

E(X)E(Y)

Attention: La rciproque est fausse et E(X)E(Y) l'indpendance de X et Y.

= E(XY)

n'entrane pas en gnral

D. Une interprtation statistique


Reprenons l'exemple du lancer de deux ds. Par raison de symtrie, E(S) = 7. Supposons qu'on lance Il fois les deux ds et que les ralisations successives de S soient SI' .\'2' ... , .'l'I' Formons la moyenne

s = ~ 2:s; de ces rsultats.


n

On montre alors que si Il ~ 00, s ~ 7 en un sens qui sera prcis plus tard (loi des grands nombres, voir paragr. 2.7 et chapitre 12).

E. Esprance et fonction de rpartition


Sous rserve de convergence de l'intgrale, on a pour une variable positive le rsultat suivant:
E(X)

Jo

(x(1-F(XdX

En effet, en intgrant par parties: l""O-F(X) dx o crochet est nul si l'intgrale converge.

[(1 - F(x))x(

+ lXXf(X) dx, et le
0

0.6

~~~~""';"';';~~~-----+----+----I

0.4 -fmiWJ~~WI-+---j---I---~ 0.2


~~~mf.~t----I----t----+----j

0.5
FIGURE

1.5

2.5

2.8

2.Variables alacores

25

L'esprance d'une variable positive s'interprte donc comme raire situe entre l'horizontale y = 1 et la fonction de rpartition. La tigure 2.8 correspond la fonction de rpartition d'une loi log-normale d'esprance 1 et d'cart-type DA.

2.1.4.2

La variance

On appelle variance de X note V(X) ou rr:! la quantit dfinie par:

III

= E(X).

rr s'appelle l'cart-type de X.
La variance est donc le moment centr d'ordre 2 de la distribution et est une mesure de lu dispersion de X autour de m.

Proprits de la variance
Comme E((X - a):!) = V(X) + (E(X) - af (formule de Konig-Huyghens) on en dduit que V(X) est la valeur minimale de E((X - af) quand a varie. On en dduit la formule classique

Par ailleurs :
V(X -a) V(aX)

V(X) rr(aX) =

a2 V(X)

et
=
Cl

lai rr(X)

V(X) = 0

<=> X

(presque srement)

L'esprance et l'cart-type sont relis par l'ingalit de Bienaym-Tchebyshev :


1

p(lx -

E(X)I > krr)

1
:':S -::;

k-

_ Dmonstration

car on restreint le domaine d'intgration d'une fonction positive. En minorant (x ,on a:

111)2

par

(x -

mf dPx(x) >
m]

k 2rr:!

j'"
IX-m!>J.cT

dPx(x)

IX-ml>kcr

Celte dernire intgrale vaut P(]X

>

krr). ce qui tablit la proprit.

26

2.Variables alatoires

Cette ingalit, dont l'intrt thorique vient de ce qu'eHe est valable quelle que soit la 10' de X, n'a que peu d'applications pratiques, car la majoration qu'elle fournit est la plupart d temps excessive. Ainsi pour une loi normale, pclx - ECX)I > 20') = 0.05 alors qu l'ingalit de Bienaym-Tchebyshev donne 0.25 comme majorant. Remarquons, de plus, que l'ingalit est inutilisable pour k.:5 1.

Variance d'une somme de variables alatoires


V(X

+ Y) = E[(X +
= E(X!)

y)2] - (ECX)

+ E(Y)f!
E(X)! - E(y)2 - 2E(X)E(Y) - E(X)E(Y))

+ E(Y!) + 2E(XY) + V(Y) + 2(E(XY)


E(XY) - E(X)E(Y)

V(X)

On appelle covariance de X et Y la quantit: cov(X, Y) donc:


l

EX - E(X(Y - E(Y)

"(X

Y) = V(X) -1- VO')

+ 2 cov(X,
V(X)

Y)

En particulier:

X et Y :=;. V(X indpendantes

Y)

Vey)

mais la rciproque est ici encore inexacte en gnral.

Variance dtun produit de deux variables indpendantes


Un calcul lmentaire montre que:
1

V(XY) = V(X)V(Y)

+ V(X)(E(l')f + V(Y)(E(X21

Approximations de l'esprance et de la variance d1une fonction (j)(X)


Un dveloppement limit l'ordre 2 au voisinage de l'esprance m de X donne:
tp(x) - c.p(m) = (x - m)c.p/(m)

+ -

Cr 2

m)2

tpl/(m)

En prenant l'esprance :
E(tp(X - c.p(m) = E (

X-

m)2) tpl/(m)
Il

soit :

E(c.pCX) = c.p(m)

1 + "2 V(X)c.p

(m)

En levant au carr tp(X) - c.p(m) et en prenant l'esprance, on trouve galement [Lejeune, 2004.1 :
\ V(tp(X)) = (tp'(m)fV(X)
1

27

Autres moments
dfinit, si ils existent, les moments centrs d'ordre k :
1/-11;

= E[(X

- Ill)!;] 1

.,,.'n""11 ",[-'_

a videmment /-11 = 0 et /-1:.'. on a /-1::!k +] = 0 'tj k.

V(X). Si la distribution de la variable alatoire est sym-

Les moments /-13 et /-1-1 sont utiliss pour caractriser la forme de distribution. pour obtenir des quantits sans dimension, on utilise les coefficients d'asymtrie et
aol.atlSSf~m~~m 1'1 et 1'2 (en anglais ske~vl/ess et klirtoss) :

La figure 2.9 donne quelques allures typiques de courbes de densit correspondant certaines valeurs de l' 1 et "t::.. On remarquera que "t2 est toujours suprieur 1 car l'ingalit classique entre moyennes d'ordre p entrane (/-1.1)1/-1 > (/-12)]/::! => /-1.1. > (/-12):.'.'
De plus, on a toujours 1'2 :2: 1 + ("tIf. Plus que \' aplatissement, le coefficient 1'2 mesure l'importance des queues de distribution.

Lo de Gauss

Loi uniforme
FIGURE

u
2.9

Loi en

28

211111111Variables alatoires

Ingalit de Markov: En utilisant la mme mthode que pour l'ingalit de BienaymTchebyshev, on montre que:

PCIXI) > E) ::s -~ ,,E

E(X k )

2.1.4.4

Ordres stochastiques

Les concepts de dominance stochastique sont utiliss dans diffrents domaines, en particulier en fiabilit pour comparer des fonctions de survie, et en thorie de la dcision pour comparer des risques.

A. Dominance stochastique d'ordre


On dit que X domine stochastiquement Y si la fonction de survie de X est suprieure celle de Y:

P(X> c)

2.:

PO' >

c) pour tout c

ce qui revient dire que la fonction de rpartition de X est toujours infrieure celle de Y.

0.8 0.6 004 0.2 0

-3

-2

-1
FIGURE

0
2.10

THORME (ADMIS)

POlir que X dOlnlle stochastiquemellt Y, il/aul el il sl(lfit que E(f(X)) toute fonction f croissante.
2.:

2:

E(.f( r)) pour

On en dduit que la dominance stochastique de X sur Yentraine E(X)

E(Y).

On peut montrer (exercice faire ... ) la proprit suivante: si la fonction de hasard (ou taux de dfaillance) de X est partout infrieure celle de Y, alors X domine stochastiquement Y. C'est par exemple le cas de la dure de vie des femmes en France qui domine celle des hommes: non seulement l'esprance de vie des femmes est plus leve que celle des hommes, mais galement la probabilit de survie tout ge.

.. _.\1..

'''I~rlle!>

alatoires

29

B. Dominance stochastique d'ordre 2


La dominance d'ordre 1 implique que les fonctions de rpartition de X et Y ne peuvent se croiser. Une forme plus faible de dominance, qui autorise les croisements, est dfinie comme suit:
DFINITION

x domille stoclwstiqltenu?Ilt Y cl l'ordre 2 si leursfollctions de rpartitioll sont telles que:

f~F(X) dx :s: ~G(x) dx

pour lOtit c.

L'ingalit porte cette fois sur les intgrales des fonctions de rpartition. La dominance stochastique d'ordre 1 entrane celle d'ordre 2.

-6

-4

-2
FIGURE

o
2.1 1

Cette forme de dominance est utilise en thorie du risque pour des variables positives reprsentant des gains alatoires. Supposons de plus que X et Yont mme esprance: alors les aires hachures sur la figure prcdente sont gales. On voit intuitivement que la rpartition de X est moins disperse que celle de Y. Un individu qui a de l'aversion pour le risque prferera donc X Y. La dominance stochastique d'ordre 2 implique V(X) < V(Y) mais est plus gnrale (la rciproque est fausse). On montre que si X domine Y, Ya la mme distribution que X + e o e est une variable telle que E(ejX) O. Intuitivement, Y est plus alatoire ) que X. Le thorme du paragraphe prcdent est alors modifi comme suit [Rothschild et Stiglitz, 1970] :
THORME

POlir que X domine stochastiqueme11t Y li l'ordre 2, iljut et il sl~ttl que E(f(X)) pOlir tOtltefol1ctionfcmissame concove.

E(f( Y))

30

2.Variables alatoires

2.2

LOIS DE PROBABILIT DISCRTES D'USAGE COURANT Loi discrte uniforme

2.2.1

x = {l, 2, 3, ... , Il)


P(X

1)

P(X = 2)

= ... =

P(X

11)

(fig. 2.12)

P(X = k) =Il

~f 1 1 1 .. 1
1 2 3

FIGURE

2.12

E(X) = - -

Il

+
2

par symtrie
11

E(X) = - (1
11

+ 2 + ... + 11)

+1
2

., 1 E( X -) = - (1
11

+ 4 + 9 + ... + +
1)(211

lZ-)

.,

E(X-) = - - - - - 11

.,

1 11(11

1)

d'o: V(X) V(X)

(Il

+
+ 1

1)(211 6

1)

(11

3(11

+
4

1)2

= --(4n + 2 12
V(X) = - n:' -

11

1))

soit:

12

2.2.2

loi de Bernoulli de paramtre

C'est la loi d'une variable X ne pouvant prendre que les deux valeurs l ou 0 avec le~ probabilits pet 1 p ; X est la fonction indicatrice d'un vnement A de probabilit p :

Comme X 2

X, E(X2)

= p, d'o:
1

V(X)

= p(l

- p)

'"J_.V~"I:Hm::;.

alatoires

31

loi binomiale
A. Principe

!:JJ(n ; p)

Supposons que l'on repte 11 fois dans des conditions identiques une exprience alatoire, dont l'issue se traduit par l'apparition ou la non-apparition d'un vnement A de probabilit P~ le rsultat de chaque exprience tant indpendant des rsultats prcdents. Soit X nombre d'apparitions de l'vnement A parmi ces 11 expriences (0 X:5 Tl). On dit alors que X suit une loi binomiale de paramtres Il et P note ~ p). Comme chaque exprience numrote iCi = l, 2, .. " 11), on peut associer une variable de Bernoulli Xj de paramtre p, on a: X

LXi d'o la deuxime dfinition de la loi binomiale: X suit une


i=1

Il

loi binomiale @(1l ; p) si X est une somme de 11 variables de Bernoulli indpendantes et de mme paramtre p. De cette dfinition, dcoulent l'esprance et la variance de X . ......".hE(X) = 2:E(Xi ), donc: E(X) = HP V(X) = 2: V(Xi ) car les Xi sont indpendants; donc:
1 1

B. Loi de probabilit
Ann de chercher l'expression de P(X 11.), remarquons que toutes les configurations, telles que k variables Xi prennent la valeur 1 el 11 - le la valeur 0, sont quiprobables et qu'il Y a C~ configurations de cette sorte (nombre de manires de choisir k Xi parmi n). D'autre part:
P(X,
XI
Il

n ... n )(" = x/J) = Il P(X = xJ


i

;=1

II pX{l
1=1

Il

p)l-xi

car les Xi sont indpendants :

Comme

LXi

= le,

on trouve:

Cette formule justifie le nom de la loi binomiale car les P(X = k) sont les termes du p))rt selon la formule du binme de Newton (on vrifie au dveloppement de (p + (1
k=/J

passage que

L P(X

k) = 1).

1;=0

La fgure 2.13 reprsente quelques diagrammes en btons correspondant diverses valeurs de Il et p. On notera que la distribution est symtrique si p = 1/2 et le devient approximativement sinon, ds que Il est assez lev.

32

2.Yariables alatoires:

0.4

0.3
0.1

n= 0.5 p= 0.1

0.6 0.5
0.4

0.2

n=10 p= 0.05

0.3

o
0.4

0.2
1 2 3 4 5 0.1 x

n = 10
p= 0.1

1 2

4 5

0.3

0.2 0.1 0123456


x
1

n= 10 p=0.2
x
j

~~lll
o
1

n=20 p= 0.1

01234567
n= 10 p=0.5

234

1 5 6

~
789
n= 50

0.3\

~:~ il--~f-l-I-+1-+-1

2 3 4 5

~:~

f - l - - - + - -

1 -t--+--+-I I--t--+--+I 1--+--1 x 23456789

-+-I-P=f--0-f-';-11-1--1 X
6 7 8 9 10
FIGURE

2.13

Un rsultat utile pour l'utilisation des tables: si X suit une loi binomiale fYJ(n ; p), suit alors une loi binomiale i1J(n ; 1 - p).

JI -

Pour 11 grand, on verra plus loin que la loi binomiale peut tre approxime soit par une loi de Poisson (si p est petit) soit par une loi de Gauss.
}J

La somme de deux variables alatoires binomiales indpendantes et de mme paramtre est une variable alatoire binomiale:

_ Dmonstration
XI : somme de ni variables de Bernoulli; X2 : somme de 112 variables de Bernoulli.

.:::':':"'\J~rllaDII::::'

alatoires

33

x + X"
1

somme de Il, + variables de Bernoulli est bien une variable binomiale oal la somme des effectifs. _ o

"2

ConC1lltla'n ncessaire et suffisante: XI et X2 doivent tre indpendantes.

Loi de Poisson 9P()


C'est la loi d'une variable alatoire entire positive ou nulle qui satisfait :

On peut vrifier toul d'abord qu'il s'agt bien d'une loi de probabilit:

LP(X
x=O

= x)

exp( -

:;-: x.. x.) L -

.r=O _or!

= exp( - ) exp(X.)

la figure 2.12, quelques diagrammes en btons correspondent diverses valeurs de X. :

0.6 0.5

DA

OA

x. = 0.5

0.3

x. = 1.0

0.3

X.

1.5

DA
0.3

0.2 0.1

0.2 0.1

0.2 0.1

o
o
5
10
0.4

10

10

OA
0.3

x. = 2.0

0.3

x. =3.0

X. = 5.0 0.3~ 0.2


0.1
(g) 0

0.2 0.1

0.2 0.1

10

10
0.31

o
0.2

10

x.::::: 10.0
1-1.....1-

0.1

~!
!

4---L--Ll

1 1-I....I....J1111-J-I-11.I.-J.....I./ 1 ,
1

5
FIGURE

10

15

2.14

Le paramtre X. reprsente la fois l'esprance et la variance de X.

34

2_Variables alatoires

On obtient la loi de Poisson comme approximation de la loi binomiale dans le schma: suivant: Soit un vnement A de probabilit p trs faible (en pratique p < 0.1) que l'on essaie' d'obtenir quelques fois en rptant l'exprience un grand nombre de fois (en pratique Il > 50). Le nombre de ralisations de A suit une loi binomiale @(n ; p) telle qu'en pratique: .
@(1l,

p) - r!J(np)

c'est--dire :

Nous allons, en fait, tablir ce rsultat sous la forme mathmatique suivante:


THORME

Soit X'I une sllite de variables binomiales @(n, p) telles que Il~ ,7Jj et p ~ 0 de manire' li ce qlle le pmdllit I1P te1lde l'ers une limite finie k. Alors la suite de variables alatoires XII converge en loi l'ers une variable de POsson fJJ(k).

Les notions de convergence seront tudies en dtail au paragraphe 2.7.

_ Dmonstration

(pl1Y -- ( 1 - -

xl

1)( 1 - -2) ... (1 - -- -l) x


Il Il

(l - PYI-X

11

Faisons tendre Il -

".

Tous les tennes (1 -

!;) ... (1 - x :
~

1) tendent vers l, leur

produit tend vers l car ils sont en nombre fini. Dcomposons (l - p)/I-X en (l
pyl(l - p)-X

(1 - p) -x ~ 1 car p
Quant (1 -

O.

pt -

k)lI (1 -;; il tend vers exp( - ) donc:


C~pX(1_p)"-X~

11/1 ( -= .t.

)Xexp(-)

c.q.f.d.

La suite des esprances des binomiales Xli : E(X/!) = IIp converge vers :

35

E(X) =

x=()

2: exp( -) x.1

,I'

le premier terme est nul:

exp(-) exp() = Ln suite des variances des binomiales X,,: V(XII ) = np(l
p) tend aussi vers car

np ~

p~

o.

Montrons que '--_ _---'

_ Dmonstration
V(X) = E(X:!)
0:;

[E(X)f = E(X:!) - :!
X
~

E(X:!) = .Lx2exp(-)- = .Lxexp(-)-x == () x!,~ = 1 (x - 1) !

avec x = x - 1

+ l, il vient:

E(X:!) =

2.: exp ( x=2

(x -

2)!

2.: exp ( x=1

) - (x -

1)!

E(X'!.) = :2 exp (-)exp()

exp(-)exp()

donc V(X) Donc (J'

= :2 + = {i;..

::'

On verra plus loin que la somme de deux variables de Poisson indpendantes est encore une variable de Poisson. Lorsque est grand, on verra que la loi de Poisson peut tre approxime par la loi de Gauss. La loi de Poisson s'obtient aussi comme loi exacte du nombre d'vnements survenant pendant une priode donne, sous certaines conditions (voir plus loin le paragraphe consacr au processus de Poisson).

- Exemples d'application de la loi de Poisson: loi du nombre de suicides par an dans un pays donn;
loi du nombre d'appels tlphoniques pendant un intervalle de temps T; loi du nombre de pices dfectueuses dans une livraison importante, la production tant de bonne qualit; etc.

..

'~~
\)

36

2aVariables a'atoireiil

2.2.5

loi hypergomtrique Zle(N, n, p) ou du tirage exhaustif

Soit une population de N individus parmi lesquels une proportion p (donc Np individus)! possde un certain caractre. On prlve un chantillon de Il individus parmi cette populaL; tion (le tirage pouvant s'effectuer d'un seul coup ou au fur et mesure mais sans remise).": Soit X le nombre alatoire d'individus de l'chantillon possdant la proprit envisage.'; X suit la loi hypergomtrique et l'on a :

min X = max (0 ; n - Nq) ;

max X = min (n ; Np) ;


nombre d'chantillons possibles; C Np
C,/=:~vp

nombre de groupes de x individus possdant la proprit; nombre de groupes de (n - x) individus ne possdant pas la proprit.

Le nombre

nI N est appel taux de sondage.


,

On peut considrer X comme une somme de 11 variables de Bernoulli XI' X 2, indpendantes correspondant aux tirages successifs de 11 individus. On sait que E(X I )

XII nan

Nous allons montrer que ces variables Xi ont toutes le mme paramtre gal p.

= P(X1 = 1) et il est vident que P(X 1 = 1) = p.


1). Comme Xl et XI sont lis, on a :

Cherchons E(X1 ) = P(X}

P(X1 = 1)
soit:

= P(X2 = 11x I =

1)P(X 1

= 1) + P(X'!, = 1lx)
+N

= O)P(X)

= 0)

Np-I P(X 2 = 1) = N _ 1 P

Np _ 1 ( 1 - p) p
(N -

Np:' - P

+ Np

- Np!

1)

N- 1

N-}

=p

2.1.5.1

Esprance de l'hypergomtrique

L'esprance ne dpend pas de N et est la mme que dans le cas du tirage avec remise (loi binomiale).

2.2.5.2

Varance de l'hypergomtrique

Comme il n'y a pas indpendance:

V(X)

= 2: V(X i ) + 2 2:cov(X"
i~

Xj ) = 2:V(Xi )

+ 2:cov(X;, X)
i~

,V:lr'iaDI,es

alatoires

37

2:V(Xj ) vaut I1p(1 - p) (terme binomial).


cov(Xi> X) = E(XiXj )
P(XiXj
1)

p2 = P(XiX}

P(Xj =

!lxi =

1)P(Xr = 1) = P('X.i

= 1) - p2 llxi = 1)]1

ne

dpend pas des indices i

et j

et vaut par exemple

N-I
cov(X, X)
l'

=P

Np - 1 ., - pN 1

Comme il Y a n(n - 1) manires de prendre des couples (Xi et X), il vient:


V(X) = np(l

p)

+ lI(n

Np 1 ,] 1) p - p[ N-I

V(X) =

8"
pl.

P (j - pli

Tendance vers la loi binomiale


Si N -'l> co, 'J(N,
11,

p) tend vers r?lJ(1l,

_ Dmonstration

C;VI'C;v--'tv1'
CN

Np! (Np - x)!x!


(Il

(NO
Nq!

p))!
Il

n!(N - 11)!

x)!(N - Np -

+ x)!

N!

= cx_-- --~-- - - (Np - x)! (Nq - Il + x)! N!


/1

(N - n)!

avec q

= 1-

p.

Np! 1 2 3 ----'-- = = Np(Np - 1) ... (Np - x 12 3 ... (Np - x) (Np - x)1

+ 1)

Si N est grand, Np
Donc:

1 ~ Np

2 ...

(Np - x

+ 1) -

Np car x est ngligeable devant Np.

Np!
(Np - x)! - (Nq)/I-X

- (Npy

De mme:

(Nq -

11

+ x)!
CX
/1

et

N! ----Nil
(N - Il)!

donc:

cx

Np

cn-x ~ NI[

(N )X("A' )'J-.t

lVq

C;!.;

Nil

c.q.f.d.

En pratique, ce rsultat s'applique ds que Il/N < 10 c'est--dire ds que la population est 10 fois plus grande que l'chantillon, ce qui arrive frquemment en sondages.

38

2_Variables

Un chantillon de 2000 individus conviendra donc aussi bien pour faire un sondage une vlle de 200000 habitants que dans une ville de 2 millions d'habitants.

2.2.6

lois gomtrique, de Pascal, binomiale ngative

La la; gomtrique est la loi du nombre d'essais ncessaires pour faire apparatre vnement de probabilit p :
P(X

= x) =

p(1 - py-I

= 1,2, ... ,00


p'2

En posant q = [ - p, on trouve aisment:


E(X) = -

V(X)

= p~

YI

2q

Y1

= 9 +q

La loi de Pascal d'ordre Il est la loi du nombre d'essais ncessaires pour observer Il fois un vnement A de probabilit p. L'exprience devant se terminer par A, on a: pour x

= Il, Tl +

1, .. "

00

Cette loi est la somme de nlois gomtriques indpendantes (apparition de A pour la premire fois, puis pour la deuxime fois, etc.), on a:
E(X) = Il

V(X) =-:;-

nq
p-

2 P YI=--

Y'2= 3 + - - nq

p2

+ 6q

La loi binomiale ngative est la loi de Y = X -

Il :

= y) = C:~:;.~'_I pllqY Son nom vient du fait suivant: en posant Q = IIp, P = (l


pey
terme gnral du dveloppement de (Q - P)-Il d'o:
E(X) = IlP Vey) = IlPQ

- p)lp, on a:

YI

P+Q ,JllPQ

y., -

= 3 +--nPQ

+ 6PQ

que ron comparera aux moments de la binomiale fY1(I1, p).

2. 3 2.3.1

DISTRIBUTIONS CONTINUES USUELLES Loi uniforme sur [0, al


1 = - sur [0, a] ; a

Sa densit est:
J(x) J(x)

= 0 ailleurs ~

~\I..,r.j::.nle5

alatoires

39

= :.... sur [0, a] ;

= 0 sur [--::c, 0] ; F(x)

l sur [a, +:0] (voir fig. 2.13).

{(X).
FIGURE

R~)z
a
2.15

Son esprance vaut E(X)

= '2 car la densit est symtrique.

Sa variance vaut V(X) =

I
()

II

xl -

dx - a 4

al

= -.
12

a2

La somme de deux IOs unformes n'est pas une loi unifonne. Ainsi, soit X et Y deux variables uniformes sur [0, a] ; leur somme Z, si elles sont indpendantes, est une variable de densit triangulaire (fig. 2.16).

a
FIGURE

2a

2.16

2.3.2

loi exponentielle de paramtre

Sa densit estfC-x)

= exp( -

X)

six> O.

On trouve sans difficult:

En fiabilit, cette loi est trs utilise pour reprsenter la dure de vie de circuits lectroniques. L'esprance l/ est souvent appele le MTBF (NJean Time Betweell Failllre) et le
'f ' t aux de de 'aI11 ance car 1 z(x) =
f(x)

1 - F(x)

et est constant.

40

2 . .Variables alatoires

2.3.3

lois gamma

La loi exponentielle est un cas particulier d'une famille de lois appels lois 'Y. Prcisment, si X est une loi exponentielle de paramtre x., X.X est une variable suivant une loi "YI' On dit qu'une variable alatoire positive X suit une loi gamma de paramtre r, note 'Yr si sa densit est donne par:
f(x)

= -f(-r) ex4P(-X) x

... 1
-'

Il s'agit bien d'une densit carf(x) est> 0 et

Jo

r~f(x) dx =

1 par dfinition de fer). Les

lois "Ir avec rentier> 1 sont aussi connues sous le nom de lois d'Erlang.

2.3.3.1

EsPrance
1

E(X)

= ri
f(r + 1) fer)

En effet:
E(X)

-1 L:Oxr exp( -x) dt -

fer) ()

=1'

2.3.3.2

Variance

En effet:
V(X)

E(X -) - [E(X)]-

.,

.,

= - 1 LOC
fer)
x

exp(-x) dx -

1'2

soit :
V(X) =

f(r + 2) ... - r"" = (r I (r)


1

+ 1)., 1) - - - - r- = r(r
fer)

1) - r-

.,

Cette loi prsente donc une certaine analogie avec la loi de Poisson mais en continu. Les courbes de densit sont reprsentes la figure 2.17. Les lois "Y vrifient la proprit d'additivit suivante:
THORME

Si X el Y sont des W-triables indpendantes suivant respectivement des lois 'Yr et "'1.0 alors X + Y stlil ulle loi 'Yr +S' Ce rsultat sera dmo1lfr au paragraphe 2.5 de ce chapitre.

Les lois 'Y sont lies aux lois du X2 utilises en statistique par une fonnule simple (voir chapitre 4) : Si X suit une loi 'Y" 2X suit une loi X~r'

41

FIGURE

2.17

2~3.4

Lois bta
Loi bta de type 1
Il

2.3.4.1

C'est la loi d'une variable X; 0:5 X:5 1 dpendant de deux paramtres densit est:

et p dont la

. 1 1 }(x) = - - x " - (1
B(n, p)

n,p

>0

ou B(n, p) = f

f(n) f(p) (Tl

+ p)

On trouve:

Ces lois sont utilises en statistique baysienne pour reprsenter la distribution a priori de la probabilit d'un vnement. L'allure de quelques courbes de densit est donne par la figure 2.18.

2.3.4.2

Loi bta de type "

Soit X une variable suivant une loi bta T(Il, p) ; par dfinition, Y X/(l - X) suit une loi bta de type TT dont la densit s'obtient aisment par changement de variable:
J(y)

B(J1,p) (l

+ y)7I+1'
Vey) =
n(n
(p

+P-

., I)-(p - 2)

1')

PROPRIT

Le rapport de deux variables indpendantes suivant des lois 'Yn et 'Yll respectivement suit une loi bta U(1/, p).

42

2.Variables alatoires

3.0 f(x)
r(n+p) xn-1(1_x)P-1 nn) r(p)

2.0

1.0~----~----~----~----~~~----+-----~--~~--~

a ~~~----+----+--==~----~---+----+---~----~--~
o
.1 .2 .3

.4

.5

.6

.7

.8

,9

1.0

FIGURE 2.18

La dmonstration est laisse au soin du lecteur. Les diverses valeurs de Il et p font que cette loi s'adapte bien la reprsentation de nombreux phnomnes alatoires positifs (temps d'attente, dures de vie, mthode Pert avec dure alatoire). Ces lois sont lies aux lois de Fisher-Snedecor utilises en statistique (voir chapitre 4).

2.3.4.3

Loi de l'arc sinus

La loi bta 1 (l/2 ; I/2) dont la densit est j(x) =


'Tf

.y

x(l - x)

porte le nom de loi de r arc

sinus car sa fonction de rpartition est:


2 . F(x) = - arc sm (',lX)
'Tf

On a E(X) = 1/2,

V(X)

= 1/8, 'YI = 0, "Y1 =

1.5.

Cette loi assez paradoxale, puisque l'esprance est la valeur la moins probable et les valeurs extrmes sont les plus probables, s'applique en particulier dans certains phnomnes lis aux jeux de hasard. Par exemple, deux joueurs jouent un jeu quitable (du type pile ou face). Soit S" S2, ... Sil la suite des gains d'un des deux joueurs; si X dsigne la proportion du temps pass en gain positif, la loi limite de X quand 11 ~ 00 est la loi de l'arc sinus. Il y a donc plus de chance d'tre constamment en gain ou constamment en perte que d'tre dans le c~c;; mdian (c'est la loi de la persistance de la chance ou de la malchance ...).

... __ \I.,"'~lnIE!~

alatoires

43

Cette loi a pu tre appliqu la persistance du temps en mtorologie et rend compte du fait qu'il est plus frquent de battre des records (de froid ou de chaud) que d'avoir un temps moyen.

2.3.5

La loi de laplace-Gauss

Cette loi joue un rle fondamental en probabilits et statistique mathmatique. Elle constitue un modle frquemment utilis dans divers domaines: variation du diamtre d'une pice dans une fabrication industrielle, rpartition des erreurs de mesure autour de la vraie valeur J>, etc. Malgr son appellation malencontreuse de loi normale(l), elle est cependant loin de dcrire tauS les phnomnes physiques et il faut se garder de considrer comme anormale une variable ne suivant pas la loi de Laplace-Gauss. Son rle principal en statistique provient en ralit de ce qu'elle apparat comme loi limite de caractristiques lies un chantillon de grande taille. Le thorme central-limite que nous tablirons au paragraphe 2.7 montre que dans certaines conditions la somme, et donc la moyenne, de variables indpendantes et de mme loi est asymptotiquement une loi normale.

X suit une loi normale LG(m ; cr) si sa densit est(l) :

f(x)

1 exp ( - - - 2 rr

(x - m)3)
'-----_.

Par suite de la symtrie defet comme l'intgrale de X converge,

Avec le changement de variable alatoire

on trouve que la densit de

U est:

U est une LG (0, 1), donc toute variable X LG (111 ; rr) se ramne simplement la variable
U par X = m

+ rr U.

Montrons que V{ U) = 1 :
V(U) =

J+:C_l-ltlexP(-~1I2)dll = ~ (:Z:li2exP(-~ll:!)dtl
-:::12;
LI

12;Jo

Posons t =

UZ/2,

il vient

du = dt :

V(U) = - 2

-r; ()

LXexp(-t) dl = - f(3) = - - f (1) 2 - 21 -r;


2

{:IT 2

I_Cette dnomination fut introduite par K Pearson qui voulat viter les querelles d'antriorit concernant son introduction en statistique et l'a d'ailleurs par la suite comme l'indique cette ct3tion : Many years ago 1called the LoplaceGaussian curve the normal CJ)rve nome, while ![ ovoids an intemational question o{priority, hos tlle disadl/onfage ofleading people iD beJieve that 011 other distributions or rrequency are in one sense or anor.her 'obnorma/:That belie{is, or course, nOt juslJ~Qble, Ir has 100 many writers ta /.ry and (oree 011 rrequency by aid or one or anor.her process o(distorrJon into a 'normal' (urVe (paper read

to the Society of Biometricians and Mathematical Statisticians, June 14, 1920). 2_La notation LG sera utilise couramment dans cet ouvrage. La notation N(m : (T) sera galement utilise.

44

2.Variables alatoires

comme

=.Ji:

11 en rsulte que rr est l'cart-type de X. La fonction de rpartition et la densit de X sont reprsentes sur la figure 2.19. Les points d'inl1exion sont :trr de part et d'autre de
ilL

0.45 1.000 .875 Fonction de rpar1ition

37 .

7
o
20 30' 40 -40' -30 -2cr -cr
FIGURE

.250

-40' -30 -20 -cr

0'

20 30' 40

2.19

2.3.5.1

Valeurs remarquables
P(m P(m P(m

1.64rr < X < 1.96rr < X < 3.09rr < X <

111
111

1.64rr)

111

+ 1.96rr) + 3.09rr)

0.90 0.95 = 0.998

2.3.5.2

Moments

Ils existent pour tout ordre. Pur suite de la symtrie, tous les moments d'ordre impair sont nuls. Calculons les moments d'ordre pair:
IL"

Lu"
:

exp ( -

~ )dll =
Il'

2 i"H"ex p ( -

11'

)dll

Posons y

li:! /2

2_ Variables alatoires

45

d'o:

11lk

21;: = -J; r

+ 2'

t)
= 1 35 ... 2k - 1 ,r;;;

Comme:

r (k + ~) =

1 . 3 5 ... (2k - 1)

(i)

(voir annexes) il vient:


1-L2k

1-.J .. (2k - 1) =

"'l

(lk)!

on en dduit 1-L4

= 3, d'o "12 = 3.

2.3.5.3

Additivit

Les variables de Gauss possdent la proprit d'additivit.


THORME

Si Xl et Xl sont des variables indpendantes suivant respectivement des lois LG(m, ; cri)

et LG(ml ; cr1) alors XI +

est une variable LG(m 1

+ m2; ..,Jcrf + cri)

Ce rsultat fondamental sera dmontr au paragraphe 2.6 ft J'aide des fonctions caractristiques. On ne peut cependant pas dire que toute combinaison linaire de p variables gaussiennes non indpendantes soit encore gaussienne. Il faut pour cela que le p-uple de variables suive une loi normale p-dimensions (dont c'est prcisment la dfinition. cf chapitre 4).

2.3.5.4

Loi de U2
U 2 est:

D'aprs la formule tablie la fin du paragraphe 2.1.2.2, la densit de T


g(t)

(()

= _1_ t -1/2 ex p
{2;

(-!..) 2

en remplaant

f(t} par

ex~ - ~ ,,1), on remarque que U"/2 suit une loi "Y 111 ou loi du

khi-deux un degr de libert (voir chapitre 4).

2.3.6

La loi log-normale

Laplace~Gauss

C'est la loi d'une variable positive X telle que son logarithme nprien suive une loi de : ln X - LG( 111 ; cr) Sa densit s'obtient par un simple changement de variable et on trouve:

f(x) = _1_

(Jx~

exp(_~(ln x
2

cr

111\2)
)

46

2aVariabies alatoires

E(X)

= exp(m + ~')

V(X) = (exp(2m

+ rr 2(exp al

- 1)

On utilise parfois la loi log-normale trois paramtres -y, 111, rr telle que: ln (X - "1) -- LG(m ; rr) avec X> "1.

La figure 2.20 reprsente la denst de la loi log-normale d'esprance 2 et d'cart-type 1 :


(m
0.6

= 0.58

= 0.47)

0.5

OA
0.3

0.2 0.1

2
FIGURE

2.20

2.3.7

loi de Cauchy
1
TI(1

C'est la loi d'une variable X relle de densit:


f(x) =

l L Sa fonction de rpartition est F(x) = - arc tg x + -,


TI

X ne possde aucun moment fini car l'intgrale

~ TI(1

dx diverge.

On montre que la loi de Cauchy est la loi du rapport de deux variables LG(O; 1) indpendantes. Elle s'identifie TI variable de Student de degr 1 (voir chapitre 4).

2.3.8

loi de Weibull

Trs utilise en fiabilit, la loi de Weibull deux paramtres donne la probabilit qu'une dure X de fonctionnement sans dfaillance soit suprieure x par:

Ip(x > x) = e -w"l

47

En d'autres termes,

x)(r (f3 suit une loi exponentielle.


~ (~)a -Ie-(~)" ~ ~ ...

La densit de X est: f(x)

Le paramtre Cl, qui est sans dimension, est appel paramtre de fOffile. Selon ses valeurs, la densit de probabilit est plus ou moins dissymtrique. Le paramtre de forme est li au vieillissement: quand il vaut l, on a une loi exponentielle caractristique des matriels sans usure ni fatigue. Quand il est plus grand que 1, on est en prsence de fatigue: le taux nstantan de dfaillance Il(x) est alors croissant avec x :
h(x) =
Ct f3 (x)U f3
1

Si

Ct

est infrieur l, on a affaire un matriel qui se bonifie avec le temps.

Le paramtre !3 s'exprime dans la mme unit que X (jours, heures, nombre de cycles, etc.). C'est un paramtre d'chelle li la dure de vie mdiane par:
~=--.,.-

mdiane

La figure 2.21 donne la densit d'une loi de Weibull avec a:

2 et

r3 = L

o
FIGURE

2
2.21

La relation E [
. 'd prece ent ( =
.!.

(~)'] = r (1 + ~) permet de calculer les moments de X. Dans l'exemple


~

"fl

et

= 1, on trouve E(X)

= { ; et V(X)
2

= 31T. annexe 4). - (vOlr 4

2.3.9

Loi de Gumbel

Cette loi est utilise pour les distributions de valeurs extrmes (voir chapitre 12). Sous sa forme standard sa fonction de rpartition est: 1F(x)=exp(-exp(-x1

48

2 . . Variables alatoires

soil:

J(.\:) = exp(-x - exp(-x)

(fig. 2.22)

ex p( - X) suit donc une loi 'Y l'

.5

f (x) = exp (-x) e)(p (- exp (-x))

.4

-3

-1

o
FIGURE

2.22

Ses moments sont:


E(X) = 0.57722 ...

(constante d'Euler)

V(X)

="6
= 1.29857
5.4

7-

.,

'YI

"12

La loi de Gumbel est utilise pour modliser des phnomnes tels que: crue maximale annuelle d'une rivire, magnitude du plus grand tremblement de terre enregistr en une anne, etc.

2.4

lE PROCESSUS PONCTUEL DE POISSON

Considrons une famille XI de variables de Bernou11i (X! = 1 si un vnement (arrive d'un client, accident, appel tlphonique ... ) se produit l'instant t) : on s'intressera la rpartition des dates d'arrive des vnements, ainsi qu NI nombre d'vnements entre o et f.

49

flux poissonnien d'vnements


Un processus de Poisson reprsente l'apparition d'vnements alatoires El, E2 etc., satisfaisant aux trois conditions suivantes: Les temps d'attente entre deux vnements El E2' E2 pendantes (processus sans mmoire).
,

E,!,

etc. sont des variables ind-

La loi du nombre d 1 vnements arrivant dans l'intervalle ft; t + Si T l , on notera c son esprance, dite ({ cadence ). Deux vnements ne peuvent arriver simultanment.

Tl

ne dpend que

Soit Po (Il) la probabilit qu'aucun vnement ne se produise pendant une dure Il ; d'aprs delUXleI111e condition, Po (Il) ne dpend que de Iz et non de l'instant considr. Soient trois instants t, t + h, t + Il + k. La probabilit qu'il ne se passe rien entre t et t+ h + k est Po (h + k) ; d'aprs l'axiome cl' indpendance, on a : vil, v/.:. Po (Il + k) = Po (II) Po (1;:) D'o le rsultat:
POU,) = exp( -cil)

avec c> 0

Nous montrerons par la suite que c est bien la cadence du phnomne.

10

8
6
~

2
0 0
2

10

12

14

16

18

FIGURE 2.23

Une trajeclOire d'un processus de Poisson avec c = 1 ; en ordonne le nombre cumul d'vnements depuis t O.

2.4.2

tude de la dure T sparant deux vnements conscutifs Ei et f + 1


j

Soit T cette dure qui est une variable alatoire, la probabilit que T> t est gale la probabilit qu'il n'arrive rien pendant une dure t soit:
P (T

>

t) = exp( -ct)

50

2.Variables alatoires:

d'o la fonction de rpartition de T: peT < t) = l - exp( -ct}. La densit vaut alors.
1(1) ::::.: exp ( -ct)c il s'ensuit que cT suit une loi 'YI' donc E(T) = 1/c.

2.4.3

tude de la dure Y sparant n


Il

1 vnements

Yest une variable alatoire somme de


y = TI

variables indpendantes de mme loi:

+ T2 + ... + Til
II

soit:
c Y = cTI

+ cT]. + ... + cT

(fig. 2.24)

y
FIGURE

2.24

donc c Y suit une loi "VII ; la densit de Yest :

2.4.4

tude du nombre d'vnements se produisant pendant une priode de dure T fixe

THORME

Le nombre d'vnements suit une loi de Poisson de paramtre cT.

_ Dmonstration: Soit AB la priode d'tude (fig. 2.25) :

A
FIGURE

B
2.25

1).

On a la relation vidente: peN

= n) =

P(N;::: n) - P(N;::::

Il

La probabilit peN :.:: Il) est aussi la probabilit que la dure AEn soit infrieure il T; cette dure est constitue de AEJ + EIE1 + ... EH-lE" qui sont des lois exponentielles indpendantes ~ donc c AE'I suit une loi 'Vil et r on a :
P(N = Il)

exp( -ct)

(Ct)II-1
(n - 1)!

c dt -

!uT
0

exp( -ct) -

(ct)/I

Il!

c dt

,::;;;"'V':IrfrlOleS

alatoires

51

En intgrant par parties la premire intgrale, il vient:


T

exp( -ct)

(ctt-I
(n -

l)!

c dt

= 1'1'exp( -ct) d ((ctt) 0 11!

= exp(-cT) - - +
n!

(cT)'1

lT
0

exp(-ct) -

(ctY' c dt n!

peN

Il)

= exp( -cT)-1/!

(cTr'

trouve E(N)

= c ; c est donc bien la cadence dfinie au dbut de cette partie.

pplication importante: Relation entre loi de Poisson et loi du X2


loi f1J() on a :
P(N:5 11)

= P(X~(I'+l) >

2.)1

il suffit de considrer un processus de Poisson de cadence c


P(N:5 11)

1, observ sur une dure . :

= peT, + T2 + ... + TI/_ 1 > = P(2"Y1I+' >


2)

P("YII+I

> )

P(X;(1I+1)

>

2.)

2.4.5

tude de la rpartition des dates El, E2' ... En dans l'intervalle AB

Posons A = 0 et cherchons la loi de probabilit conjointe des dates E" El' ... , EII et de N nombre d'vnements survenus. La probabilit pour que le premier vnement se passe entre t, et t,

+ dt,

est:

c exp( -ct l ) dt l .
La probabilit conditionnelle que E 2 arrive entre t 2 et t1 c exp(-c(t1 - t\ dt l , etc.

+ dt 1

sachant E, est:

La probabilit qu'aucun vnement n'arrive aprs EH sachant la date de EII est: exp(-c(T - fil ; d'o:

La loi conditionnelle:
. C'l

jU], '1' ., " ',iN

= Il) =

exp( -cT) (cT)"

11!

Til

exp(-cT) - -

n!

ce qui prouve que les instants t" 12 , , ., fil constituent un chantillon ordonn de la loi unfonne sur [0, T] : en effet, si l'on s'intresse seulement aux dates et non leur ordre, il faut diviser par Il! qui est le nombre d'ordres possibles,

52

2aVariabies

2.4.6

Le processus (Nt)

D'aprs ce qui prcde, Nt suit pour tout 1 une loi de Poisson f!P(ct). Comme E(Nt) = ct V(N I ) , ce processus n'est pas stationnaire mais il est accroissements stationnaires indpendants puisque 't;/h, NI + 11- NI = (!}(h). La fonction de covariance de ce processus est facile obtenir: si s> 1 : CU, .'1) = cov(Nt ; N.() = cov(Nt ; Nt + X) = VeNt) + cov(Nt ; X) : or X une variable indpendante de NI (accroissements indpendants) donc: si s 2: t : C(t ~ s) = VeNt) = cl; et on trouve de mme si t> s : CU, s)

1C(t ; s) = c inf Ct ; s)1


Cette fonction est continue en t = s donc le processus est continu en moyenne tique. Cependant, aucune trajectoire n'est continue puisque (NI) est une fonction alatoire escalier (incrments de 1 chaque vnement).

2.5

CONVOLUTION

Un problme courant consiste trouver la loi de probabilit d'une somme de deux bles indpendantes Z = X + Y.

2.5.1

Cas discret
z)

Le thorme des probabilits totales donne la solution du problme:


P(l

= 22 P(X = x n
.\"

= z-

x)

= 22 P(X = z )'

ny

y)

Lorsque X et Y sont indpendantes, on a :


1 P(Z

= z) = ;

P(X

= x)P(Y = z -

x)!

Sinon, on peut toujours crire:


P(l z)

= 2: P(X = x)P(Y

z: - x/X

x)

Remarquons que, pour la sommation, x ne prend pas ncessairement toutes les possibles de X mais uniquement celles compatibles avec l'vnement l
lIIIIIl Exemple: Soit X et Y, deux variables de Poisson indpendantes de paramtres respectivement:

et IL

P(X = x) = exp(-)-

x!

pey

= y)

/-LY = exp( -/-L)-

y!

On a donc:
.r=~

P(Z =;::) = 2:exp(-)-exp(-/-L)--.r=O x! (z x)!

53

en multipliant et divisant par z! : exp(-( P(Z = z) = _! ...:,.

11.)
r--

x=;:

~ C~ X/-1:-x
~

x=o

exp( -(

/-1))

z!

/-1)~

z= X + Yest donc une variable de Poisson !P( + /-1).


Cas gnral
loi de probabilit de Z

liIIII

=X +

la loi de Zn' est autre que la mesure image de Pxr par l'application de ,
L.lV" .......... -

Ys' obtient grce au thorme de la mesure image: en 1R2 dans IR dfi-

X et Y sont indpendants, on a donc le rsultat suivant:

La loi de probabilit de la somme Z de del/x variables i1ldpendal1tes est la mesure image de Px 0 p~. par l'application (x, y) ~ x + y de ~2 dans ~.

Note Px bore:uen B :

* Pl' = Pz (produit de convolution de deux mesures), elle est telle que pour tout
Pz(B)

LIl.(x
LIl

+ y) dPx(x) 0

dP,.(y)

On remarquera le caractre symtrique en x et y de la formule prcdente. En particulier, si X et Y admettent des densits, on a :


Pz(8)

B(X

y)f(x)g(y) dx dy

Posons x

+ y = z, x = li et appliquons le thorme de Fubini:


Pz (B)

= =

LIlIJ(z)f( Il) g(z - Il) dll dz

J~

lln(z.) dz

feu) g(z. - li) dll

f)x

D'aprs la dfinition des variables continues, on en dduit que Z admet pour densit:

k(;.)

f(lI) g(z - li) du

DI'

g(y) fC:

- y) d)'

Dl

les domaines Dx et DI' tant les ensembles de valeurs de X et de Y respectivement compatibles avec l'vnement Z = z.

54

2.Variables alatoires

Par intgration, on en ddui t :


P(Z

<

7,)

K(z)

JfJ

r J(x) G(z x

x)dx

g(y) F(z - y)dy

DI'

Gomtriquement, K(z) reprsente la mesure du domaine hachur (fig. 2.26).

FIGURE

2.26

2.5.3
2.5.3.1

Applications
Somme de lois 'Y
1
(1')

Soit X de loi "Ir J(x) = f pendante.

exp( -x) X,-I et Y de loi 'Ys g(y)

exp(-v) r(s) -

1 ind-

k(z) =

' l
-

() fer)

exp( -x) X,-I

1 exp( -(z - x (z r(s)


-

= n,)ns)
Posons x

l'

-,'-1 (z - xy-Ids

= Iz, il vient:
k(z)
exp(-z)i
f(r)r(s)
0
l

r'-

(z - tzY- 1 dt
Ir-I

d'o:

k(z) =

exp( -z)zr+,f-11 l
f(r)r(s)
0

(1

t)s-l dt

k(z)

exp( -

z)

1C

2_Variables alatoires

55

'7') k(- tant une densit, la constante c vaut ncessairement f

Cr +

s)

puisqu'on reconnat

l'expression de la densit d'une loi -y, On en dduit une preuve (probabiliste) de la fonnule :

I
Il

t r- 1 (l - t),\ - 1 dt
-ys

f(r)f(s-)

f(r

'

s}
J'

Donc si X est une -y r et Y une

indpendante, X

+ Y est une -y r +

2.5.3.2

Somme de lo;s uniformes sur [0, 1]

Soient X et }' deux variables continues uniformes sur [0, 1], La loi de leur somme s'obtient par l'argument gomtrique suivant: le couple (X, Y) est unifonnment rparti sur le carr unit et l'vnement Z < z correspond la zone hachure dont il suffit alors de trouver la surface. K et k ont deux dterminations mais sont continues (fig. 2.27).

1 Y

o
z<1 K(z)

1X

o
z> 1
K(z} = 1 _ (2
2
Z}2

1X

P(Z < z) K(z) = z

=2

Z2

Iz) =2 FIGURE

2.27

2.6 2.6.1
2.6.1.1

FONCTIONS CARACTRISTIQUES Dfinitions et principales proprits


Dfinition

La fonction caractristique d'une variable alatoire relle X est la transforme de Fourier de sa loi de probabilit. EIle est note 'Px et on a :
'Px(t)

= E [exp(itX)] = LexP(itx) dPx(x)

Cette fonction existe toujours car Px est une mesure borne et ]exp(itX)[ = L. Il s'ensuit que la fonction caractristique est continue.

56

Lorsque X possde une densit:


<.px(t) =

JB

(eXP(itx)f(X) dx

2.6.1.2

Fonction caractristique d'une forme linaire


'-P ;L\' (1)

= '-Px (I..t)
111

....

<.pX+a(t) = expUta )<.px(t)

et on en dduit, si X est une variable d'esprance

et d'cart-type cr, en

I!U~ilnr

U = (X - ln)/cr :
'-PX-Ill (t) = <.pu(t)
(r

itm) cr = exp (-cr <.px(t)

<.px(t)

exp(itm) <.pu(crt)

2.6.1.3

Convolution
L

La fonction caractristique se prte bien aux additions de variab1es alatoires ~md-llL'peIl-,j~ dantes : la fonction caractristique d'une somme de variables indpendantes est gale au produit de leurs fonctions caractristiques: .)

En effet:
<.pXI+X/!) =

E [exp(it (XI

+ X2]

E [exp(itX 1) exp(itX2)]

si XI et X 2 sont indpendantes, il en est de mme pour exp(itX\) et exp(itX2) et l'esprance du produit est alors gal au produit des esprances. Notons au passage qu'il ne s'agit donc pas d'une condition ncessaire et suffisante d'indpendance.

2.6.1.4

Cas dJune distribution symtrique

Supposons la loi de X symtrique par rapport l'origine. Alors la fonction caractristique de X est relle :
<.pX( -t)

exp( - itx) dPx(x)

Po

J~

( exp(itx) dP x ( -x)

La premire intgrale vaut '-Px(t) et la deuxime est gale <.px(t) cause de la symtrie car dPx(x) :.:::; dPx( - x).

2.6.1.5

Drives IJorigine et moments non centrs

Notons tout d'abord que 'l'x (0) = 1 car 'l'x(O) = totale gale 1.

dPx (x) Px est une mesure de masse

::::::;"'\./.. r'I:1n1iES

alatores

57

Si les drives existent jusqu' l'ordre k, on a:


1

q>:~)(O)

= jkE(X k )

effet,

'P~)(t) = ((ixi exp(lx) dPx(x) par drivation sous le signe somme. En particulier:
Jr~
q>,~(O) = iE(X)

q>_~(O) = - E(X 1 )

Si CPx(t) est indfiniment drivable, la formule de ivIac-Laurin donne:


'Px(t)

2.: 1
I:=(]

Je

ikE(X k )

Unicit et inversion de la fonction caractristique


D'aprs les proprits des transformes de Fourier, deux variables ayant mme fonction caractristique ont mme loi de probabilit: la fonction caractristique dtermine donc de manire unique une distribution de probabilit d'o son nom. Les formules d'inversion de la transforme de Fourier permettent d'obtenir la loi de X connaissant CPxU).
THORME

Si

Jn1

(1 'Px(t)1

dl

<

::::0

alors X admet Ime densit f(x) continue et :

J(x)

= ~ (. q>xU) exp( -ilx) dt 21TJ~

Sinon, on a toujours le rsultat suivant (admis) :


F(b) - F(ll)

T--:::;

hm 27i

J+T'Px(t) exp(-ita) -.
-T If

exp(-itb)

dt

Une fonction quelconque n'est pas ncessairement une fonction de rpartition; de pour qu'une fonction <p(t) saiL une fonction caractristique elle doit vrifier certaines proprits. Le thorme suivant, que nous ne dmontrerons pas, identifie 1es fonctions caractristiques aux fonctions de type positif >:>.
THORME (BOCHNER)
POli r qll 'wle fOllction continue 'P soil tille fOllction caractristique, il fmtt et il suftt que pour toute famille finie t). 12, , tl! de rels et pOlir toute famille finie de complexes Z il Z:h .. '\ ZI! on ait:

2: 2: 'P(ti i=lj==1

Il

Il

t)zizj

58

2.Variables

""",:>rr\l",'~_

2.6.2
2.6.2.1

Fonctions caractristiques des lois usuelles


Lois discrtes

Lo de Bernoulli: lPx(t) = P exp(it)

+ q avec q
Il

l - p. variables de Bernoulli
md,pi:ndlanlte8.;':~

e Loi binomiale: Comme X est une somme de on trouve:

<PxU) = (p exp(it)

+ q)11

Loi de Poisson :
lPx(t) = exp(. (exp(it) - l))

En effet:

E[expUtX)]

= .~Jexp(itx) exp(-.) x! = exp(-.).~


::L

.x

""

(. eXPUt y ) x!

= exp( -.) exp (. exp(it))

2.6.2.2

Lois continues
sin at

.. Loi uniforme sur [-a, a] :

<Px (t)
En effet: E[expUt X)]

= ---;;;_1_. [exp(iat) - exp( -;at)]

~f:!::fexP(itx) dt = 2a
+ i sin at.

2mt

cl' o le rsultat avec exp(iat) = cos at

e Lois gamma: Si X suit une loi 'YI' c'est--dire une loi exponentielle de paramtre 1, on a:

1
1 - it

En effet:

lP yl (1)
/1

= (::::exp (itx) exp( -x) dt = (:0exp( -(1

Jo

Jo

- it)x) dx

D'o, pour tout

entier:

car une "YII est une somme de

Il

"YI indpendantes.
1
(l -

Pour r quelconque, cette formule se gnralise et cp" (1) =


Ir

;tY

Remarquons que le calcul formel suivant conduit au rsultat:

""exp(itx) - 1 exp( -x) x rel') 1o

dx = -

fer)

1:>0exp(-(1
0

it) x) x r - I dx

21l1i1Variabies alatoires

59

en posant (1

iOx

= li :
0

fer) == -l-1:>:exp(-u)u r - t - - - d u = - - - - fer)


(l

itY

f(r)(l

iI)r

(1

ity

Il convient cependant de justifier ce rsultat car il s'agit d'une intgrale dans le champ complexe. Nous le laisserons au soin du lecteur.
Loi de Laplace~Gauss : Si U est la loi LG(Q ~ 1) :

l'Pit) = exp( -t /2) 1


2

On peut obtenir ce rsultat directement car on sait que E( Uk )

Q si

k est impair et

E(U

2k )

(2k)! == 2k kl'
la formule de Mac-Laurin :
k

"D~aprs

1)

2k! 2kk!

Remarquons qu'ici aussi un calcul formel (qui devrait tre justifi par une intgration dans le plan complexe) donne le mme rsultat:

+X

-x~

exp( -x 2/2) exp(itx) d~ = -

f+::<:exp ( -;; [x 1
-x _

- itf t 2/2 dt

= exp( -[2/2)

'I-::t;

-:x:

exp

(1 [x - )2dt -'2
it]

et l'intgrale vaut 1 car c'est l'intgrale de la densit d'une variable de Gauss imaginaire (1) de moyenne it et de variance 1. Si X est une LG(m ; 0") :

on en dduit que la somme de deux variables de Gauss indpendantes est encore une variable de Gauss:

donc XI

+ X2 suit une LG(m 1 +

Ill']. ;

).

60

2 _ Variables

alei'l.toilres;i,~

2.6.3

fonctions gnratrices

Il en existe deux fonnes assez voisines; en es servent essentiellement calculer les mc)m(~nt~~,;~ de variables alatoires et de sommes de variables indpendantes car la fonction gnratrice produit de variables indpendantes est gale au produit de leurs fonctions gnratrices. Pour des variables valeurs entires positives, on utilisera la forme suivante:
gx(t)

= E(tx) =

2: tllP(X =
112:0

Il)

Par drivations successives en zro, on trouve facilement que g~)(O) = Il! P(X qui prouve que la fonction gnratrice dtermine la loi de probabilit de X. Sous rserve d'existence, les drives successives en l sont gales aux moments factoriels:
g,\-(l) = E(X)
g~~(1,) = E(X(X g~)(l) = E(X(X -

1
1)(X - 2) ... (X Il

1))

Pour des variables quelconques, on appelle fonction gnratrice des moments:


Nlx(t) = E(e 'x )

qui est donc la transforme de Laplace de -X. Sous rserve d'existence, on a:


E(XII) = A;f~')(O)

Les fonctions gnratrices sont lies la fonction caractristique par :


gx(t)

= <Px( - j In(t)

Mx(t) = lPx( -it)

2.7

CONVERGENCES DES SUITES DE VARIABLES ALATOI RES Les diffrents types de convergence

2.7.1

Une suite (XII) de variables alatoires tant une suite de fonctions de dans III il existe diverses faons de dfinir la convergence de (X,J dont certaines jouent un grand rle en calcul des probabilits.

2.7.1.1

La convergence en probabilit

DFINITION

La suite (XII) cOllverge en probabilit vers la constante a si, 'dE et 11 (arbitrairement petits), il existe /lo tel que Il > 110 entrane:
p(IX'1 -

al > E) < 11

2 ..Variables alatoires

61

On note alors (XII)

a.

On dfinit alors la convergence en probabilit vers une variable alatoire X comme la convergence vers 0 de la suite XII - X. Lorsque E(X/I) ~ a, il suffit de montrer que V(Xn) ~ 0 pour tablir la convergence en probabilit de X'l vers a. En effet, d'aprs l'ingalit de Bienaym-Tchebycheff:
P( 1XII - E(X,I) 1 > E)

<

V(Xn)
-'l-

E-

On en dduit donc sans difficulL que XII - E(X,J

0, ce qui tablit le rsultat.

2.7.1.2

La convergence presque sre ou convergence forte

Dfinissons d'abord l'galit presque sre de deux variables alatoires:


'''' DFINITION

X et Y sont gales presque sremellt si P ({ w IX(w)

* Y(w)})

= O.

C'est l'galit presque partout des fonctions mesurables. On dfinit donc ainsi des classes

de variables alatoires presque srement gales.


La convergence presque sre se dfinit alors par :
DFINITION

l
l

La suite

(XII) converge presque srement


P( {w IlimXn(w)
II-X

vers X si :

* X(w)})

et on noIe Xn

lU

X.

En d'autres tennes, l'ensemble des points de divergence est de probabilit nulle. Remarquons que la limite de (XII) n'est pas unique mais que deux limites sont presque srement gales.

Il est immdiat de montrer que la convergence presque sre implique la convergence en probabilit.

2.7.1.3

La convergence en moyenne d'ordre p

Si E[(X" DFINITION

X)"l

existe, on a :

(XII) ~ X en moyen1le d'ordre p si E

tlx

lI -

xl"J ~ O.
2.

La plus utilise est la convergence en moyenne quadratique si p

La convergence en moyenne d'ordre p implique la convergence en probabilit.

62

2.7.1.4

La convergence en loi

Bien que la plus faible, eUe est trs utilise en pratique car elle permet d'approximer fonction de rpartition de XII par celle de X.
DFINITION

La sL/te (XII) cOJz\'el___r::e ellloi l'ers la \'Clriable X defonction de rpartition F si, en de COJ1fiJ~tit de F, la suite (Fil) des fOllctions de rpartition des XII converge vers F. Ilote XII ~ X.
Un thorme d Polya tablit que si F est continue alors la convergence est uniforme.

Pour des variables discrtes, la convergence en loi vers une variable discrte s'exprime P(X II x) ~ P(X = x). C'est ainsi qu'on a tabli la convergence de la loi binomiale vers la loi de Poisson.

Une suite de variables discrtes peut cependant converger en loi vers une variable corltmlue!!~ (voir plus loin). On montre galement que, SI (XJ est une suite de variables de densits hl et X une de densit./: alors :

vaJlat)lej~~~

X=> '/;I(X) ~f(x)

La convergence en loi est intimement lie la convergence des fonctions caJractristiques!r,~ comme le prcise le rsultat fondamental suivant, que nous noncerons sans dmonstration:
THORME (lEVY-CRAMER-DUGu)

l
l

sute

Si XI! ~ X alors <Px/t(t) ~ <Px(t) uniformment dans tout intervalle fini [- 1/, Il]. Si des fonctions caractristiques <Px,,(O converge \'ers une Jonction <p dont la relle est continue l'origine, alors <p est Wle jonction caractristique et la suite cOlll'erge en loi vers ulle variable alatoire X dom <p est la fonction caractristique.

La convergence en probabilit entrane la convergence en loi et on a, pour rsumer, la rarchie suivante des convergences:
Moyenne d'ordre p
1 ----....

,....-----...,

-vllpq
LG(Q; 1) en

2.7.2

Convergence en loi de la binomiale vers la loi de Laplace-Gauss (thorme de De Moivre-Laplace)


. bl es b1I10IJlla1 . . es
np P , a1 Xll_r;;;;;; ors
)

THORME

' . 1 XIl etant une smle (e notant q

l'lIna

:'lJ

rflj (

Il ~

1 - p.

2 I11III Variables alatoires

63

I11III

Dmonstration: La fonction caractristique de XII vaut (p exp(il)

1 - p)1I donc celle

de

X - np

{,u;;; npq

vaut:

'PU)

il) = ( P exp ( _r- + 'Jllpq

iln 1 - P exp -_r- ) 'Inpq


itnp 1)) - _r '1 npq

)'1 (

ln 'P

il) = Il ln ( p ( exp ( _r - 'J Ilpq

Dveloppons au deuxime ordre l'exponentielle; il vient:

In'P =

1I1n(1 + p(_/!- _ ~))


'Illpq 2npq

_ itnp -1 npq

puis le logarithme:
ln 'P =
11

pit [- -1 npq
t"!.

--

pt?

2npq
pt 2

+ -- ---

p2 t?] 2npq

itnp

-1 npq
t2

soit:

ln 'P = - 2q

+-

2q

=-

t"!.

2q

(p -

1)

= -2

car p = 1 - q.
'PU) ~ exp( - t? /2) qui est la fonction caractristique de la loi normale centre-rduite.
E!IIII

Application: Lorsque n est assez grand, on peut donc approximer la loi binomiale par la loi de Gauss. On donne gnralement comme condition np et nq > 5.

Il convient cependant d'effectuer ce que l'on appelle la correction de continuit: la convergence de la loi binomiale vers la loi de Gauss se traduit par le fail que les extrmits des btons du diagramme de la binomiale fJ3(n ; p) sont voisines de la courbe de densit de

la loi LG (np ; -Inpq).


On obtient donc une valeur approche de P(X

= x)

par la surface sous la courbe de 1

1 densit comprise entre les droites d'abscisse x - - et x

+_t

(fig. 2.28).

XP(X = x) = P (

~-.Jnpq

np

<

<

+ ~ - np)
-Illpq

---==---

On aura alors :

P(X ::::;

x)

= P (U <

\: + ~ -.Jnpq

17P )

----==--

64

2.Variables alatoires

~ 1~ ~: .': .

-"\
\
\
\..

FIGURE

2.28

_ Exemple:X @(40; 0.3) IIp = 12; Ilpq = 8.4. La valeur exacte pour P(X
La formule d'approximation avec une loi LG(l2 ; {8.4) donne:

= 11) est 0.1319.

P(
soit:

10.5 - 12 11.5 - 12) <U<----{8.4 -{SA

P( -0.52 < U < - 0.17)

= P(0.17 <

U < 0.52) = 0.6895 - 0.5675 = 0.122

Soit une erreur de moins de 1 'lo.


j -

Quant P(X:::; 11) qui vaut exactement 0.4406) l'approximation normale fournit P( U < 0.17) soit 0.4325. En l'absence de correction de continuit, on aurait trouv

p( U < 1~2) = P(U< -0.35) = 1


2.7.3

peU < 0.35) = 0.3632, ce qui est trs imprcis. _

Convergence de la loi de Poisson vers la loi de Gauss

THORME

Soit (X}.) une famille de variables g;() alors si ~

00,

LG(O~l).

_ Dmonstration
<Px(t)

= exp(.)(exp(it -

1))

d'o:

.... _.V~rl;H)le~

alatoires

65

exp ( . 1\
-\JI\.

it )

+- - ~

il

2~

il vient:

'Px~(t) = exp ~ + it~ 'i

t2 "2 - ~ -

it {i;. = exp

(t l) -"2

La figure 2.29 illustre l'approximation de la loi de Poisson @l(~) par la loi de Gauss de mme esprance et de mme cart-type ~. L'approximation est trs satisfaisante pour ~ > 18. On trouvera en annexe d'autres fonnules d'approximation plus prcises. On a, ici encore, intrt effectuer la correction de continuit.

.300]
.

= 2.0

300]
.200

.300
.

= 3.0 .200

= 4.0

.200

.100

.100

.100

0.000 .L...J-....l...-J......I.--L..+-"..........5.0 0.0 .200

0.000 .L.\--1-J......I.--L..4--l--1....:::s....---+0.0 10.0 5.0 . 200


.

0.000 0.0 5.0 10.0

= 6.0 .100

.100

0.000.L....f:.-1-.1-....L--L..-.j---.J--'---1-.J.4-L--'='--+---0.0 5.0 10.0 15.0

0.000

0.0

5.0

10.0

15.0

o::::,~,
0.0 5.0 10.0 15.0
FIGURE

100

20.0

2.29

2.7.4

le thorme central .. limite

L'tude de sommes de variables indpendantes et de mme loi joue un rle capital en statistique. Le thorme suivant connu sous le nom de thorme central-limite (il vaudrait mieux dire thorme de la limite centre) tablit la convergence vers la loi de Gauss sous des hypothses peu contraignantes.

66
THORME

2.Variables alatoires

Soit (XII) une suite de variables alatoires indpendantes de mme loi d'esprance I-L et d'cart-type (J". Alors:
_

-.r;;

(Xl

+ X, + ... + X - 1111) r
Il

U'

LG(O ; 1).

(J"

_ Dmonstration

Soit 'Px(t) la fonction caractristique de X ; la fonction caractristique de

2: --='-- est

Il

donc

['PX-IL (t)] Il , Or X
rr-..J

~: est une variable d'esprance nulle et de variance l/n_


VI1

(J"

Le dveloppement en srie de la fonction caractristique de X (1

commence par

les termes suivants sont des nfiniments petits d'ordre l/n 2,

Donc, en levant la puissance n, la fonction caractristique de

2: --='--

11

est

quivalente (1 -

~:,)" et tend si n ---> '" vers exp ( - ~) selon un rsultat classique.

On remarque que, si les variables X j sont des variables de Bernoulli, on retrouve comme cas particulier la convergence de la loi binomiale vers la loi de Gauss. On peut dmontrer un thorme encore plus gnral d Lindeberg :
THORME

Soient XI' X]. ' .. , XII des varables alatoires indpendantes pliS forcment de Inll1e loi et d'esprance mi et de variance (J"T. Soit S~ rpartition de (Xi lIli)'

et F(x) la fOl1ction de

Si la conditioll sUvante est ralise:

/1_";

1 Hm [ ,.
Il

S~ i=1 Ixl> eS"

2:
11

x 1 dFi(x)

]
1)

2:(X i

lIli)

alors:

i=1

.!4 U E LG(O;
SIl

2_Variables alatoires

67

La condition de Lindeberg exprime que les variables --,-_ _1 sont uniformment


Sil

- m

petites}) avec une grande probabilit. Le rsultat veut dire qu' force d'ajouter de telles variables, on finit par obtenir une loi de Gauss. Ce phnomne est souvent exprim de la manire suivante: si une variable est la rsultante d'un grand nombre de causes, petites, effet additif, cette variable suit une loi de Gauss. On peut y voir la justification de l'emploi abondant et sou vent abusif de la loi de Laplace-Gauss comme modle. Pour tenniner, notons que l'existence des moments E(X) et V(X) est indispensable. La loi 1 de Cauchy de densit sur IR. n'a aucun moment et fournit un contre-exemple classique: on montre que
'Ti(1 + Xl + X..,

+ ... + X
Il

a mme loi que X quel que soit

11.

Il

COIJples de variables alatoires, conditionnement

L'tude de la loi de probabilit d'une variable alatoire Y connaissant la valeur prise par une autre variable alatoire X est fondamentale pour les problmes d'approximation et de prvision. Il faul pour cela connatre en premier lieu la distribution de probabilit du couple eX, Y) qui est une application de (n, P) dans IR:! muni de sa tribu borlienne si il s'agit d'un couple de variables alatoires relles, lIn'est cependanL pas ncessaire que X el Y soient valeurs dans IR.

3.1

TUDE D'UN COUPLE DE VARIABLES DISCRTES

On tudiera ici la distribution d'un couple de variables alatoires valeurs dans des ensembles finis ou dnombmbles ; par exemple la distribution simultane de la somme et du produit des points amens par deux ds,

3.1.1

lois associes un couple (X, Y)


Xi

Supposons que X et Y prennent des valeurs

et )j en nombre fini ou dnombrable.


Y1
X1

3.1.1.1

Loi jointe

Yj

Yq

La loi du couple (X, Y) Px!' est alors entirement dfinie par l'ensemble des nombres :
Px}' (x i ; Jj) = P(X = Xi

y = Yi)

Xi

Pi.

dans le cas fini cette loi de probabilit conjointe peut se mettre sous la forme d'une table. On note Pu
P(X = Xi

ny

Xp

)'j) et bien sr ~~Pij = 1.


i
j

P.j

3.1.1.2

Lois marginales

On appelle lois marginales les lois de probabilit de X et de Ypris sparment. On a d'aprs le thorme des probabilits totales :
fi

Loi marginale de X Loi marginale de Y

P(X =

Xi)

= 2:Pij = Pi.
j= 1

pey =

v) .1

= ""p .. = p " L.J


1] .]

i=1

70
3.1.1.3

3aCoupies de variables alatoires, conditionnement

Lois conditionnelles

Les vnements {X = Xi} et {Y = Yj} tunt de probabilits non nulles on dfinit alors deux familles de lois conditionnelles selon que l'on connat la valeur ) de X ou de Y. Rappelons qu'ici X et Y ne sont pas forcment des variables alatoires relles mais peuvent tre des variables qualitatives. D'aprs le chapitre 1 on a :

Lois conditionnelles de X si Y = Yj :
P(X

= xj Y=

.'j)

Pa
P.j

Lois conditionnelles de Y si X

= x, :
Pi. =

pey
-

x.) =
1

P(X =

Xi

y = y}.)

P(X = x)

Le thorme des probabilits totales (deuxime forme) permet d'crire:


If

P(X =

Xi

n y = y)

22p(x
j= 1

xjY

}j)P(Y

Jj)

l'

= 22p(y = Y/X = xJP(X =


i""l

Xi)

Remarques:
Pour deux vnements BI et 8 2 relatifs Y et X on a :

22 pey E B~jX
XEE 1

x)P(X

x)

formule qui servira pour tendre la notion de probabilit conditionnelle lorsque X = x est de mesure nulle . Il arrive frquemment dans les applications que r on utilise la dmarche inverse : on connat la loi conditionnelle de Y X fix et celle de X et on en dduit alors la loi du couple. Les formules de Bayes permettent d'exprimer une loi conditionnelle en fonction de l'autre:
P(X = x;/Y
-}

v ) =

pey = .J} "IX =


Il

-1" 1

)P(X = t'.) r
Xi)

22p(y = y/X
i""l

= xJP(X =

et :

pey = y/X

= Xi)

if

22P(X
j=1

x;/Y = )j)P(Y = )j)

3 .. Cou ples de variables alatoires. conditionnement

71

L'indpendance entre X et Ys' crit :


Pij

= Pi. P.}

'Vi et j

ce qui revient dire que les q lois conditionnelles de X Y tix (en faisant varier Y) sont identiques; il en est de mme pour les p lois conditionnelles de Y X fix.

3.1.2

Covariance et corrlation linaire

La covariance a t introduite au chapitre 2 pour des variables numriques.


cov(X; Y) = E((X E(X))(Y - E(Y))

= E(XY)

- E(X)E(Y)

On a:

cov(X; X) = V(X)

et

cov(Y; Y)

Vey)

On montrera plus loin que: (cov(X; Y)? ::s V(X)V(Y) ce qui permet de dfinir le coefficient de corrlation linaire p, qui est donc toujours compris entre -1 et + 1 :
p=

cov(X; Y)

Pour deux variables indpendantes p = O. Cependant, la rciproque est en gnral inexacte et un coefficient de corrlation linaire nul n' entraine pas que les variables sont indpendantes. Deux exceptions notables o non~corrlation et indpendance sont quivalents : les couples (X; Y) gaussiens (voir chapitre 4), et les couples de variables de Bernoulli (facile montrer). Les valeurs limites entre Yet X.

l et

+ 1 sont atteintes si et seulement si il existe une relation linaire

3.1.3

Moments conditionnels

Supposons Y relle mais pas ncessairement X qui peut tre une variable qualitative. On peut alors dfinir, sous rserve de l'existence de ces expressions pour le cas dnombrable, l'esprance et la variance de Y X fix.

3.1.3.1

L'esprance conditionnelle

DFINITION

On appelle esprance de Y sachant que X dfinie par .'

x et

011

Ilote E(Y/ X = x) la quantit

E(Y/X

x)

2:yP(Y
y

= y/X = x)

72

3Couples de variables alatoires, conditionnement

C'est donc l'esprance de Y prise par rapport sa loi conditionnelle. On note que E(YIX
x) est une fonction de x: E(YIX

= x)

= <p(x).

Cette fonction cp s'appelle fonction de rgression( 1) de Y en X. Son graphe est le lieu des moyennes conditionnelles de Y sachant X. On voit donc que E(Y IX = x) dpend des valeurs prises par X. On peut alors dfinr la variable alatoire esprance conditionnelle, qui prend pour valeurs E( YI X = x) avec les probabilits P(X = x) :
DFINITION

l
l

On appelle variable alatore esprance conditionnelle de Y sachant X et E(Y IX) la variable dfinie par:
E(YIX) = q:>(X)

011 IlOte

Cette variable prsente un certain nombre de proprits remarquables. Tout d'abord la linarit comme consquence de sa dfinition en tant qu'esprance:

mais surtout on a en prenanll'esprance de cette variable le :


THORME DE L'ESPRANCE TOTALE
1

E[E(YIX)]

= E(Y)

_ Dmonstration
E[E(Y/X)] =

~E(Y/X = x)P(X = x) = ~(~l'P(Y = y/X = X) P(X = xl


ylX = x)P(X

= 2:y2:P(Y =
)" x

= x)

2:yPCY

y)

= E(Y)

Ce thorme est un outil trs puissant pour calculer l'esprance mathmatique d'une loi complique mais dont les lois conditionnelles sont simples: on voit mme que l'on n'a pas besoin de connatre explicitement la loi de Y (voir plus loin). Si lll(X) est une autre variable fonction de X on a E[Ylll(X)IXl = lIJ(X)E[Y IX] ; la dmonstration sans difficult est omise. Concrtement cette formule signifie qu' X tix \jJ(X) esl une constante et sort donc de l' e~prance.

1_Ce terme de rgresson pt"Ovient des travaux, du statisticien Galton qui tudj;:t la taIlle des enfants Y en fonc:tion de la taille de leur pre X, Il avait constat exprimentalement que la taille moyenne des fils dont le pre avait une taille x suprieure la moyenne E(X) tait elle-mme suprieure ci E(Y) mais dans une moindre mesure --'-----'-----'--'- tait infrieur- il 1 ; il y avait donc rgression au sens ordinaire du mot.

3.Couples de variables alatoires. conditionnement

73

3.1.3.2

La variance conditionnelle

DFINITION

On appelle l'arallce de Y sacha1lt que X

=x

et on note V( Y/X

= x) la quantit:

Vey/X

= x) = E[(Y

E(Y/X

= x)f/X = x]

Il s'agit donc de l'esprance conditionne11e du carr de l'cart l'esprance conditionnelle.

Comme pour l'esprance, et puisque VeY/X alatoire variance conditionnelle:


Vey/X)

= x)

= l!J(X), on dfinit ensuite la variable

= tIJ(X) = E[(Y

E(Y/X))2/X]

On a alors le rsultat fondamental suivant:


THORME DE LA VARIANCE TOTALE

E[V( Y/X)] + V[E( y / X)J

en donnant l'esprance sa signification usuelle de moyenne on voit que la variance de Yest la somme de deux lermes : la moyenne des diverses variances conditionnelles et la variance des diverses moyennes conditionnelles.

_ Dmonstration
V(Y) = E[(Y E(Y)f] EI(Y - E(Y/X)

+ E(Y/X)

- E(y))2]

dveloppons le carr en groupant Y - E( Y/X) et E( Y/X) - E( Y) il vient: Vey) = E[(Y - E(y/xft

2E[(Y E(Y/X))(E(Y/X) - E(r)] + E[(E(Y/X) - E(y2]

Le dernier terme est gal V[E(YlX)] par dtnition de la variance puisque E(Y) est l'esprance de E(YIX). Le premier terme n'est autre que E[V(Y/ X)J : en effet en appliquant le thorme de l'esprance totale: Er(Y - E(Y/X2] = - E(Y/X2/Xll et on reconnat l'expression de Vey/X). Notons que Vey/X) n'est pas gale (Y - E(Y/X))2 ce sont simplement deux variables ayant mme esprance. On vrifie que le double produit est nul en conditionnant nouveau: l'esprance conditionnelle tl X fix de (Y - E(Y/X)(E(Y/X) - E(Y)) vaut alors:
[E(Y/X) - E(Y)][E(Y E(Y/X))/X]

puisque E(YlX) E(Y) est une constante X fix (voir la dernire proprit de l'esprance conditionnelle nonce au sous-pamgraphe prcdenl). Quant :
E[(Y - E(Y/X)/X.I

ce terme est nul, il suftt de dvelopper. L'esprance conditionnelle du double produit est nul, il en est de mme de son esprance. (on trouvera plus loin une dmonstration gomtrique plus rapide et plus lgante) ..

74

3aCoupies de variables alatoires, conditionnement

3.1.3.3

Exemple d'utilisat;on de l'esprance et de la variance conditionnelle

Un examen se droule sous forme d'un questionnaire choix multiple (QCM) o on pose 20 questions; chaque queston comporte quatre rponses possibles, dont une et une seule est la bonne; une rponse juste compte 1 point, sinon zro. On suppose que le programme de l'examen comporte 100 questions dont on tirera alatoirement les 20 de l'examen. Si l'on considre un candidat ayant appris une proportion p du programme, on tudie la distribution de sa note N.

Solution : Parmi les 20 questions, un certan nombre X va figurer dans la partie des 100 p questions rvises et fournir automatiquement X points. Les 20 questions tant tires sans remise parmi les 100, la loi de X est une hypergomtrique d't(lOO ; 20; p).

Un certain nombre de rponses pourront tre devines par le jeu du hasard parmi les 20 - X questions non rvises, soit Y ce nombre. A chaque question non rvise est associe une variable de Bernoulli de paramtre 1/4. Si X = x est fix, la loi de Yest alors une loi binomiale @(20 - x; 1/4). On a donc N = X + Y avec Y/X @(20 - X; 1/4). X et Y ne sont pas indpendantes puisque la distribution conditionnel1e de Y/X = x dpend de x. Le calcul de la distribution de N conduit en tout tat de cause une expression difficilement manipulable :
X=/I

peN = n)

=
-

2: P(X
lOG!,

x)P(Y =

11 -

x/X = x)

.t''''0
-"
x=/!

ex c 20-x
e:w
IOn

H)[)(I-l') Cl/-.~

x='o

..t.J

(1)"-X(3)20-11 _ _
4 4

:!o-x

On peut cependant trouver aisment E(N) et VeN) :


Calcul de E(N) :

E(N) :::: E(X) E(X)

+ E(Y)

= E(X)

+ E[E(Y/X)]

= 20p (loi hypergomtrique)


l X X)4=5-

E(Y/X)=(20 E[E(Y/X)] = 5 -

E~)
+

= 5 - 5p

soit :

E(N) = 15p

3.Couples de variables alacolres. conditionnement

75

Calcul de V(N) :

l'eN) = E[V(NjX)1 + V[E(NjX)] VeN j X

= x) = l'Lx + Yj X
16

= x]

VI'YjX

= x]

1 3 (20 - x) 4 ':4

VeNjX) = (20 -

X)~E[V(NjX)]
x

= 20(1 _ p) 3 = I5(] - p)

16
x) = 5

E[NjX = x] E[NjX]

+ 4 (20

3r
~

5
9

+4

3X

V[E(NjX)]
100
p) 100

= 16 l'(X)
20 1
p)

= 16 20])(1

V[E(NjX)] = IOOp(l 11 VeN)

15(1 - p) 4

100p( 1 Il

p)

= (1

p) [- + -

15
4

100P]
Il

La figure 3.1 donne les varations de E(N) et de VeN) en fonction de p. Un taux de rvision de 0.6 0.7 devrait donc assurer la russite l'examen avec une forte probabilit.

20~------------~
1 1
1

15

10
,

,,
.

1 1 1 1 l ' 1 1 1 1 1

,.
1
#

1 ;

" l'

l'

""
#

.i

0; ,
l' i:'\'

0'
,.

,.

'<.1

I~,' ,. 1

,
1

/~t/ '<.1.'
,.'

, 1 , i:'\ '
1

/0;)0/

OI....-...l--L..--'---L-..L.......1--L..-L-..J....to..I

o 0.1 0.2

0.5 3.1

FIGURE

76

3aCoupies de variables alatoires, conditionnement

3.1.4

Extension au conditionnement d'une variable continue Y par une variable discrte X

Ce cas ne prsente pas de difficult. On dfinira d'abord la fonction de rpartition conditionnelle:

pey < v/X


.

= x)

P(Y<

nx=x) . = GCv!x) P(X = x)

puis si elle existe la densit conditionnelle g(y/x) qui sera la drive de G en y. La densit marginale de Y s'obtient par:
g(y) = L9(y/x)P(X

= x)

Si E( Y) existe, on prou ve aisment que E( Y/X = x) existe galement et vaut:

E(YjX

= xl = Lyg(yjX)dY

Les formules de l'esprance totale et de la variance totale sont galement valables. La formule de Bayes donne:
P(X = x/Y

<

G(v/x)P(X v) = ' .
G()')

= x)

mais l'criture formelle:


P(X

= x/ Y =

g(v/x)peX = x) ),) = - - - - - - g(y)

ne peut tre pour l'instant justifie car pey = y) =

o.

3.1.5

Somme d'un nombre alatoire de variables iid

Le problme suivant est courant en assurance: au cours d'une priode de temps donne le nombre de sinistres survenus est une variable alatoire N. Chaque sinistre a un cot alatoire reprsent par une variable X. Le montant total des sinistres est alors:

Si les Xi sont indpendantes et de mme loi, les thormes de l'esprance et de la variance totale, en conditionnant par N, permettent de montrer facilement que:
E(S) = E(N)E(X) V(S) = E(N)V(X)

V(N)(E(X)Y:-

3aCoupies de variables alatoires, conditionnement

77

3.2 3.2.1

EXTENSION DES VARIABLES QUELCONQUES


Lois conjointes et lois marginales d'un couple de variables alatoires relles

Si (X, Y) est il valeurs dans [H2 rappelons que la fonction de rpartition du couple H(x, y) se dfinit par:
H(x, y)

P(X

<

<

y)

Les fonctions de rpartition marginales s'en dduisent immdiatement par :


F(x) = H(x; ':xJ) = P(X G(y)

H(oo ; y)

< = pey <

x) y)

Si le couple (X, Y) admet une densit h(x, y) on a :


Iz(x v)

'.,

a2H = -axa)'

les densits marginales s'obtiennent par:


f(x)

=
=

J~~

Iz(x. y) dy

g(x)

Jr.!

f lz(x, y) d\:
\Ix ; y \Ix; y

Rappelons que si et seulement si les variables X et Y sont indpendantes on a :


H(x, y)

F(x)G(y)

h(x, y) = f(x)g(y)

3.2.2

Conditionnement

Le problme essentiel est de donner un sens aux expressions du type pey E RIX = x) et E(Ylx = x) lorsque X = x est un vnement de probabilit nulle ce qui est toujours le cas lorsque X est une variable admettant une densit.

3.2.2.1

Prsentation nave

Lorsque X est une variable continue on peut songer dfinir la fonction de rpartition conditionnelle de Y sachant que X = x comme la limite pour E tendant vers 0 de :

POl < y
P(x

(x < X < < X< x +

+ E))

H(x

E)

F(x

+ E ; y) + E)

- H(x; y)

- F(x)

78

3aCoupies de variables alatoires, conditionnement

Lorsque X possde une densit f(x) on voit que la limite de cette expression est
iJH(x ; y) . x) et que S1 (X , 11") Il une d ' 'J l (x, iJx ensIte

jl'( ,

. y) I d " con d'lttonneIle d e Y' v = Il ens1te a,,\.

tix vaut alors:

= g(y/x)
On conot cependant aisment qu'une telle approche est peu rigoureuse et ne recouvre en plus qu'une partie du problme: dans certaines applications il faut pouvoir conditonner par rapport une variable quelconque pas ncessairement valeur dans IR! ni dans un ensemble fini. Pour dfinir une esprance conditionnelle il faut seulement que Y soit relle et que E(Y) existe,

3.2.2.2

Aperus thoriques

Vu sa complexit nous ne donnerons que les rsultats les plus importants sans rentrer dans les dtails des dmonstrations qui figurent dans les ouvrages de Thorie des probabilits (Neveu (1964) ou Mtivier (1972) par exemple).

Premire prsentation
X tant une variable alatoire quelconque de (n, P) dans un ensemble mesurable (E, ~) on dfinira la probabilit conditionnelle d'un vnement A par rapport X grce au thorme suivant:
THORME

Soit A
(E,

E ce, alors VBErg il existe une classe d'quivalence unique de fOllctions de dans [0; 1] note P(A /X = x) telle qlle ;

P(A

{X E Bl)

Ju

rP(A/X = x) dPx(x)

La fonction P(A/X = x) n'est pas unique car une modification de cene-cl sur un ensemble de probabilit Px nulle ne change pas le rsultat de l'intgrale. Peut-on choisir un reprsentant de cette classe pour tout A qui dfinisse une loi de probabilit conditionnelle sur il? Ce n'est pas sr si X est quelconque et P(./X = x) n'est pas ncessairement une mesure de probabilit: ici se trouve la difficult majeure de la thorie. Si un tel choix est possible on dit que c'est une (< version rgulire de ]a probabilit conditionnelle par rapport X, note P(./X = x). On peut alors dfinir l'esprance conditionnelle d'une variable Y intgrable par:

E(Y/X

= x) =

Y(w) dP(w/X = x)

3.Couples de variables alatoires. conditionnement

79

Deuxime prsentation
Les ouvrages rcents de thorie des probabilits prfrent partir de la dfinition de ]' esprance conditionnelle grce au thorme suivant qui tend la formule de l'esprance totale en intgrant sur un vnement quelconque de E au lieu d'intgrer sur E tout entier.
THORME

Soit Y Hne variable alatoire relle de (0, (g, P) dans (IR, @) telle que E( Y) soit jini, et X U1le variable quelconque de (.0, (g, P) dans (E. de loi de probabilit Px.
Il existe alors une classe d'quivalence unique de fonctions Px intgrables de (E, '0) dans (IR, @) note E(Y/X = x) telle que:
'VB E iR

(
JX- 1(8)

Y(w) dP(w)

= lE(Y/X = x) dPx(x)
/1

Ceci dfinit alors de manire (presque srement) unique la variable alatoire esprance conditionnelle E(Y/X). On en dduit alors la probabilit d'un vnement A quelconque de X en prenant pour Y la variable indicatrice de A :
P(A/X)

n conditionnellement

= EClir\/X)

Comme nA est intgrable la probabilit conditionnelle de A existe toujours. Le problme de l'existence d'une version rgulire de la probabilit conditionnel1e reste cependant entier, cette existence est ncessaire pour pouvoir calculer l'esprance conditionnelle par la formule:
E(Y/X
x)

= ( Y(w) dP(w/X = x)

Jn

et pour pouvoir parler de distribution conditionnelle de Y sachant X. La distribution conditionnelle de Y sachant X = x est en effet dfinie comme la mesure image de P(./X = x) par Y pour chaque x. Il faut donc que P(./X = x) soit une mesure de probabilit sur n. La preuve directe de l'existence de distributions conditionnelles dans les cas les plus usuels est donn par le thorme de Jirina : il suffit que E soit un espace mtrique complet sparable (ou espace polonais), c'est--dire admettant un sous-ensemble partout dense, ce qui est le cas de IRI'.

3.2.2.3

Ce qu'iI faut retenir

Il ressort des rsultats prcdents [es proprits utiles suivantes: si (X, Y) est un couple de variables alatoires o Yest valeurs dans IR el X valeurs dans un ensemble tini ou dnombrable, o valeurs dans IR ou IRP : Il existe une mesure de probabilit conditionnelle P(./X Il existe une distribution conditionnelle de V/X = x.

= x) sur n.

80

3aCoupies de variables alatoires. conditionnement

Si E(Y) existe, alors il existe une variable alatoire esprance conditionnelle: E(Y/X) qui prend les valeurs E(Y/X = x) avec la loi de probabilit Px :

E(YjX = x)

= LY(",) dP(wjX = x)

D,

dP(yjX = xl

et E[E(Y/X)] = E(Y). Si Vey) existe on a Vey) = E(V(Y/X)) + V(E(X/Y)). Si le couple (X, Y) est il valeur dans 1R2 et possde une densit h(x, y) les densits conditionnelles existent et sont donnes par :

f(x/y) = - g{y)
et on a E(Y /x = x) ==

Iz(x ~ y)

lyg(y/~) dy ainsi que les formules de Bayes pour les densits:


IR

g(y/x) =

~~--'--

f(x/y)g(y)

g(y/x)f(x) f(.r/y) == - : . - - - - - -

fj'(Xjy)g(y) d),

g(yjx)f(x) dx

Lorsque l'une des variables est discrte el l'autre possde une densit il suffit de remplacer l o c'est ncessaire les intgrales par des sommes finies et les densits par des probabilits ponctuelles.

3.3

SYNTHSE GOMTRIQUE

Le cas o on n'tudie que des variables alatoires relles de moment d'ordre 2 fini est un des plus importants en pratique et est susceptible d'interprtations gomtriques trs clairantes.

3.3.1

Espace de Hilbert des classes de variables alatoires de carr intgrables

L'ensemble de toutes les variables alatoires dfinies sur un mme univers (en fait l'ensemble des classes de variables alatoires presque partout gales) forme un espace de Hilbert L 2 si l'on le munit du produit scalaire:
(X, Y) = E(XY)

et de la norme:

!!XII

= {E(X 2)1/1

L'cart-type est donc la norme des variables centres, et la covariance le produit scalaire des variables centres. Si l'on considre l'ensemble des variables alatoires constantes, on obtient une droite D de L 2. Car si X est constante, llX l'est aussi. L'esprance mathmatique de X est alors la projection orthogonale de X sur cette droite (fig. 3.2) : en effet, on sait que le minimum de EX - a)2) est atteint pour Cl = E(X), ce qui dl1nit la projection orthogonale de X sur D.

3aCoupies de variables alatoires. conditionnement

81

D
FIGURE

3.2

La formule de Konig-Huyghens :
E((X

af) = V(X)

+ (E(X)

af'

s'interprte comme le thorme de Pythagore appliqu au triangle rectangle X, E(X), a.

E(X) est. en d'autres termes, la meilleure approximation de la variable X par une constante (au sens de la norme de U).
Comme cov(X, Y) = (X - E(X) ; y Icov(X,Y)I:s; soit:
1

E(Y)

t'ingalit de Schwan: donne:

IIX-E(X)II HY-E(Y)II
1

cov(X, Y) :5 (fxar cov(X, Y)


ax a r

Le cosinus de l'angle fonn par X - E(X) et Y - E(Y) vaut donc ve le coefficient de corrlation linaire p entre X et }~
p = 1 s cov(X, Y) = axa}' donc si (X E(X) = a(Y - E(Y)).
1

. On retrou-

Dans cet espace, la non corrlation se traduit donc par l'orthogonalit

E(X)) et (Y - E(Y)) sont proportionnelles

soit: X

Le coefficient de corrlation linaire est donc gal il l s'il y a une relation linaire entre les deux variables X et Y. La nullit de ce coefticient exclut la relation linaire, mais n'exclut pas l'existence d'autres relations. Il est facile de fabriquer des contre-exemples de dpendance fonctionnelle avec un coefficient de corrlation linaire nul: ainsi. X et X"J. ou sin X et cos X lorsque la loi de X est symtrique.

3.3.2

Esprance conditionnelle et projection

Soit L~ le sous~espace de L2 constitu des variables alatoires fonctions seulement de X du type (.l(X) : Ll est convexe et contient la droite des constantes D. C'est donc un sous-espace de Hilbert ferm. Alors l'esprance conditionnelle de Y sachant X, E(Y/X), s'interprte comme la projection orthogonale de Y sur LX"

82

3aCoupies de variables alatoires. conditionnement

SOl en effet l'oprateur qui associe toute variable alatoire son esprance conditionnelle X. C'est un oprateur linaire; pour montrer que c'est un projecteur orthogonal il suffit de vrifier qu'il est idempotent et auto-adjoint:

il est idempotent: E(E(YjX)jX) = E(YjX) ; et auto-adjoint: <Z ; E(YjX) ) = < E(ZjX) ; Y).
En effet, les deux membres de cette relation sont gaux E[E(ZjX)E(YjX)]. Le thorme de l'esprance totale E(Y) = E(E(YjX) est alors un cas particulier du thorme des trois perpendiculaires, comme l'illustre la figure 3.3.

y- - - - - - - - - - - - - - -

FIGURE

3.3

E(Y jX) tant une projection orthogonale, ceci montre que le minimum de : E[(Y <p(X)f]

est atteint pour <p(X) = E( Yj X), rsultat qui sera repris lors de l'tude de la rgression. On peut dire que si E(Y) est la meilleure approximation de Y par une constante, E(YjX) est la meilleure approximation de Y par une fonction de X. Il est alors immdiat que le rsidu Y - E( Yj X) est non corrl avec X par suite de l' orthogonali t. Le thorme de la variance totale s'interprte comme Je thorme de Pythagore appliqu au triangle rectangle Y, E(Y), E( YjX) :

/lY - E(Y)W

= Vey)

= IIE(YjX) - E(Y)1I 2 = V(E(YjX = V(E(YjX))

IIY - E(YjX)11 2

= V(E(YjX
3.3.3

+ E[(Y - E(YjX)f] + E[E(Y - E(YjX))2] + E(V(Y jX

Rapport de corrlation de Y en X

Le coefficient de corrlation linaire p est une mesure symtrique de dpendance, qui est maximale dans le cas de la liaison linaire. Le thorme de la variance totale permet de dfinir une autre mesure de liaison non symtrique cette fois: le rapport de corrlation Tl}'!.\' tel que:

"i,x = - - - V(Y)

V(E(YjX))

3.Couples de variables alatoires, conditionnement

83

Ce rapport est le cosinus carr de l'angle form par Y - E(Y) et l'espace Li:. On a donc:

PROPRIT

Si lli/x

1, E(V(Y jX)

= O.

On en dduit donc que VeyjX) = 0 presque srement, car c'est une variable positive. Ce qui veut dire qu' X fix la variance de Y est nulle, donc que Y ne prend qu'une seule valeur.
ll~'/X = 1 => Y = 'P(X)

Le rapport de corrlation est maximal si Y est li fonctionnellement X.


PROPRIT

,,-,,1;;

Si lli/x = 0, \I(E(YjX))

0, E(l'jX) est donc presque srement une constante.

On dit que Yest non corrl avec X, il Y a absence de dpendance en moyenne. C'est en particulier le cas si X et Y sont indpendantes mais la rciproque est inexacte. On montre en fait que l'indpendance entre Y et X est quivalente l'orthogonalit des espaces Li: et L~, engendrs par X et Y le long de la droite des constantes (fig. 3.4) :

FIGURE

3.4

Indpendance de X et Y.

11~'IX = 0 signifie seulement que Y - E(Y) est orthogonal LI ; 11 2 est une mesure de liaison fonctionnelIe alors que p est une mesure de liaison linaire; 11YX est toujours suprieur ou gal p2 car p2 est le cosinus carr de l'angle form par y - E(Y) avec le sous-espace de dimension 2 de Li: engendr par la droite des conslan~ tes D et la variable X.

Le cas ou TJY'IX donc que:

p2 signifie donc que E(YjX) appartient ce sous-espace de dimension 2, E(YjX) =

Ci

+ I3X

c'est celui de la rgression linaire dont l'tude sera effectue en dtail au chapitre 16. Si E(Y jX) =
Ci

+ I3X, on ne peut trouver de transformation de X augmentant p.

84

3.Couples de variables alatoires, conditionnement

En effet d'une part llI-lx = sup p2(y; <.p(X)), et d'autre part la linarit de la rgression implique ll~'lx ::;::: p1(y; X). Lorsque (Y; X) est un couple gaussien on a simultanment E(YIX) =
Cl

j3X el E(X/Y)

)' + 5Y
On en dduit le thorme suivant:
THORME

Si (Y; X) est 1I1l couple gaussien, O1l11e peul pas trouver de trallsfonnations <.p(X) et ~J( Y) augmentant en l'aleur absolue le coe./Jicient de corrlation:

Les prvisions optimales (en moyenne quadratique) sont donc linaires.

Vecteurs alatoires, formes quadratiques et lois associes

Ce chapitre prsente les rsultats les plus utiles pour r tude des variables plusieurs dimensions. Certaines dmonstrations purement techniques seront omises.

GNRALITS SUR lES VECTEURS ALATO~RES RELS


Un vecteur alatore X est une application de (il, (g, P) dans un espace vectoriel rel, en gnral ~fI muni de sa tribu borlienne. En pratique 1R!" est muni de sa base canonique et on identifiera X au p-uple de variables alatoires form par ses composantes sur cette base X = (X" X'"!1 .. Xp )'
'1

4.1.1
4.1.1.1

Fonction de rpartition et densit


Fonction de rpartition

F est une application de [Rp dans lH!. dfinie par :


F(X"X2" , "~XI,)

P(X(

< x"., .,Xp <

x,,)

dont les proprits se dduisent aisment de celles vues pour les couples de vecteurs alatoires.

4.1.1.2

Densit

f si elle existe est dfinie par:

4.1.1.3

Changement de variables dans une densit

Effectuons le changement de variables dfini par:

Yi = tpj(X(, X 2 ,

X p)
'1

Les fonctions tpj tant telles que le passage de (XI. Xl' .. X,,) (YI. Y2 ... , YI') est biunivoque. Nous dsignerons en abrg par tp la transformation:

x y

tp(X)

86

4.Vecreurs alatoires, formes quadratiques et lois associes

La densit du vecteur Ys' obtient alors par la fonnule :

o det J, appel jacobien de la transformation, est tel que:

detJ =
YI ........................ il)'" ax p iJx/ iJx)
.....................
JXI

aYt

iJyP

(detJ)-1

La dmonstration de cette proprit figure dans tous les ouvrages consacrs l'intgration (changement de variable dans les intgrales multiples). Si la transformation cp est linaire de matrice A constante, Y = AX CA doit tre rgulire) on a det J = lAI. En particulier si A est une transfonnation orthogonale le jacobien vaut 1.

4.1.2

fonction caractristique
(l'l ,

Soit a un vecteur non alatoire de composantes (al'


DFINITION

a,J

On appelle fOllction caractristique dl( vecteur alatoire X la fonction de l'argument vectoriel a dfinie par:

THORME

Les composalltes Xl, X], ... , XI' de X sont indpendautes si et seulement si la fOllctiol1 caractristique de X est gale au produit des fa Il ct ions caractristiques de ses compOslllltes :

'P~Ja)

= II 'Pxi(lli)
i=1

f.'

4.Vecteurs alatoires. formes quadratiques et lois associes

87

Si les Xi sont indpendantes l'esprance d'un produit de fonctions des Xi est gale au produit des esprances donc: E[exp(ia'X)]
= E[expUa 1Xl)] E[exp(ia2X2)] ... E[exp(iapXp )]

ce qui dmontre une partie de la proposition. La rciproque plus dlicate utilise l'inversion de la fonction caractristique et est omise. Le rsultal suivant fondamental permet de dfinir des lois de probabilits p-dimensions partir des lois unidimensionnelles.
THORME DE CRAMER-WaLD

La loi de X est entirement dtermine par celles de tolites les combinasons linares de ses composClmes.
JI

Posons en effet Y

a'X

= LCliX
""l

et cherchons la fonction caractristique de Y:

!.pr(t)

= E[exp{itY)] = E[expUta'X)]

d'o 'Pr(l) = tpx(a). Si la loi de Y est connue pour tout a on connat donc la fonction caractristique de X donc la loi de X.

4.1.3

Esprance et matrice de variance-covariance

Si J.Li dsigne E(Xi ), on appelle par dtinition esprance de X certain:


!-LI !-L2
E(X)

= (XI ... , Xl')

le vecteur

J.L

La matrice de variance-covariance ~ de X est dfinie par:

(JT

cov(X I, X 2)
(J~

.......

cov(X 1, XJl)

= E[XX']
rrj;
"1

- J.L1l- 1

c'est une matrice carre symtrique d'ordre p.

88

4_Vecteurs alatoires, formes quadratiques et

IOs aSSOCle5;)

Si les variables X sont rduites, ~ s'identifie avec la matrice de corrlation:


PI:!

4.1.4

Transformations linaires

Effectuons un changement de variable linaire Y = AX o A est une matrice quelconque de constantes (pas ncessairement carre), alors:

IJ.r = AlJ.x
~r= ~xA'

ce qui se dmontre en appliquant les dfinitions. En particulier si A est une matrice uniligne, Y est alors une variable alatoire uni dimensionnelle. Si a' cette ligne Y = LaiX; et VeY)
j;;

"

= a'~a. On a donc pour tout a, a'2:a :::: 0

car une variance est non ngative. On en dduit le rsultat suivant:


THORME

Vile condtion ncessare el suffisante pOlir qu'une nwtrice 2: symtrique soit la matrice de variance d'll1l vecteur alatoire est que 2: soit LIlle matrice positive.

La rciproque s'tablit partir de la proprit classique suivante des matrices symtriques positives: Toute matrice symtrique positive :l: peut s'crire sous la forme 2: = TT' o T est dfinie une transformation orthogonale prs (si T convient, S = TV, o V est orthogonale, convient aussi; une solution particulire est fournie par T = 2: 1/2 = PA l/:!P/ o P est la matrice des vecteurs propres norms de T et A la matrice diagonale des valeurs propres). Il suftit donc de partir d'un vecteur alatoire X de matrice de variance 1, (par exemple un p-uple de variables indpendantes centres-rduites) et de faire la transformation Y = TX pour obtenir un vecteur alatoire de matrice de variance 2:. Si ~ est rgulire, c'est--dire si les composantes de X ne sont pas linairement dpendantes on peut trouver une transfonnation inverse qui nomlalse le vecteur X.
THORME

l
T

Si ~ est rgulire il existe une infinit de transfol11uztiolls linaires A, telles que Y = AX soit Wl vecteur de matrice de variance l

Il suffit de prendre A
=~I/l.

= T- 1

Un choix particulirement intressant est celui de

6._.\I",rr(3.llrs

alatoires, formes quadratiques et lois associes

89

On appelle transformation de Atlahalanobis la transformatioll dfinie par :k- I/:!.


~-1/2

(X - f..L) est alors un vecteur alatoire centr-rduit composantes non corrles.

On en dduit aisment le rsultat suivant:

La variable alatoire (X - f..L)':k- 1 (X - J..L)


IJ

= D 2 a pour esprance p.

En effet D 2
C1t!i!lllIll';C

~ Yf ou les Yi sont d'esprance nulle et de variance L D est appe1e


=l

de Mahalanobis de X IL.

ALATOIRES GAUSSIENS: LA LOI MUlTINORMALE

Dfinitions et fonction caractristiqueX est un vecteur gallssien p dimensions si toute combinaison linaire de ses composantes a'X suit llne loi de Laplace-Gallss I.me dimensioll .
. Le thorme de Cramer-Wold pelmet d'tablr que la loi de X est ainsi parfaitement dter:mine. On remarquera que la normalit de chaque composante ne suffit nullement dfinir vecteur gaussien. La fonction caractristique de X s'en dduit aisment (on supposera ici que X est centr qui ne nuit pas la gnralit).
THORME

<p,(a)

= ex p(

-3: a'~a

) o

~ est la matrice de variance de X.


o Y a/X
a'~a et la fonc-

En effet d'aprs le thorme de Cramer-Wold :

La loi de Yest par dfinition une gaussienne centre de variance Vey)


[2

hon caractristique de Y est <.pl' (t) = exp( -

"2 V( y)) ce qui tablit le rsultat.

On en dduit le rsultat fondamental suivant:


THORME

Les composantes d 'ml vecteur gaussien X SOllt indpendantes si et selileme1l1 si:k est diagonale, c'est-ii-dire si elles .lOTIt Hon corrles.

90

4aVecteurs alatoires, formes quadratiques et: lois associes

On a en effet, si :k est diagonale de termes a]- :

On notera Np CI1- ; :k) la loi normale p dimensions d'esprance 11- et de matrice de variance :L.

4.2 . 2

Densit de la loi normale p dimensons

Celle-cl n'existe que lorsque :L est rgulire.


THORME

Si:k est rglIlire X admet pour densit:

En effet Y ~-1/2(X - f.l) est alors un vecteur gaussien dont les composantes sont centres-rduites et indpendantes. Y a pour densit:
g(y)

" = il gCYi)
i=1

Il suffit alors d'appliquer la formule du changement de variable; le jacobien det ~t12 = (det ~)J/2 ce qui tablit le rsultat.

J vaut ici
c.

Les suriaces d'isodensit sont donc les ellipsodes d'quation (x - f-L)'~-I(X - f-L)

4.2 . 3

Cas particulier de la loi normale deux dimensions

Si l'on introduit p coefticient de corrlation linaire entre Xl et X2 :

d'o: et:

4.Vecteurs alatoires, formes quadratiques et lois associes

91

La figure 4.1 reprsente quelques surfaces de densit correspondant cri = diverses valeurs de p ainsi que les ellipses d'sodensit dans le plan XJ, X2'

cr:!

= 1 et

(a)

(b)

(c)
Ellipses contenant 50 % et gO % des observations
FIGURE

4.1

(d'aprs Bhattacharyya etlohnson, 1977),

92

4aVecteurs alatoires, formes quadratiques et lois associes

4.2.4

Lois conditionnelles (sans dmonstration)

Partitionnons X en deux. sous-vecteurs Xl et X::! k et p - le composantes respectivement d'esprance m, et m::! :

x = [~:J
La matrice de variance-covariance se partitionne en 4 blocs:

~II [~21
Si

~I::!]
2:22

r on cherche la loi du vecteur X" conditionne par X2 on a les rsultats suivants:


La loi de X';X2 est une loi 111ultillo171w[e p dimensiolls : - d'esprance: E[X!/X 2] =
ml

THORME

+ ~12~ll1

de matrice l'arallce-covarance :

2: JlI2 = ~II -

(X 2 - ID:!) ; ~12~l ~21'

On constate donc que la rgression de XI en X 2 est linaire. Les termes de ~1l!2 s'appellent les covariances partielles cov U, j 12), desquelles on dduit les corrlations partielles: cov(i, j 12)
crii/'1 cr))12

Pij/2

Les variances conditionnelles ne dpendent pas des valeurs prises par X 2


homoscdasticit ).

il y a

4.2.5

Thorme central-limite multidimensionnel

De mme que pour des lois une dimension on peut tablir le rsultat suivant: Soit XI' X 2, , XII une suite de vecteurs alatoires indpendants de mme loi, d'esprance .... et de matrice de variance ~ alors :
THORME

4 .. Vecteurs alatoires, formes quadratiques et IOs associes

93

4.3
4.3.1

fORMES QUADRATIQUES DFINIES SUR UN VECTEUR GAUSSIEN ET lOIS DRIVES

lois du X2 (khi-deux)
;~;dpeJ1dcllltes,

DFINITION

VI. V 2, , VI' tant p variables LG(Q ; 1)


p degrs de libeJ1 (X~) la loi de la vllIiable

on appelle loi du khi-detLt il

2: Ur.
i=1

C'est donc la loi de la somme des carrs des composantes d'un vecteur gaussien centr et de matrice de variance l.

On en dduit immdiatement que la somme de deux variables Xl indpendantes :". pet q degrs de libert est encore une variable X::', P + q degrs de libert. La loi du X:! se dduit de la loi 'Y par une simple transformation. Prenons en effet un XT, c'est--dire le carr d'une variable de Gauss. D'aprs un rsultat tabli au chapitre 2, la densit de T V 2 est:

Puisque

r (2")

'd . on en de UIt que V : . = 'Y 111- 0 n a d lpropnete SUIvante: one a ' "

2"

PROPRIT

Si X est une variable 'Yn 2X est un

X~r 1

On en dduit donc par transformation les proprits de la loi du X:! :

IE(X;')

=p

Densit: g(XJ,)

__1--,-..,.-ew

2PI2r(~)

(_-;_2)(X 2 (fig. 4.2). )PIH


-

A.

Fonction caractristique
Elle se dduit de cel1e de la loi 'Y :

(1-2il)1'/2

94

4.Vecteurs alatoires, formes quadratiques et lois associes

.500

.438 .375 1
.313,

.250
.188

.063

12

18

24

30

48

60

66

72

FIGURE

4.2

B.

Approximation du X2 par la loi normale

Lorsque p > 30 on peut admettre que soit:


x~

f2X2 - ~2p -

1 est distribu comme une LGCO; 1),

= -'--------'-2

(approximation de Fisher)

ou (mieux) que: sot:

xi, )1/3 + - - 1 ] 2 [( - p 9p

ffp

-=U 2

x~ =
1

p(u -~9P + l _ 9p ~ f2 2)3

(approximation de Wilson-Hilferty)

Cette dernire approximation, trs prcise, est correcte mme pour des valeurs faibles de p. On trouvera en annexe des formules exactes permettant de calculer la fonction de rpartition du X2 La table A 1.6 donne les fractiles de la loi de X1 jusqu' 100 degrs de libert. On peut donc en dduire ceux de la loi "'Ir pour des valeurs de r allant de 1/2 50 par demi-entier.

4.3.2

Formes quadratiques

Sous certaines conditions, des formes quadratiques dfinies sur des vecteurs gaussiens suivent des lois du X2. Ces rsultats sont fondamentaux en statistique dans les problmes de dcomposition de variance.

"_.\I",rrPllr~

alatoires, formes quadratiques et lois associes

95

THORME

l
L

Si X suit une loi llo1711111e il p dimensions d'espra1lce ,... et de matrice de variance


:; rgulire a/or.') :
Dl = (X

,...r 2,
JI
1

I(X -,...)

Sl/it LIlle

loi du X;)

Il suffit de se souvenir que D2

2: y? o les Yi sont des LG(Q ; 1) indpendantes.

Considrons maintenant Y vecteur gaussien centr-rduit composantes indpendantes et cherchons la loi d'une forme quadratique gnrale Q = Y'A Y
fJ

2: aijYJj.
i=1 j=l

Nous allons tablr la forme de la fonction caractristique de Q ce qui permettra aprs de dduire dans quels cas Q suit une loi du X2
THORME

!.pQ(t)

= [det(I

- 2itA)r 1/2

_ Dmonstration
!.pQ(t) = E[expUtQ)] = E[expUtY' AY)]

crivons A = P' AP o P est la matrice orthogonale des vecteurs propres et A la matrice diagonale des valeurs propres ; de A :
l'

Y' A Y

2:]Z]
];1

en posant Z

PY

P tanL orthogonale Z est encore un vecteur gaussien centr-rduit composantes indpendan tes.
Donc:

or or si

est unXr d'o:


~

!.pQ(t) =

rIo ]=1

fl

2i/)-1/2

est valeur propre de A, 1

2/ est valeur propre de 1 2i/)


det (1 - 2itA)

2i1A, donc:

II Cl
j=l

1)

On peut galement donner la dmonstration suivante plus directe mais utilisant des gaussiennes complexes.

96
_ Dmonstration
E[exp(itY' AY)] =

4aVecteurs alatoires. formes quadratiques et lois associes

exp(ity' AY)g(y) dy =

(Hi'

J~l'

f exp(ity' Ay) (211)1 - exp(-~yly) dy 2


_1_)_/1

=_1_ , 1

(2'iT)fJ - !R"

exp(-!yl(I - 2itA)Y) dy
2

Or si l'on considre une loi gaussienne de matrice de variance 2: = (1 - 2itA)-1 sait que:

l
THORME

IR}' (21T)pJ2

- - - - - - e x p --y'2:-'y dy = 1 (det ~)":! 2 [det(1 - 2itA)r ll2

(1

,)

d'o: E[exp(itQ)] = (det2.:)112

On peut donc tablir la proprit suivante :

..

l
L

Q = yi AY suit une loi du X2 si et seulement si A est un projecteur orthogonal, c'est-tl-dire si Al = A. Le rang de A est alors le degr de libert dll X.2.

En effet si A2 = A 'A) = 0 ou 1 et 'Pa(t) est la fonction caractristique d'un x.~. La rciproque est alors immdiate.

Considrons maintenant deux formes quadratiques QI et Q2 de matrice AI et Al dfinies surY.


THORME DE CRAIG

QI et Q:! sont indpenda1ltes si et seulemelll si AI Al

= O.

.. Dmonstration
<f>QIQPI,
(2)

= E[exp(it,QI

il 2Q::)] = [det(I - 2it l A I

2it 2A::)r l12

Comparons cette expression au produit des deux fonctions caractristiques de QI et Q2' <f>QI(tI)<f>Q/!2) = (det(I - 2if,A,) det(1 - 2it l A::)r l12 = [det(I 2itlAI - 2it"J.A"). 4t,f l A I A 2)]-1/2 on aura <f>QI(tI)<f>Q!(t2) = thorme.
'PQIQ~(tlt"J.) Vtlt").

si et seulement si AIA2 = 0 ce qui tablit le _

Nous pouvons enfin noncer le rsultat le plus important concernant les fonnes quadratiques qui gnralise la proprit d'additivit du x. 2 :

''.':::A_.V:.,rrE~UI::'

alatoires, formes quadratiques et lois associes

97

LlF:(:')RE:ME DE COCHRAN
k p

Soient QI. Q2' ... , QI.-. k formes quadratiques sur Y telles que 2:Qj
j=1

= Y'Y

;=1

l:Yl

ctest--dre ralisant tlne dcomposition du carr de Iwnne de Y. Alors les tros conditions suivantes sont quivalentes:

2: rang (Qj) = P ;
1

chaque Qj est une variable de X2 ; les Qj so1lf indpendantes.

Ce thorme n'est que la version probabiliste d'un thorme classique d'algbre linaire k que voici. Soit k motrices symtriques AI> Al' .
0 0'

AI,: d'ordre p telles que LAj = II"


j=l

Alors les trois conditions suivantes sont quivalentes :

2: rang Ai = P ;
Vi;
pour
II

. ...;... J. .

La dmonstration, sans difficult, est laisse au soin du lecteur. Gomtriquement ce thorme est une extension du thorme de Pythagore et de sa rciproque la dcomposition d'un vecteur et donc de son carr de norme, sur des sous-espaces deux deux orthogonaux. L'orthogonalit est ici synonyme d'indpendance pour des vecteurs gaussiens.

4.3.3

Loi du F de Fisher.. Snedecor

Cette loi, lie au rapport de deux formes quadraLiques indpendantes joue un grand rle en statistique (loi du rapport des variances de deux chantillons indpendants par exemple). X et Y tant des variables suivant indpendamment des lois
F(n ; p) =

X;' et xl"

on dfinit:

X/Il Y7P

La densit de F s'obtient aisment par transformation de celle d'une bta II car X/2 et Y/2 suivent des lois 'YIII2 et 'Yp /2 :

g(.f)

= -(-11-1-1) (
B-;2 2
et

(~rf'"'-l
11

1+-}
p

j(!I+ P )/2
11

P E(F) = - -

p-2

V(F) = 2 - - - - - - Il (p - 4)

p2

'J

98

4.Vecteurs alatoires, formes quadratiques et lois associes

Cette loi est tabule en annexe ce qui permet d'obtenir les distributions des lois bta 1 et bta II ; on a en effet les relations suvantes :

si l' suit une loi bta II(n, p), alors p y est un F(2n, 2p) ;
Il

si X suit une loi bta 1(11, p).

alors!!..~ Il 1 - X

est un F(2n, 2p).

4.3.4

loi de Student

Soit une variable alatoire U suivant une LG(O, 1) et X une variable alatoire suivant indpendamment de U une loi X~. On dfinit alors la variable de Student Til 11 degrs de libert comme tant :

On a:

E(T,,) = 0
V(Tl!)
J.L3
/-L4

si

IZ

>

= -n-2 =0
si
Il

11

sin> 2

>3
si si
11

= (n
"(-, = 3
-

2)(11 - 4)

>4
4

+-11 - 4

11

>

Pour 11 = l la loi de Student est la loi de Cauchy, loi du quotient de deux variables ala- : ' toires de Laplace-Gauss indpendantes, dont la densit est:

1
J(t) = 1T(l

t
~I

Cette loi ne possde aucun moment fini. De manire gnrale la densit de .

est:

.lU)

=_ f-

'JllB -, -

(1 Il) ( 1 + - 2)<1/+
t

[)/2

2 2

11

LGCO; 1), ainsi que l'expression des moments le laissait supposer. On a la relation suivante entre les variables de Student et de Fisher-Snedecor :

4.Vecurs alatoires. formes quadratiques et lois associes

99

La tgure 4.3 donne les densits de


11

1:1 pour diverses valeurs du degr de libert:


1, 2, 5, 10, 50.

DA

0.3

0.2

0.1

0
-5

-4 4.3

-3

-2

-1

FIGURE

Densit de probabilit de la variable de Student

On remarquera le comportement particulier de la loi de Cauchy TI' qui a des queues de distribution trs importantes:

P(ITd >
4.4

2)

0.29

LA LOI MULTINOMIAlE, 2 INTRODUCTION AU TEST DU X

Comme son nom l'indique cette loi gnralise la loi binomiale.

4.4.1

Le schma de l'urne k catgories

Considrons une partition de

n en k vnements de probabilit PI' pz, ... , Pk (fig. 4.4).

il
FIGURE

4.4

100

411111111i1Vecteurs alatoires, formes quadratiques et lois associes

On rpte alors indpendamment Il fois l'exprience alatoire et on compte les nombres de ralisations respectives des Ai : NI' N'J. .. " N", Le vecteur alatoire (discret) (NI. N2, , N k) suit alors par dfinition une loi ............ ,V .lU.:.l11: d'effectif 11 et de paramtres Pl. P2 ... , PI;' Ce schma se produit en particulier dans des problmes de sondages: une population est partage en li. catgories et on tire avec remise n individus ~ on compte ensuite les effectifs de cet chantillon appartenant aux diverses catgories. On l'observe galement lors du dnombrement des ralisations d'une variable alatoire X: L'ensemble des valeurs de X est partag en k dasses de probabilits Pi et on compte sur un ensemble de 11 individus les nombres d'individus appartenant chacune de ces dasses (fig. 4.5) : la dmarche utilise pour construire un histogramme, voir chapitre 5).
~x)

Pt

P2
x
FIGURE

4.5

Par construction, les composantes NI' N:., ... , Nk du vecteur multinomial sont linairement dpendantes:

2: Ni =
i=]

11

et on a bien sr 2:Pi = 1.
i=]

Chaque composante Ni suit une loi binomiale fJ3(1l ~ Pi) donc E(Ni )
V(N j ) np/l -

= npi

et

pJ

La loi conditionnelle de Ni sachant N j

= 1lj est galement une loi binomiale:


11,

fJ3('1 -

~ ~. 1 - Pj

11 suffit de remarquer que tout se passe comme si il restait tirer Il - nj individus dans une population li. - 1 catgories: la catgorie Aj tant limine la probabilit conditionnelle d'observer

A/Aj vaut

Pj

4 .. Vecteurs alatoires, formes quadratiques et lois associes

101

La loi du k-uple est alors donne par :

4.4.2

Esprance et matrice de variance

Comme chaque Ni suit une loi @(n ; Pi) on a :

f1.=

Pour tablir la covariance entre N; et Nj il suffit de remarquer que le vecteur multinomial . est une somme de Il vecteurs indpendants de mme loi que le vecteur X = (Xl' X 2 , . . , X,,) tel que Xi = 0 ou 1 avec les probabilits 1 - Pi et Pi ; un seul des X; tant nul. Les Xi sont les indicatrices des caLgories Al' A 2 , . . . , AI,: pour un des Il tirages. On a alors E(XiXj ) = 0 si i

"* j d'o cov(X;, X) =

-E(Xi)E(Xj ) = -P;Pj"

La covariance d'une somme tant la somme des covariances on en dduit : si i

"* j
-PIPk

La matrice de variance-covariance de la loi multinomiale est donc:


PI(l - PI) -PI Pl
n~

-PI Pl P2(1 - P2)

-P21h

Il

Cette matrice n'est pas rgulire car ~Ni = colonnes sont nulles). = 1

Il

(on remarque que les sommes en lignes et en

4.4.3

Lois limites lorsque n ~

00

D'aprs le thorme central limite multidimensionnel. comme (NI' N 1 somme de Il vecteurs alatoires indpendants et de mme loi, on a :

" " .,

Nk ) est une

102

411i1i111Vecteurs alatoires, formes quadratiques et lois associes

La loi limite est dgnre (elle n'admet pas de densit) car L(N; - l1Pi) =
1

o.

Cependant si l'on supprime par exemple la dernire composante on a alors un vecteur limite gaussien non dgnr et :

X=

'Ill

(NI - I1PI ; N 2 - I1P'2; ... ; Nk- I - llPk-l) ~ N/.:_ 1(0; :.:E*)

o:.:E* s'obtient en supprimant la dernire ligne et la dernire colonne de l:. Par une simple vrification on trouve:

1 1) ( -+PI lh 1
lh

1 1) - (P1+Pk
1 1) (-+P/.:-I Pk

Ih

Appliquons alors le premier thorme sur les formes quadratiques:

En dveloppant on a :

k-'(N. = ~ J
i= 1

npi

IIp-f- +
!

1 (k-I )2 22(Ni -nPi) np" i= 1

k-I

car

2: Ni =
1

/.:-1

n - Nk et 2211Pi =
;"'" 1

Il -

IlP",

-=

4.Vecteurs alatoires, formes quadratiques et lois associes

103

Il vient donc:

Ce rsultat capital est la base du test du khi-deux permettant de comparer une distribution d'observations NI, N'l' ... , N k une distribution thorique de probabilits Pl' lh, ... , th (voir chapitre 14, paragraphe 14.6.2.1).

4.5

LOIS DE WISHART, DE HOTEllING, DE WILKS

Ces lois jouent un rle essenLel en sraristique maLhmatique multidimensionnelle.

4.5.1

Loi de Wishart

DFINITION

Une matrice M (p, p) Cl une distribution de Wishart ~J(ll ; ~) si M pel/t s'crire M = X'X o X est une matrice (n, p) alatoire dfinie de la faon suipanle : les Il lignes de X sollt des vecteurs alatoires gaussiens de mme loi NpC0 ; ~) indpendants.

X reprsente donc un chantillon de n observations indpendantes d'une loi normale multidimensionnelle. Nous allons voir que cette loi gnralise d'une cerlaine faon la loi du X2 . Si p = l on a en effet:
WI(n ; cr2 ) = (j2X?t

LX l
i=1

Il

On montre que la densit de la loi de Wishart est:

1 1,,,-p-')12 exp( -~ Truce ~-I M ) M


f(M) = - - - - - - - p----:;-1-----:211,,/211' pl p- 1)/-11 ~ 11112 (n + i

II
j;J

avec M > 0 pour 1 mesure de Lebesgue dans a semi dtinie positive).

IT1lP(p+l)/2
tr

, . (en e ff Md' etre symetnque et "et Olt ~

On rapprochera cette formule de celle de la densit d'un X2

104

4aVecteurs alatoires. formes quadratiques et lois associes

On note galement que la fonction caractristique de la loi de Wishart ~~ll1 ; 2:) est: E[exp (iTM)] o T est une matrice (p, p), Rappelons que la fonction caractristique d'un X~ est <P.t~(t) = (1 - 2it)-IlI!, On a: E(LVI) = 112:

= Il -

iT2: /-1111

et

si

Il -

P -

>

Pour tout vecteur constant a :

a'Ma a/2:a

suit une loi X~

a'1\IIa

En effet on vrifie sans peine que a'Ma est une matrice de Wishart W,(1l ~ a'2:a) car a'X'Xa o Xa suit N,(O ; a'2:a).

1 01

' ' ' 'l' A n peut montrer egalement, mats 1a demonstratlOn est de lcate, que a,'i: -1 a -1
X~-p+"
"l

aM a

SUIt

. une

Ces deux proprits se gnralisent avec des vecteurs alatoires.


PROPRIT

Soit x un vecteur alatoire (de loi quelconque) indpendant de IVI alors: et suivent les lois X~ et X~-p+ 1 respectivement et sont des variables indpendantes de x. a'Ma et b'Mb sont indpendantes si a'i:b = O.

4.5.2

La loi du Tl de Hotelling

Cette distribution gnralise celle de Student (ou plutt son carr). C' est celle d'une variable unidimensionnelle.
DFINITION

Soit x lm vecteur alatoire normal Np(O ~ 1) et M llne matrice de Wishart ~,(1l ; 1), 1zdpendallte de x ; a/ors la qUlIntit llx'M- 1x suit par d4finitioll une loi du Tl de Hotelling de paramtres p et Il.

Par abus de notation, on posera: T,;(n) = Ilx'lVI- 1x

4.Vecceurs alatoires. formes quadratiques et lois associes

105

PROPRIT

Si x sut une loi Np(fL ; 2;) et lVI une loi de Wishart indpendante de x M'p(n ; 2;) alors n(x - fL)'lVl- 1 (x f.1) suit une loi ~~(n).

La dmonstration vidente utHse la transformation de Mahalanobis y et le fait que 2;-I/:::M~-I/:! est une W/n ; 1,,).

2;-lI:!(X - fL)

1lx/lVl- I x suit ce qu'on appelle une loi de Hotelling dcentre ~~(n, :2) o :2 est le paramtre de dcentrement.

= fL'2:f.1

La loi du T'Y. de Hotelling s'identitie celle de Fisher-Snedecor selon la formule:


T~(ll) =
1

')

np
JI -

1 F(p ; Il

1)

En effet on peut crire avec

x N,,(O ; 1) :

x'x est un x'lVl-lx

1 indpendant

de x donc de XiX qui est un 'X~ d'o:


X,~
'l

'l T ;;(/1 ) =

Jl - : : : - XII-f/+I

On voit que pour p

1, T [(n) = F(l ; n) c'est--dire le carr de la variable de Student

11 degrs de libert.
NOlons que:
E(T,;(n))

.,

= n-p-

np

4.5.3

La loi du lambda (A) de Will<s

Cette loi joue un grand rle en ;malyse de variance multidimensionnelle o elle gnralise celle de Fsher-Snedecor : elle concerne les rapports de variance gnralise qui sont des dterminants de matrices de Wishart. A est une variable unidimensionnelle.
DFINITION

Soit A et n deux matrices de Wishart Wp(m ; 2;) et WpCn ; 2:) indpendantes o alors le quotient:

lJl

p,

1 - - - - - = 1\ lA-lB + Il .
a une distribution de lVi/ks de paramtres p, nt et Il, A( p, dpend pas de 2;).
111.

Il) (cette distribution ne

A et B tant des matrices positives A est une variable comprise entre 0 et 1.

106

4.Vecteurs alatoires, formes quadratiques et lois associes

Remarquons que A s'exprime en fonction des valeurs propres Si de A -lB:

A
A(p, m,
Il)

II (l
i""l

11

ei)-l

et A(n, m

+ Il

p, p) ont la mme distribution.

On peut se ramener la loi de Fisher-Snedecor dans quatre cas simples:


A(p, m, 1)

A(p,

Ill,

1)

m-p+1
Il

F(p ~

111 -

1)

1 - A(1, m, Il) A(1,m, n)


--JA(p,
111,

= - F(n; m)
JJl

2)

-lA(p, m, 2)
1 - -JA(2,
Ill,

p = - - - - 1 F(2p ; 2(m - p
111

1)

r)

= --F(2n; 2(m - 1)

Il

111-1

S 111 est grand on peut utiliser l'approximation de Bartlett :

[/II - ~ (p -

Il

1)] ln

A(p,

Ill,

/1) =

X~/

DEUXIME PARTIE

1Statistique exploratoire

Description
unidimensionnelle de dorlnes ,. numerlques

La plupart du temps les donnes se prsentent sous la forme suivante : on a relev sur n units appeles individus p variables numriques. Lorsque Il et p sont grands on cherche synthtiser cette masse informations sous une forme exploitable el comprhensible. Une .. "premire tape consisre dcrire sparment les rsultats obtenus pour chaque variable: c'est la description unidimensionnelle, phase indispensable, mais insuftisante (voir chapitre suivant), dans toute tude statistique. On considrera donc ici qu'on ne s'intresse qu' une variable X, appele encore caractre, dont on possde Il valeurs XI' Xl, . , XIf' La synthse de ces donnes se fait sous forme de tableaux, de graphiques et de rsums numriques. C'est ce que l'on appelle couramment la statistique descriptive )j dout l'usage a t considrablement facilit par l'informatique.

5.1

TABLEAUX STATISTIQUES

Leur prsentation diffre lgrement selon la nature des variables.

S.1.1

Variables discrtes ou qualitatives

Pour chaque valeur ou modalit Xi de la variable on note 1li le nombre d'occurrences (ou effectif) de Xi dans l'chantillon,kl1i = 1l,etfr la frquence correspondantefr = n/11 (on utilise en fait Je plus souvent le pourcentage lOOfr.). Le tableau statistique se prsente en gnral sous la forme:

_ Exemple 1 : Le recensement gnral de la population franaise en 1999 donne la rpartition des 23 810 161 mnages, selon la variable X nombre de personnes du mnage.
Rappelons qu'un mnage est compos de toutes les personnes habitanl normalement dans un Jogement, quels que soient leurs liens de parent. Les mnages sont donc ici les individus ou units statistiques.

110

51111i11i11Description unidimensionnelle de donnes numriques

TABLEAU

5.1 Pourcentage 31.0


31.1

Nombre de personnes

1 2

3
4

16.2 13.8

5
6 et plus

5.5
2.4

..
j=l

5.1.2

Variables continues ou assimiles

On regroupe Iesvaleurs en k classes d'extrmits eo, el' ... , C\ et l'on note pour chaque classe lei ~ h ei] l'effectif l1i et la frquence.t ainsi que les frquences cumules Fi ou proportion des individus pour lesquels X < ei' Le tableau statistique se prsente en gnral comme suit:

L.t,

fi

]
Ville Taux tuxe Zone d'habitation Gographique

Par convention, la borne suprieure d'une classe est toujours exclue de cette classe.

_ Exemple 2 : Le magazine Capital a donn pour 100 villes franaises les valeurs du taux de la taxe d'habitation.
TABLEAU

5.2

Ville

Zone Taux taxe d'habitation Gographi1luC

Aix-en-Provence Ajaccio Amiens Angers Annecy Antibes Antony Argenteuil Arles Asnire!Hiur-Seine

18.94
22.06 17.97 18.86 14.97

Sud-Est
Sud-Esl

Aubervilliers Aulnuy-sous-Bois Avignon Beauvuis Belfort Besanon Bziers Blois Bordeaux Boulogne-Billancourt

11.45 15.59 12.41


15.37

I1e-de-France Ilc-de-France Sud-Est Nord Est

Nord Ouest Sud-Est Sud-Est 11 e-de-France Ile-de-France Sud-Est


Ile-de-France

16.:!O
20.20

14.30
11.07 16.90

Est
Sud-Ouest Centre Sud-Ouest lIe-de-France

22.14
17.07

24.49
10.13

22.11
9.46

5l1li Description unidimensionnelle de donnes numriques

111

Ville

Taux taxe Zone d'habitutinn Gographique


\5.77 25.99 [5.82 16.12 23.36 19.71 17.30 18.71 [5.09 17.30 17.37 14.00

Ville

Zone Taux taxe d'habitntion Gographique 10.30 21.93 19.39

Bourges Brest Brive-la-Gaillarde Caen Calais Cannes Chalon-sur-Saone Chambry Champigny/Marne Charleville-Mzires Chteauroux Cholet Clermont-Ferrand Colmar Colombes Courbevoie Crteil Dijon Drancy Dunkerque Evreux Forncnay-sous-Bois Grenoble Ivry-sur-Seine La Rochelle La Seyne-sur-Mer Laval Le Havre Le Mans

Centre Ouest Centre Ouest Nord Sud-Est Centre Sud-Est lIe-de-France Est Centre Ouest Centre Est lIe-oe-France Ile-de-France I1e-oe-France Centre lIe-de-France Nord Ouest lIe-de-France Sud-Est Ile-de-France Centre Sud-Esl Ouest Ouest Ouest Nord Centre Ouest Sud-Est

Maisons-Alfort Marseille Mrignac Melz Montauban Montpellier Montreuil Mulhouse Nancy Nanterre Nantes Neuilly-sur-Seine Nice Nimes Niort Noisy-le-Grand Orlans Paris Pau Perpignan Pessac Potiers Quimper Reims Rennes Roubaix Rouen Rueil-Malmaison Saint-Denis Saint-Etienne St-Maur-des-Fosss Saint-Nazaire Saitll-Quentin

Ile-oe-France Sud-Est Sud-Ouest Est Sud-Ouest Sud-Ouest tle-de-Fnmce Est Est Ile-oc-France Ouest Ile-oc-France Sud-Est Sud-Ouest Centre Ile-oe-France Centre lIe-de-Fnmce Sud-Ouest Sud-Ouest Sud-Ouest Centre Ouest Est Ouest Nord Ouest He-de-France Ile-de-France Sud-Est lIe-de-France Ouest Nord

16.62

12.n
21.40 13.67 16.65 18.21 6.13 21.13 3.68 19.75 30.13 I9.IY 16.91 10.05 9.15 21.31 15.87 10.71 11.55 16.67 14.98 21.75 17.97 20.97 14.93 9.17 19.90 10.81 16.36 10.46

15.85 16.31
14.16 4.86 17.58 18.75 10.42 28.69 11.17 12.10 19.43 9.16 18.75 25.98 19.48 17.67 17.54 36.17 17.24 16.74 19.09

Lille
Limoges Lorient Lyon

112

5_Description unidimensionnelle de donnes numriques

Ville

Taux taxe d'habitation


19.32 12.38 22.04 19.37 19.23 33.61 20.79

Zone
Gograph<)ue lIc-de-France Ilc-de-France Est Sud-Est Sud-Ouest
Nord

Ville

Taux taxe d 'hahillltion


18.11 16.25 18.70 8.95 29.96 19.85 Il.50

Zone
Gographique Est Sud-Est Sud-Est lIe-de-France Nord Sud-Est Hc-de-Francc
,
...

Sarcelles Sartrouville Strasbourg Toulon Toulouse Tourcoing Tours

Troyes Valence Venissieux Versailles Villeneuve-d'Asq Villeurbanne Vi try-s ur-Sei ne

Centre

On ndduitpour la variable taux de taxe d'habitaton, Je tableau SUIvant obtenu aprs '''',. en classes d'amplitudes gales 5, qui permet dj de mieux comprendre le phnomne: on voit clairement une concentration des valeurs (84 %) dans l'intervalle [10 ; 251.
TABLEAU

5.3

'.

point Classe Limite Limite Effectif Frquence Effectif Frquence cumul infr. supr. central cumule
l

2 3
4

5 6 '7
8

0.0 5.0 10.0 15.0 20.0

25.0
30.0 35.0

5.0 10.0 15.0 20.0 25.0 30.0 35.0 40.0

2.5 7.5 12.5 17.5 22.5 27.5 32.5 37.5

6 17 47 20 5 2 1

0.0200 0.0600 0.1700 0.4700 0.2000 0.0500 0.0200 0.0100

8 25 72

92 97 99 100

0.0200 0.0800 0.2500 0.7200 0.9200 0.9700 0.9900 1. 0000

, , , , Dans d autres cas, on peut recounr a des classes d amplitudes megales.

5.2 5.2.1

REPRSENTATIONS GRAPHIQUES Barres et camemberts

Pour des variables qualitatives modalits non ordonnes, il existe une grande varit de diagrammes. Les plus rpandus sont: les diagrammes en barres (verticales ou horizontales) : les barres sont de longueurs proportionnelles aux frquences des catgories, leur paisseur est sans importance. Les camemberts (en anglais pie-chart) : chaque catgorie est reprsente par une portion de superficie proportionnelle sa frquence.

SIIIIDescripton unidimensionnelle de donnes numriques

113

Camembert pour Zone Gographique

18.00%

10.00%,

14.00%

ml Centre D Est []] lIe-de-France IS'] Nord D Ouest lEI Sud-Est El Sud-Ouest

FIGURE

5.1

Diagramme en btons pour Zone Gographique

centre~.~~
Est
lIe-de-France Nord Ouest

Sud-Est
Sud-Ouest

10 15 20 25 30
Pourcentages

FIGURE

5.2

Pour des variables numriques discrtes, on utilisera de prfrence un diagramme en barres verticales comme celui-cl:

Nombre de personnes par mnage

40
(Il

ID

30

ra

01

20

:::l

a.. 10
O~

____________________________________________ 1""",~",,,i~;l::2: 1
2

3
FIGURE

6 et plus

5.3

114

SDescription unidimensionnelle de donnes nIJrn"'I'"I"111"~

5.2.2

Histogrammes

Analogues la courbe de densit d'une variable alatoire, un histogramme est un graphique barres verticales accoles, obtenu aprs dcoupage en classes des observations d'une variable continue. La surface de chaque barre, encore appele tuyau d'orgue, doit tre proportionnelle la frquence de la classe. Pour des classes d'gale amplitude, la hauteur de chaque barre est proportionnelle la frquence. Voici quelques histogrammes de la distribution des taux de taxe d'habitation: tous ont pour proprit que la surface sous l'histogramme vaut 1.
60
U'}

50
1/) (1)

50

.$ 40
ai 30

ID

40

Cl

"1 3O

a 20 a..
H

5 20
a.. 10
0 0 10 20 30 40 0 10 20 30 40
Taux de taxe d'habitation Taux de taxe d'habitation
0

ID

10 0

50
1/)

50
1/)

~ 30

ID O'l

40

40 30

ID

~
C

Cl

5 20
a.. 10
0

ID

(])

~ 20
0

a.. 10
0 10 20 30 40 0 0 5.3
bis

Taux de taxe d'habitation


FIGURE

10

20

30

40

Taux de taxe d'habitation

On constate qu'un trop grand nombre de classes

brouille )) l'information.

La dtermination du nombre de classes d'un histogramme est dlicate et on ne dispose pas de rgles absolues. Un trop faible nombre de classes fait perdre de l'information et aboutit gommer les diffrences pouvanl exister entre des groupes de l'ensemble tudi. En revanche un trop grand nombre de classes aboutit des graphiques incohrents : certaines classes deviennent vides ou presque, car 11 est fini. On peut d'ailleurs critiquer le fait de reprsenter par une fonction en escalier la distribution d'une variable continue: l'histogramme est une approximation assez pauvre d'une fonction de densit et il serait plus logique de chercher une fonction plus rgulire. La thorie de l'estimation de densit permet de proposer des solutions ce problme (voir chapitre 13, paragraphe 13.9.3). Une estimation de densit calcule pour 100 abscisses par la mthode du noyau (ici un noyau cosinus avec une largeur de fentre gale 60 % de l'tendue) fournit une information plus claire, et la forme de la courbe suggre une distribution gaussienne.

_n~ .. ,. .. inf'IQn

unidimensionnelle de donnes numriques

115

0.08 0.06
'(i)

~
c
(J)

0.04 0.02 0 0
10

20

30

40

Taux de taxe d'habitation


FIGURE

5.4

M.eux qu'un histogramme. une courbe de densil estime permeL des dlecter des modes multiples, correspondant des mlanges de distribution (donnes provenant de plusieurs populations diffrentes).

5.2.3

Bote moustaches ou box-plot

Ce diagramme, introduit par J.W. Tukey, est une reprsentation synthtique extrmement efficace des principales caractristiques d'une variable numrique. Il en existe plusieurs variantes, mais celle dcrite ci-dessous est la plus complte. La bote correspond la partie centrale de )a distribution ; la moiti des valeurs comprises entre le premier et le troisime quartile QI et Q1 (voir plus loin). Les moustaches s'tendent de part et d'autre de la bote jusqu'aux valeurs suivantes: gauche jusqu' QI - 1.5(Q3 - QI) si il existe des valeurs encore plus petites, sinon jusqu' la valeur minimale; droite jusqu' QI + 1.5(Q3 QI) si il existe des valeurs au-del, sinon jusqu' la valeur maximale. Les valeurs au-del des moustaches repres par des * sont des valeurs hors nonne ventuellement suspectes ou aberrantes mais pas ncessairement. Ainsi le diagramme en bote moustaches montre clairement l'existence de points atypiques pour le taux de taxe d'habitation, ici 3 valeurs trs basses, et 4 valeurs trs leves. Il devient alors intressant d'identifier les individus correspondants.
Bote moust;1ches

10

20
FIGURE

30

40

Taux de taxe d'habitation

5.5

116

51111l11Description unidimensionnelle de donnes numriques

Un autre grand intrt de ces diagrammes est de pouvoir faire facilement des comparai_ sons entre sous-groupes de donnes: il est plus simple de comparer des diagrammes en bote que des histogrammes. La figure suivante pennel de comparer les distributions du taux taxe d'habitation selon la rgion:
40

30
20

"""'""fd
__________________________________________
@

10
o~

ID

"E o
Z

ID

ID :::J

FIGURE

5.6

5.2.4

Courbe de concentration

Apple galement courbe de Lorenz, elle est utilise principalement en staustlque conomique pour tudier les ingalits de rpartition d'une grandeur positive cumulable (revenu, chiffre d'affaire, ... ) (fig. 5.7).
G

2"

o
FIGURE

1 F

5.7

lIB Exemple: Soit une distribution de revenus X et soit M la masse totale des revenus. A chaque valeur du revenu X, on associe un point de coordonnes F(x) en abscisse: proportion des individus gagnant moins de x et G(x) en ordonne o G(x) reprsente la proportion de Ivl correspondante, c'est--dire le rapport:

Masse des revenus < x Masse totale

s_Description unidimensionnelle de donnes numriques

117

Cette courbe est toujours en dessous de la premire bissectrice car F(x) > G(x) pour une distribution non dgnre: il suffit de remarquer que les individus qui gagnent moins de x, qui sont donc en proportion F(x), ne peuvent gagner globalement autant que les IOOF(x) % suivants. La mdiale ,lU est la valeur de la variable qui partage en deux la masse totale de la variable. On a donc: Mdiale> Mdiane

5.2.4.1

Proprits mathmatiques

Supposons connue la distribution thorique de X de densitf(x). L'abscisse d'un point de la courbe est:
F(x) =

L'J(t) dt
L'yU) dt f"I.f(t) dl

L'ordonne correspondante est:

Si X est une variable qui prend ses valeurs entre Xmin et xma )( la courbe de concentration est

donc dfinie en coordonnes paramtriques :

- = .t(x)
dx
q

dF

= ~lx

111 x"''"

fU) dt

dq dx

= ~ xfex)
nl

On a:

dq dF

= dl]

dx dx dF

= .=:
111

On remarque que - = 1 si x = m. dF La courbe possde alors une tangente parallle la premire bissectrice. Aux extrmits du carr les pentes des tangentes sont Si X varie de 0 ''X, en particulier, les pentes sont 0 et verticale l'arrive).
Xmill

dq

et Xma;l respectivement.
JJ1

00

(tangente horizontale au dpart,

5.2.4.2

Indice de concentration ou indice de Gin;

Plus la distribution de X est ingalement rpartie, plus la courbe s'loigne de la premire bissectrice (distribution ultra concentre: cas o les 9/10 des individus reprsentent moins de 1/10 de la masse et o le 1/10 restant concentre la quasi-totalit de la variable).

118

5_Descripton unidimensionnelle de donnes numriques~

Un indice de concentration propos par Gini est Je double de la surface comprise entre courbe et la bissectrice (Hg. 5.8).

C ,-----------c== B

o
FIGURE

5.8

Indice de Gini thorique


En prenant la courbe symtrique par rapport la diagonale, on a :

G
G

= aire OEBA
o ()

- aire ODBA ;

= llFdq -l'qdF;

en multipliant par ln les deux membres:


mG

L:"

F(x)xf(x) dx -

111 L:"q(X)f(X)

dx

mG =

L:xf"

(x - yl.f(x)f(y) clx d)'

Comme

L:xL:"(X - y)f(x)f(y) dx cly = O. il vient:


mG =

iL:"f.
X
_>: _::<:

(x - y)f(x)f(y) clx cly

IJ+::<:f"" (y + 2:
_>:

- x)j(x)j(v) dx d)'

Soit:

mG =

'1J+:::J+>: lx 2

y !f(x)f(y) dx dy

l :2 ~I

-"",,~ ... ,..,.. ,nf'lon

unidimensionnelle de donnes numriques

119

I s'appelle la diffrence moyenne, d'o:

G=-

.6.,

2m

Indice de Gn d'un chantillon


Si toutes les valeurs Xi de la distribution sont distinctes, la diffrence moyenne empirique vaut:

d'o:

= --"-----n(n -

1).I

5.3

RSUMS NUMRIQUES

Il est indispensable en gnral de rsumer une srie d'observations par des indicateurs typiques dont le plus connu est la moyenne arithmtique. II est cependant toujours insuffisant de rsumer une srie par un seul indicateur. Voici une liste typique de rsums numriques pour la variable taux de taxe d'habitation

TABLEAU

S.4

Effectif Moyenne Mdiane Variance cart-type Minimum Maximum tendue 1'''[' le 3 e quartile Intervalle inter-quartiles Asymtrie Aplatissement Coef. de variation

100 17.7707 17.625 30.2707 5.5019 3.68 36.17 32.49 15.035 20.585 5.55 0.368299 4.46798 31.1164 %

120

S_Description unidimensionnelle de donnes numriques

5.3.1

Caractristiques de tendance centrale


Il

Il s'agit en quelque sorte de dfinir une valeur c autour de laquelle se rpartissent les observations (fig. 5.9). Les plus usites sont la mdiane, la moyenne arithmtique et le mode.

.. ..
5.3.1.1
La mdiane

1:
FIGURE

5.9

C'est la valeur M telle que F(M) = 0.50. SI les observations sont ranges par ordre croissant M x(n 1)/2 pour Il impair. Si Il est pair on prendra conventionnellement:

Lorsque l'on ne connait qu'une rpartition en classes (situation viter mais que l'on rencontre si l'on travaille sur des documents rsultant d'un traitement pralable) on cherche la classe mdiane [Ci 1. e,J telle que:
F(ei- 1)

< 0.5 et

F(ej)

> 0.5

et on dtermine M par interpolation linaire :

M=e/ - I + a -j; - 1
L'interpolation linaire revient supposer une distribution uniforme l'intrieur de la classe mdiane. La mdiane est un indicateur de position insensible aux variations des valeurs extrmes (elle ne dpend en fait que des valeurs centrales de l'chantillon tud) mais n'a que peu de proprits algbriques.

0.5 -

5.3.1.2

La moyenne arithmtique
l

X= -

2: X;

Il

ou

:x = 2: PiJ: i
i= 1

1/

pour des donnes pondres

J1 i=1

Pour des donnes rparties en k classes la formule approximation de la moyenne

2: j;c;
i=1

avec

Ci

= ---....;. donne une


2

x mais cette situation doit tre vite.

La moyenne arithmtique est fonction de toutes les observations mais est sensible aux valeurs extrmes: c'est un indicateur peu robuste bien qu'universellement utilis.

s_Descrpcion unidimensionnelle de donnes numriques

121

5.3.1.3

Le mode

Valeur la plus frquente pour une distribution discrte; classe correspondant au pic de l'histogramme pour une variable continue. Sa dtermination est malaise et dpend du dcoupage en classes. Pour une rpartition parfaitement symtrique on a : Moyenne = mode = mdiane

5.3.2

Caractristiques de dispersion

Plus encore que la tendance centrale, la dispersion est la notion cl en statistique car si tous les individus avaient la mme valeur il n' y aurait plus de raisonnement statistique ...

5.3.2.1

L'tendue ou intervalle de variation

Dpendante des valeurs extrmes c'est un indicateur instable.

5.3.2.2
IQ3 -

L'intervalle interquartile

Les quartiles QI, Q2' Q3 tant dfinis par FCQI) = 0.25 F(Q2) = 0.50 et F(QJ) 0.75, QI! est un indicateur parfois utilis pour mesurer la dispersion: il est plus robuste que l'tendue.

5.3.2.3

La variance et l'cart ..type

Ce sont les deux mesures les plus frquemment utilises. La variance


s2

est dtinie par :


.0;1

= - '2:(Xi
Il i=1

Il

X)2

ou

L'cart-type s s'exprime dans la mme unit que la variable tudie. s Le coefticient de variation exprime en pourcentage le rapport =. Il n'a de sens que si x> O. x On a les formules suivantes:
- 2,;X f - (x)Il

1~

(moyenne des carrs) moins (carr de la moyenne) ;

s:!

=! '2:(Xi
Il

a)2 - (x - a)"l, thorme de Konig-Huyghens.

Ces deux formules ne prsentent d'intrt que pour des calculs la main sur des petites sries et doivent tre prohibes pour des calculs automatiques sur des grandes sries, les sommes de carrs pouvant conduire des dpassements de capacit ou des pertes de prcision.

122

5_Descripton undimensionnelle de donnes numriques

Il

L'algorithme suivant permet de calculer la somme des carrs des carts SC la moyenne valeurs par ajustement progressif: chaque nouvelle valeur .\j introduite entrane une moditica_ tion simple et positive de la somme des carrs calcule pour les j 1 valeurs dj introduites: SC = 0

pour j = 2, 3, ... , Il faire :


1 _ 1) (jXj

SC
d'o quandj
Il,

= SC + j(j

T)2

Till el S2 = SC/n.

5.3.3

Cohrence entre tendance centrale et dispersion

Xi

Nous pouvons considrer qu'une valeur centrale c doit tre proche de ('ensemble des 1 Il 1 et minimiser une fonction du type - Ld(c; Xi) o cl est un cart. D = - Ld(c; xJ dfinit
"i=1

Il

alors une mesure de dispersion des observations autour de c. Le choix d'une certaine forme analytique pour d entrane alors l'usage simultan d'une mesure de tendance centrale et d'une mesure de dispersion cohrenles :

si d(c;

Xi)

= (c -

si d(c ; Xi) Le couple (x,


S2)

xy on a c = x et D = .,2 ; le -.tA on trouve c = M, c'est--dire la mdiane et D

~ 2:lxi - MI.

est donc cohrent avec l'usage de distances euclidiennes.

Gomtriquement si l'ensemble des observations de X est considr comme un vecteur de !Rif :

x=

chercher une valeur centrale c revient chercher une variable constante c'est--dire un vecteur:
1

=c

= cl

5_Description unidimensionnelle de donnes numriques

123

le plus proche possible de x au sens d'une certaine topologie. En munissant ~l! de la mtrique euclidienne usuelle, sur ~ (fig. 5.10).

x est la mesure de la projection de x

FIGURE

5.10

5.3.4

Caractristiques de forme

Elles sont utiles notamment pour vrifier rapidement le caractre normal d'une distribution (on sait que le coefficient d'aplatissement thorique de la loi normale est 3) : coefficient d'asymtrie: 1'1 = 1Il]/::;3 ; coefficient d'aplatissement: 1'2 1114/~,4;
o
J1l3

= 1 2:(x;
Il

- X)3 et /114

= ~ 2:CXj 11

X)4.

Les notations ne sont pas universelles et 1'1 est pmfois not auteurs utilisent 1'2 - 3.

~, 1'2 not b1 . Certains

Description
bidimensionnelle et mesures de liaison entre variables

Aprs les descriptions unidimensionnelles on tudie gnralement les liaisons entre les variables observes: c'est ce que l'on appelle communment l'tude des corrlations. Les mthodes et les indices de dpendance varient selon la nature (qualitative, ordinale, numrique) des variables tudies.

6.1

LIAISON ENTRE DEUX VARIABLES NUMRIQUES


Il

Supposons que l'on observe pour 11 individus deux variables X et Y. On a donc


(Xi; Yi) ou encore deux vecteurs x et y de ~II avec:

couples

x=

y=

XII

_ Il

6.1.1

tude graphique de la corrlation

Afin d'examiner s'il existe une liaison entre X et Y on reprsente chaque observation i comme un point de coordonnes (Xi, Yi) dans un repre carlsien. La forme du nuage de points ainsi trac est fondamentale pour la suite: ainsi la tigure 6.1 montre: a) une absence de liaison; b) une absence de liaison en moyenne mais pas en dispersion; c) une corrlation linaire positive; d) une corrlation non linaire.

126

6_0escription bidimensionnelle et mesures de liaison entre variables

y~.
~

x
(a) (b)

x
(c)
FIGURE 6.1

x
(d)

_ On dit qu'il y a corrlation si il y a dpendance en moyenne: X = x fix la moyenne y est fonction de x. Si cette liaison est approximativement 1inaire on se trouve dans le cas de la corrlation linaire. Rappelons que la non corrlation
n~est

pas ncessairement l'indpendance.

6.1.2

le coefficient de corrlation linaire

Ce coefficient dit de Bravais-Pearson}) mesure exclusivement le caractre plus ou moins linaire du nuage de points.

6.1.2.1

Dfinition

ST

et Sy sont les carts-types de

et y :
s-: = \
-

L( ". - - , v)/1
~

Il i== 1

Le numrateur - L(X i - X)(Yi - y) est la covariance observe.


Il i= 1

1/

De mme que pour p (voir chapitre 3) dont il est la version empirique: -1 $' r::; l et 1 ri = l est quivalent l'existence d'une relation linaire exacte: lL\; + bYi + C 0 "iIi. Si l'on considre dans l' espace ~" les deux vecteurs :
XI -

X
X

'\'1 - y
)'2 -

X2 -

et

XJI

YII -

r est le cosinus de l'angle form par ces deux vecteurs comme un calcul lmentaire le montre, d'o ses proprits.

..... _~~ .. inl'lnn

bidimensionnelle et mesures de liaison entre variables

127

Du bon usage du coefficient r


r ne mesure que le caractre linaire d'une liaison et son usage doit tre rserv des o les points sont rpartis de part el d'autre d'une tendance linaire (fig. 6.]c du paragraphe prcdent). Par contre, la figure 6.2(1) montre les risques d'un usage inconsidr du coefficient de corrlation linaire r. On notera en particulier que r est trs sensible aux individus extrmes et n'est donc pas robuste .

..

.0. ::.

A .:.

rA=0.BB2 r9=O,951

..

.. ..
"
B

r=0.778

r=O
.. 0

DO:

..

.....
0

.....
"
"

""
rA 0.913 r6=0.956

" " ..

..
""

C "".0

rc =0.899 ro=0.915

r=0.626

r=0.981

FIGURE

6.2

Les 4 nuages de la figure 6.3 ont mmes moyennes, mmes variances et mme coefficient de corrlation :

x
r

= 9

7.5

10.0
0.82

s~ = 3.75

Seul le premier nuage justifie l'usage de r.


IIIIIIiICailliez el Pags. 1976.

128

6_Description bidimensionnelle et mesures de liaison entre

V;:Jrl~I'\JI~":C('1~"!

10

..

..

....
10

..

..

..... ..

15

20

..

.......
FIGURE

6.3

Notons pour finir que la corrlation n'est pas transitive: x trs corrl avec y, y corrl avec z, n'implique nullement que x soit corrl avec z.

6.1.2.3

Matrice de corrlation entre p variables


11

Lorsque l'on observe les valeurs numriques de p variables sur en prsence d'un tableau X 11 lignes et p colonnes: 2 2
j ... p

individus on se

X=

-.-j

11

x1 est la valeur prise par la variable n j


11' A=I--.
11

sur le i me individu.

Le tableau des donnes centres Y s'obtient en utilisant l'oprateur de centrage'

t;_IDE~SCIlptJOn bidimensionnelle et mesures de liaison entre variables

129

A est la matrice
au:= 1

Il

n de terme gnral:

,
11

a IJ ..

= -Il

si

'* j.
..,
Si
Sl2

La matrice des variances et covariances des p variables :

SIl'

S2

S1p

V=

o:

est telle que V

= - Y/Y.
11

La matrice regroupant tous les coefficients de corrlation linaire entre les p variables prises deux deux est note R :

R=

En posant:

On a R

= DI!s VDI/.,'

R est identique la matrice de variance-covariance des donnes centres et rduites. R rsume la structure des dpendances linaires entre les p variables. Comme V, R est une matrice symtrique positive.

130

6_0escription bidimensionnelle et mesures de liaison entre

Vrlr'I:I"'I"'ft;;,)!,~,

II1II Exemple: Les rsultats suivants concernent 6 variables du tableau de donnes au chapitre 17 et donnant pour 18 vhicules des caractristiques techniques.

ugIUfanf@!

La matrice V est calcule avec

Il -

1 en dnominateur:

Matrice de variance et covariance V


PUIS LAR CYL LON 139823.5294 6069.7451 5798.7059 1251.29'11 ,115.1928 388.9118 56.3922 6069.7451 288.9118 488.7353 99.7647 5798.7059 56.3922 99.7647 28.2353 1251.2941 521. 7059 40104.2941 2135.6961 2628.3824 208.8791 127.7353 30.5098 3018.5686 POIDS 40401.2941 2135.6961 2628.3824 521.7059 18757.4412 794.1078

CYL PUIS LON LAR POIDS VITESSE

La matrice R est la suivante: Matrice de corrlation R (Bravais-Pearson)


CYL 1.00000 0.79663 0.70146 0.62976 0.78895 0.66493 PUIS 0.79663 1.00000 0.64136 0.52083 0.76529 0.84438 LON 0.70146 0.64136 1.00000 0.84927 0.86809 0.47593 LAR 0.62976 0.52083 0.84927 .00000 0.71687 0.47295 POIDS 0.78895 0.76529 0.86809 0.71687 1.00000 0.47760

CYL PUIS LON LAR POIDS VITESSE

On constate que toutes les variables sont corrles positivement, avec certains COi~ttlcii~nt:~' trs levs : il existe donc une forte redondance entre les variables, ce qui conduit phnomne dit de multicolinarit (voir chapitre 17). La tlgure suivante, appele matrice de dispersion. est trs utile: elle permet en un graphique de juger des liaisons entre toutes les variables.

.
cylindre


... :.-.

.......
~

,,::

.... :t

:-" :

..... ....
41.

_S

i .. :.

1

il

.1,,'"

a. -.-

41 :

~..
;.

.. .
~

pUissance .""... _

:.. .... .. .,.,.


: 1

"

.1-

.,., :
1 _ .a, . '

.. .

..

. . :. . . .
Il

~ : _ ..... longueur

..
.......

.:-.,..

....

.. .. "," ..... , ",," .. .. eI',;...... ::. . . - :. ..". .... .. . .. ...... -.. ....-. . .. .: ..
........
"

.. _:- .... .. .:' ..


-.
.."

.... .....

.!
largeur

a.

.. 'IF"

" ,p":
.....fJA

. . . . ...

.
1

l'.

poids

..:,. ..."

"

..

. ... ".
II'

" " ,,"'1

'"..

..

..

vilesse

FIGURE

6.4

Matrice de dispersion

n~rr"l:nrl("~n

bidimensionnelle et mesures de liaison entre variables

131

Caractre significatif d'un coefficient de corrlation


En admettant que l'on se trouve dans le cas o l'usage de r est justifi, partir de quelle la liaison est-elle significative? En anticipant sur la thorie des tests on raisonne comme suit: si les Il observations avaient prleves au hasard dans une population o X et Y sont indpendantes (donc o p = 0) quelle seraient les valeurs possibles de r ou plus exactement la distribution de probabilit de la variable R qui correspond cet chantillonnage? Lorsque p

= 0 et que les observations proviennent d'un couple gaussien la distribution de

R est relativement facile obtenir.


On montre que:

r=::::::R=::::::~n

- 2 sUt une loi TII -

Par changement de variable on en dduit alors directement la densit de R si p

=0:

fer)

2) B (1 .- 2' 2
Il -

(l -

1'2)<11- -HI:!

Pour Il = 4, on remarquera que R suit une loi uniforme sur [ -1, 1] et donc que toutes les valeurs possibles sont quiprobables. On a: Pour Il > 100, la loi de R est approxime de trs prs par une loi de Laplace-Gauss:

LG(O;_~)
"'Ill -

Sinon la loi de Rest tabule, Table A.9. Ainsi au risque 5 % on dclarera qu'une liaison est significative sur un chantillon de 30 observations si 1 ri > 0.36. On remarquera que le seuil de signification dcrot quand Il crot; le fait de trouver que r diffre significativement de 0 ne garantit nullement que la liaison soit forte (voir chapitre 16). Lorsque p est diffrent de zro la loi exacte de R bien que connue est trs difficilement exploitable on notera cependant que:
E(R)

P _ p(l
211

p2)

R est biais pour p

VeR) = _(1_---'-_ Tl - 1

132

6_0escription bidimensionnelle et mesures de liaison entre variables

La figure 6.5 donne les distributions d'chanlillonnage de r pour diffrentes valeurs de p~ avec Il = 10. On ne peut pas faire directement une approximation normale. On utilisera plutt Je rsultat suivant conduisant une approximation correcte ds que Il > 25.
3

-1

-0.5

o
FIGURE

0.5

6.5

+ -ln - 2 l-R

1 (1

R)
II-X

LG -ln + ' - 2 I-p'~

(1 1

1)

Z est la transforme de Fisher de R (table A.10). On notera que VeZ) est indpendant de p. Cette transformation permet de tester des valeurs a priori pour p et de trouver des intervalles de confiance pour p partir de R. On peut galement utiliser l'abaque fourni en annexe
(table A 1.9 bis). Lorsque le couple (X, Y) n'est pas gaussien les rsultats prcdents restent utilisables Il > 30), mais le fait de trouver que r n'est pas signiftcativement diffrent de 0 n'entrane pas ncessairement l'indpendance.

condition que n soit grand (en pratique

6.1 .4

Corrlation partielle

Il arrive frquemment que la dpendance apparente entre deux variables soit due en ralit aux variations d'une troisime variable. La littrature statistique abonde en exemple de tllUsses corrlations surprenantes entre phnomnes varis qui disparaissent lorsque l'on fixe une troisime variable (souvent non alatoire comme le temps) ainsi de la corrlation entre le nombre de maladies mentales dclares chaque anne et le nombre de postes de radio installs. Les coefficients de corrlation partielle constituent un moyen d'liminer l'influence d'une' ou plusieurs variables. Ces coefticients peuvent tre introduits de diverses faons en particulier dans le cadre de la rgression multiple (chapitre 17). Nous en donnerons ici deux prsentations, l'une issue: du modle gaussien, r autre gomtrique.

6- Description bidimensonnelie et mesures de liaison entre variables

133

6.1.4.1

Le modle normal p dimensions

Soit un vecteur alatoire (XI_ X2, Xp ) suivant une loi Np (!-L, ~). En appliquant les rsultats du chapitre 4, paragraphe 4.2.4, on sait que la loi du couple XI X~ conditionne par X3 Kt ... Xp est une loi normale deux dimensions. On obtient alors le coefficient de corrlation partiel (ou conditionnel) P 12.3.\ .. _l" partir de la matrice des covariances partielles. Un calcul simple montre qu'en particulier pour p = 3 :

Cette formule se gnralise et permet de calculer de proche en proche les divers coefficients de corrlation partielle :

pour oblenir PXlx~.r1x4 il suffit de remplacer dans la formule prcdente les corrlations simples par les corrlations partielles:

On dfinit alors formellement le coefficient de corrlalion linaire partielle empirique en remplaant p par r.

. 6.1.4.2

Corrlation entre rsidus

Ayant dfini r.t!.\). x, par les formules prcdentes, il est facile de vrifier que ce coefficient mesure la corrlation entre le rsidu de rajustement linaire de XI sur X3 et celui de l'ajustement de X2 sur X3'

Interprtation gomtrique dans

lR'I :

Nous supposerons

Xb X2- X3

centres.

YJ est la projection de Xl sur X].


X est la projection de
XI

sur le plan

X2'

x] (fig. 6.6).

o
FIGURE

6.6

On a alors cose = et cos,!, = plan perpendiculaire .'\:'3'

rXt,r!._,'}

c.p est la projection de l'angle entre XI et Xl sur un

134

6_0escription bidimensionnelle et mesures de liaison entre

v;lrll:> .... I.~,.;',"

Xl

On peut vritier ainsi que r x, .,! d l est le coefficient de corrlation linaire entre la partie non explique linairement par X3 et la partie de X2 non explique linairement par x3 voit que si x] est trs voisin de Xl la corrlation partielle est voisine de 0 car XI presque pas d'information supplmentaire sur XI une fois X3 connu.

6.1.4.3

Signification d'un coefficient de corrlation partielle

Dans le cas gaussien, on dmontre que la loi du coefficient de corrlation partielle est mme que celle d'un coefficient de corrlation simple mais avec un degr de libert rJl"",,-.,.. ;;:, de d, nombre de variables fixes. Donc. ~ ~11
'J 1 1'2

d - 2 sut un T,l _ il

2,

ce qui pennet de tester le caractre

u.c ........ '...... lll:::'./

d'une liaison partielle.


1IIIIIIII Exemple: (voir les donnes compltes au chapitre 17 Rgression multiple) l'chantil1on de 18 automobiles, lam;;lqce de corrlation entre prix, vitesse et puissance est'

Prix Prix Vitesse Puissance

Vitesse 0.58176
1

Puissance

[O.5~176
0.79870

0.79870]
0.84438 1

0.84438

Au seuil 5 % toutes ces corrlations sont significatives (valeur critique 0.468). Cependant, le coefficient de corrlation entre le prix et la vitesse sachant la puissance vaut:

-;================ =
~(l
- (0.79870P)(1 - (0.84438)2)

0.58176 - 0.79870 X 0.84438

3 .287 9

La liaison a chang de signe mais elle n'est plus significative (valeur critique 5 % : 0.482). _

6.2

CORRLATION MULTIPLE ENTRE UNE VARIABLE NUMRIQUE ET P AUTRES VARIABLES NUMRIQUES

6.2.1
Xl,

Dfinition
.

Soit une variable numrique y et un ensemble de p variables galement numriques;

x 2,

xl'.

Le coefficient de corrlation multiple R est alors la valeur maximale prise par le coeff: , cient de corrlation linaire entre y et une combinaison linaire des x j ;

On a donc toujours 0

:$

:$

1.

.... _"_~;,,,,,,,,,.,n bidimensionnelle et mesures de liason entre variables

135

R :::= 1 si il existe une combinaison linaire des x j telle que:

Y = an

2: ajx i
j= 1

6.2.2

Interprtation gomtrique

Rappelons que le coefficient de corrlation est le cosinus de l'angle form dans ~1! par des variables centres. R est donc le cosinus du plus petit angle form par y (centre) el une combinason linaire des Xi centres. Considrons le sous-espace W de !R;II (de dimension au plus gale p les combinaisons linaires des xi et la constante 1.

1) engendr par

R est alors le cosinus de l'angle B form par la variable centre y - yet W, c'est--dire l'angle form par y - y et sa projection orthogonale y* y sur W (fig. 6,7).

w
FIGURE

6.7

6.2.3

Calcul de R

Soit A la matrice de projection orthogonale sur W, alors:

R 2 = (y En particulier si y est centr:

YY

ACy - y)

Ily

yll:!

= s;~ .'1;

En effet Il Ay l' 2 = cos 2BIl Y11 1 et Il Ay 11 2 orthogonal CA = A' et Al = A).

= y' A Ay
1

= y' Ay car A est un projecteur

136

6_Descrpton bidimensionnelle et mesures de liaison entre

v::!rl~I'\II,,~,,:""'"

Si X dsigne la matrce dont les colonnes sont les p variables y est centre:

Xl,

x 2 .. , x/J centres et

o (X'X)- est une inverse gnralise quelconque de (X/X). On peut dmontrer alors la formule reliant corrlation multiple et corrlations des divers ordres:

6.2.4

Signification d'un coefficient de corrlation multiple

Si les 11 observations taient issues d'une population gaussienne o Yest indpendante des Xi alors on dmontre que (voir chapitre 17) :

On retrouve comme cas particulier la loi du coefficient de corrlation linaire simple en faisant p 1.

6.. 3

LIAISON ENTRE VARIABLES ORDINALES: LA CORRLATION DES RANGS

Il arrive souvent de ne disposer que d'un ordre sur un ensemble d'individus et non de valeurs numriques d'une variable mesurable: soit parce qu'on ne dispose que de donnes du type classement (ordre de prfrence, classement A, B, C, D, E), ou bien parce que les valeurs numriques d'une variable n'ont que peu de sens et n'importent que par leur ordre (notes d'une copie de franais: avoir 12 ne signifie pas valoir deux fois plus que celui qui a 6). A chaque individu de 1 Il on associe son rang selon une variable (un rang varie de 1 Il). tudier la liaison entre deux variables revient donc comparer les classements issus de ces deux variables: Objet: Rang n 1 : Rang n 2:
rI
SI

2
1'1
S2
JI

11
l'If Sil

Les ri et Si sont des permutations diffrentes des

premiers entiers.

r:;rIII.DI;SCI"lptlOn

bidimensionnelle et mesures de liaison encre variables

137

le coefficient de Spearman
Le psychologue Charles Speannan a propos en 1904 de calculer le coefficient de corrla-

tion sur les rangs:


rs
cov(r, s)

Le fait que les rangs soient des permutations de [1 ... 1/] simplifie les calculs el r on a en l'absence d'ex aequo:

r=s

Il

+
2

,.
Si l'on pose di = on a:

1 1'.1). _ Il ~I'l

(~):! 'J
_

.\

12
ri - Si diffrence des rangs d'un mme objet selon les deux classements,

'J _
1

12:(r- 1

s)l

., + -12:' + -12:' s~ 'J _ r-:l


1

'). 1

mais:

2:s~ = 1_1(_11_+ _ _+_1_) _ 6

somme des carrs des nombres entiers, d'o:

62:dl
i

(n + 1)6(211 + 1) _ (11 ~_ 1)::: + __________~____------_


1

11(11 1 -

1)

- 1
12

Le deuxime terme vaut 1 aprs calcul et on a la formule pratique:

l'x

= 1-

La dfinition de r" comme coeftjCent de corrlation linaire sur des rangs nous indique que:

r, rs =:; rs =

1 => les deux classements sont identiques

1 => les deux classements sont inverses l'un de l'autre ; 0 => les deux classements sont indpendants.

138

611111i1lDescription bidimensionnelle et mesures de liaison entre variables

Pour savoir si la valeur trouve de r~ est significative, on se reportera la table du coefficient de corrlation de Spearman fournie en annexe{l) La rgion critique sera IRsl > k : si R.I_ > k : il y a concordance des classements; si R~ < - k : il y a discordance des classements. Lorsque les observations proviennent d'un couple normal (X, Y) de corrlation p et que l'on calcule r.1 la place de r on montre que si 11 est trs grand on a les relations approches suivantes:
r
J

6 . = -Arc sm 1T 2

(p)

ou

= 2 sin

(if r,)
'T

6.3.2
6.3.2.1

Le coefficient de corrlation des rangs


Aspect thorique

de M. G. Kendall

Afin de savoir si deux variables alatoires X et Y varient dans le mme sens ou en sens contraire on peut considrer le signe du produit (X, - X2 )(YI Y2 ) o (Xl' YI) (X:,!! Y2 ) sont deux ralisations indpendantes du couple (X, Y). Si P(X, - X 2 )(Y1 Y2) > 0) > 1/2 il Y a plus de chances d'observer une variation dans le mme sens que dans le sens inverse. On dfinit alors le coefficient thorique,. par :

Ce coefficient est donc compris entre -1 et dantes (mais pas seulement dans ce cas ... ).

+ 1 et s'annule lorsque X et Y sont indpen-

Si (X, Y) est un couple gaussien de coefficient de corrlation p on montre que:


T

? = - Arc sin p
1T

On remarquera que Notons enfin que:

::5 p. ,. = p n'est vrai que pour p = 0 et p

1,

o Pc et Pd sont respectivement les probabilits de concordance et de discordance.

6.3.2.2

Calcul sur un chantillon

En s'inspirant des considrations prcdentes: On considre tous les couples d'individus. On note 1 si deux individus i et} sont dans le mme ordre pour les deux variables: Xi < xj et Yi < yj_

21ii1111Cette table est obtenue en utilisant le fait que dans le cas d'indpendance. les n! permutations d'un classement sont quiprobables.

6_Description bidimensionnelle et mesures de liaison entre variables

139

On nole - 1 si les deux classements discordent Xi < On somme les valeurs obtenues pour les

Xj

et )'i > -'j.

n(H - 1) 2 couples distincts, soit S cette somme ;

on a:
Smax = -Smin

l1(n - 1) 2

Le coefficient 'T est alors dfini par:

'T

= - -2S- 1 1l(1l -

1)

On constate que :
-7=
T

l classements identiques; = - 1 classements inverss.

Pour savoir si la valeur constate est significative on se rfre la situation thorique d'indpendance dans la population. On peut alors obtenir la distribution de 'T par des arguments combinatoires mais celle-ci peut tre approche par une loi de Laplace-Gauss :

'T -

LG ( 0;

~2(2n +
9u(1l -

5))
1)

L'approximation est trs bonne ds que Il 2:: 8, ce qui est un avantage pratique sur le coefficient de Spearman, si l'on ne dispose pas de tables de ce dernier. Mthode de calcul rapide: on ordonne les Xi de 1 Il ; on compte pour chaque Xi le nombre de Jj > Yi parmi ceux pour lesquels j > i. On somme; soit R cette somme:

S
j

2R 4R
lI(n -

l1(n - 1)

2
1)

_ Exemple : 10 chantillons de cidre ont t classs par ordre de prfrence par deux
gastronomes :
Xi

2.

3 4
4

10
7

\" .1

2 6

5 9 8

10

Le coefficient de Spearman :

rs

6'Ldr
n(u 2
-

1)

vaut

rs

0.84

140

6. Description bidimensionnelle et mesures de liaison entre variables

Le coefticient de Kendall s'obtient par:


R

7 + 8 + 6 + 6 + 4 + 4 + 1 + 1 = 37
45

S = 74 d'o
1" :::::

= 29
au seuil 5 % bilatral sont:
T

0.64.
T

Les valeurs critiques de r.r et de


rr = : 0.648

et

= : 1.96

-'J 9OX9

_IsO

0.49

Les deux valeurs de deux classements.

et de rs laissent donc apparatre une liaison significative entre les _

A part le cas o les variables sont ordinales, les coefficients de corrlation des rangs sont trs utiles pour tester l'indpendance de deux variables non normales lorsque r chantillon est petit: on sait en effet qu'on ne peut appliquer alors le test du coefficient de corrlation linaire. Les tests de corrlation des rangs sont alors les seuls applicables, car ils ne dpendent pas de la distribution sous-jacente. Ils sont robustes car insensibles des valeurs aberrantes. Les coefficients de corrlation de rangs sont en fait des coefficients de dpendance monotone car ils sont invariants pour toute transfonnation monotone croissante des variables. Les coeftcients de corrlation de rang permettent de tester l'existence d'une relation mono tone entre deux variables. Ainsi le nuage de points suivant o y = ln(x) donne un coefficient de corrlation linaire r = 0.85 mais des coefficients de Spearrnan et de Kendall gaux 1.

4
3

Y
2

20

40
X

60

80

100

FIGURE

6.8

Lorsque les coefficients de corrlation de rang sont nettement suprieurs au coefficient de corrlation linaire, des transformations monotones non linaires sur certaines variables peuvent se rvler utiles.

6_Description bidimensionnelle ec mesures de liaison entre variables

141

6.3.3

Coefficients de Daniels et de Guttman

Les trois coefficients de corrlation (Pearson, Speannan, Kendall) peuvent tre prsents comme 3 cas particuliers d'une mme fonnule, dite formule de Daniels. On considre pour toute paire d'individus i,j deux indices ai} et bi} le premier associ la variable X. le deuxime associ la variable Y (par exemple ai} = Xi - X) et on dtnit le coefficient suivant:

qui varie entre - l et En prenant aij =

+ 1 d'aprs l'ingalit de Schwarz.


Xj

Xi -

et bi} = Yi - Yj on trouve le coefficient r de Bravais-Pearson

(2.:2:(x; - x)"2 = 211"2S~ par un calcul vident).


En prenant aij = 1) et bi) Si - Sj o les r et les s sont les rangs de classement selon X et Yon obtient le coefficient de Speannan. En prenant:
aij

l', -

signe de

(Xi -

Xj)

bi}

de (Yi - )'i)

on obtient le coefficient,. de Kendall. Mentionnons enfin le coefficient de monotonicit de GuUman :

qui ne rentre pas dans la catgorie des coefficients de Daniels mais qui possde des proprits intressantes.

6.3.4
Soient

le coefficient W de Kendall de concordance de p classements


11

individus (ou objets) t classs selon p critres (tableau 6.1) :


TABLEAU

6.1
Tl

Critres

~
1
2

l
rll
1'12

2
r:?'1
1'22
1"21'

l'Ill

J'Ill

P Total

rl p
r J.

l'up

r 2.

r ll

l'.,

142

61111i1Descripdon bidimensionnelle et mesures de liaison entre variables

Chaque ligne du tableau est une permutation des entiers de 1 n. La somme des termes d une ligne etant
, . _ n(1l

1)

' on a r .. = p

1l(1l

1)

ri, 1'2' . ,

Si les p classements taient identiques (concordance parfaite) les totaux de colonnes fil. seraent gaux, une pelmutation prs, p. 2p, 3p, . , " np ; en effet, tous les termes d'une mme colonne seraient identiques. Pour tudier la concordance entre ces classements on utilise la statistique:

s=

,,{...I

11 ~ ( r,.

qui mesure la dispersion des totaux de colonnes par rapport leur moyenne. On vrifie sans peine que S est maximal s'il y a concordance parfaite et que:
(n 3 -

11)

12

Le coefficient de concordance de Kendall est:

W=---p1 (,,3 - Il)


On a donc 0
~

12S

1.

Le cas limite W = 0 s'obtient si tous les totaux de colonnes sont identiques, une faible valeur de W indiquant l'indpendance entre les classements. On notera que la discordance parfaite entre p classements ne peut exister: il ne peut y avoir discordance parfaite entre plus de deux classements. Le coefficient West reli aux coefficients de corrlation des rangs de Spearman entre les classements pris deux deux par la formule suivante:

r.1

=---

- 1

o rs est la moyenne arithmtique des C~ coefficients de corrlation de Spearman entre classements,

Test de l'hypothse Ho d'indpendance mutuelle des p classements:


Pour les faibles valeurs de p et Il, la distribution de Wa pu tre calcule sous l'hypothse Ho en considrant les (n!)P permutations quiprobables des p lignes du tableau. On rejette Ho si West trop grand et on se reporte la table fournie en annexe pour les valeurs critiques de S Cl 0.05. Pour
Il ~

15 et pour p
1)

< 7,
1-

(1' - 1)W

1- W

est distribu sous Ho. comme une variable

F(" -

~ ; (p -

(11 -

~)).
1) West distribu comme un x~ -1'

Pour p ;:::.: 7 on admet que p(n

6_Description bidimensionnelle et mesures de liaison entre variables

143

Si l'on rejette l'hypothse Ho d'indpendance des p classements, quel classement final attribuer aux 11 objets? On admet en gnral la procdure suivante qui est de classer les objets selon l'ordre dfini par la somme des colonnes ; cette procdure possde la proprit de maximiser la somme des coefficients de corrlation de Spearman entre le nouveau classement et les p classements initiaux(l). Cas des ex aequo: pour calculer S, on remplace le rang des ex aequo dans un mme classement par la moyenne arithmtique des rangs qu'ils auraient obtenus si il n'y avait pas eu d'ex aequo (ceci conserve la somme des lignes). La valeur de
Smax.

tant alors modifie, on remplace W par :

w= ------------------fi
p2(n 3 - 11) - p

12S

2: (t} -

tj)

J=l

o lJ est le nombre d'ex aequo du /mc classement.

6.4

LIAISON ENTRE UNE VARIABLE NUMRIQUE ET UNE VARIABLE QUALITATIVE

6.4.1

Le rapport de corrlation thorique (rappel)

La mesure, ici non symtrique, de la liaison est le rapport de corrlation TJrjzr dfini par :
v [E(Y/zr)] VeY)

'1

TJ'/.'r

En effet on peut app1iquer 1')2 lorsque la variable &r n' est pas quantitative mais qualitative k modalits (voir chapitre 3).

6.4.2

le rapport de corrlation empirique

Si zr a k. catgories on notera n" Il:!, .. , 11" les effectifs observs et Yb Y:2' ... , YI; les moyennes de Y pour chaque catgorie (il est indispensable qu'au moins un des ni soit suprieurs 1) et y la moyenne totale.

J. F. Marcotorchino et Rl"lichaud.

3aO'autres procdures bases sur la rgle de la majorit de Condorcet sont possibles (voir l'ouvrage de 1979): recherche de l'ordre maximsant la somme des coefficients de Kendall.

144

6_Descrption bidimensionnelle et mesures de liaison entre variables

Si l'on note e:'l'quivalent empirique de Tl 2 on a :

e-=------

/1

e:'

= 0 si YI = Y2 = ... = Yk d'o absence de dpendance en moyenne. e2 = 1 si tous les individus d'une catgorie de fi(' ont mme valeur de Yet ceci pour chaque
s~ ,
-

catgorie car :

=-

.4.!1.d.

~ n(v- - 1')2

+ - "" Ilif ~II


Il
j'"

1l i= 1

o les
a)
b)

sl sont les variances de Y l'intrieur de chaque catgorie:


-

1l

2: Il (Yi i

y)2 est appele variance intercatgories.


,

~ 2:n js1 est appele variance intracatgories.


Il

On remarquera que si l'on attribue chaque catgorie i de te une valeur numrique gale Yi ce qui revient transformer f!(' en une variable numrique X k valeurs, e'l est infrieualors gal r'l(y; X) et que toute autre quantification conduit une valeur de re (voir plus loin).

,.2

Lorsqu'il n'y a que deux classes de moyennes

YI

et Y2

e- = - - - - - -

Pour dterminer partir de quelle valeur e2 est significatif on compare la variance inter la variance intra : on montrera plus tard au chapitre 16 que si Tl 2 = 0 alors:

Ce rsultat suppose que les distributions conditionnelles de Y pour chaque catgorie de X sont gaussiennes avec mme esprance el mme cart-type. On remarque que le nombre de classes intervient dans les degrs de libert de ]a loi de Fsher-Snedecor : on ne peut donc comparer les rapports de corrlation entre Y et deux variables qualitatives ayant des nombres diffrents de catgories. Lorsqu'aucune confusion n'est craindre, l'usage est de noter Tl 2 le carr du rapport de corrlation empirique, c'est ce que nous ferons dsormais.

6_Description bidimensionnelle et mesures de liaison entre variables

145

Reprenons l'exemple du 5.3.2.2 sur les variations du taux de taxe d'habitation Y selon la zone gographique X : le rapport de corrlation est tel que:
11 2(y/X)

0.56 et correspond F = 20.05

6.4.3

Interprtation gomtrique et lien avec le coefficient de corrlation multiple

Associons la variable qualitative g{' fi k modalits les k variables numriques suivantes indicatrices des modalits:

telles que: ni = 1 si l'individu i est dans la catgorie j de = 0 sinon.

Soit alors X le tableau de donnes Il lignes et k colonnes correspondant aux indicatrices de ge:

o o
X=

0 0 0

Le total des lments de la colonne j de X vaut Tlj' Un simple calcul permet alors de vrifier que:
yIX(X'X)-IX'y y'y

Yt

si y

est centre.

"~'/:r est alors le cosinus carr de l'angle form par le vecteur y centr et le sous-espace W de dimension k de IH. engendr par les variables indicatrices.
II

Le rapport de corrlation de Y en 2t s'identifie donc au coefficient de corrlation multiple avec les indicatrices de gr:

146

6_Description bidimensionnelle et mesures de liaison entre variabl

Dfinir une combinaison linaire des indicatrices Saj j revient attribuer chaqu catgorie j une valeur numrique (/j. donc rendre gr numrique ce qui implique que:

6 .. 5

LIAISON ENTRE DeUX VARIABLES QUALITATIVES

6.5.1

Tableau de contingence, marges et profils

Soit f!f et ay deux- variables qualitatives r et s catgories respectivement dcrivant un ensemble de Il individus. On prsente usuellement les donnes sous la forme d'un tableau crois appel tableau de contingence r lignes et s colonnes renfermant les effectifs Ill) d'individus tels que Xi et OY = )'j (vor tableau 6.2) :

TABLEAU

6.2

ay
YI

)':!

........ " .....


,

..

...

'O

.........

Ys
ilL!
1l2~

f!f
XI
X2

/111

1112 1122

Ill.

11::!.!

1'2.

Xi

nij

Ili.

.\r Il r l
lin
ll.j

Url
11.2

llr.

n.1

Il ...

Avec des notations standard on a

/li.

"Il" et
.t:.J
j
IJ

11 'J.

'Lnij'
i

Les ni. et les n.j s'appellent respectivement marges en lignes et marges en colonnes. La constitution d'un tel tableau est l'opration que les praticens des enqutes appellent un tri crois . Deux lectures diffrentes d'un mme tableau de contingence sont possibles selon que l'on privilgie l'une ou l'autre des deux variables: lecture en ligne ou lecture en colonnes. On appelle tableau des profils-lignes le tableau des frequences conditIOnnelles /l ..
J

IlU

11 i.

(la somme de chaque ligne est ramene 100 %) et tableau des profils-colonnes le tableau des frquences conditionnelles -2.. (le total de chaque colonne est alors ramen 100 %).
n.j

t;... DI::!SClrlpl:IOn bidimensionnelle et mesures de liaison entre variables

147

Exemple: Le tableau 6.3 provient de l'enqute sur les vacances des Franais en 1999, par ('INSEE en mai 2002.
On appelle vacances tout dplacement comportant au moins 4 nuites conscutives dehors du domicile, effectu pour des motifs autres que professionnels, tudes ou Un voyage peut comporter un ou plusieurs sjours (4 nuits conscutives au mme En 1999 prs d'un franais sur quatre n'tait pas parti en vacances, le tableau de continne concerne donc que ceux qui sont partis. L'unit statistique est ici le sjour, dcrit par deux variables qualitatives : la catgorie I:nc:O-DnJtessI IOflll1elle de la personne de rfrence du mnage en 8 modalits et le mode ':.l'l..;;h.,,,rlT,,,Tr\pnl en 9 modalits. La taille de l'chantillon est 18 352.

TABLEAU

6.3
Rscc

Tableau de contingence
Rppn Rspa Tente Caravane

Hotel Agriculteurs Artisans, commerants, chefs d'entreprise Cadres et professions intellectuelles suprieures Professions intermdiaires Employs Ouvriers Retraits Autres inactifs

Location

A.T
9

VilIageV

41

47

13

59

17

26

19

110

260

71

299

120

42

64

35

29

685 485 190 224754 31

775 639 352 591 393

450

1242 1250 813 11041158

706 398 t63 181 213 42

139 189 91 227 15 33

122 273 161


306

100 68

130
193
72

C92
67
147

49
7447
6

114
115

692 2

195
5

34

225

14

On dduit du tableau 6.3 les deux tableaux de profils suivants (6.4 et 6.5) qui permettent deux types de lecture: le tableau des profils-lignes permet de comparer les modes d' hbergement des diffrentes catgories socio-professionnelles (o vont les cadres 1 etc.) tandis que le tableau des profils-colonnes permet de savoir qui frquente tel mode (qui sont les clients des htels 1).

148

6_Description bidimensionnelle et mesures de liaison entre variables

TABLEAU

6.4

Tableau des profils-lignes


Rppa Rspa Tente Caravane
0.017

Botel Location Rscc Agrcul leurs Artisans, commerants, chefs d'entreprise Cadres cl professions intellectuelles suprieures
0.174 0.200

AJ
0.038

Village V Total
0.081 1

0.055 0.251 0.072 0.111

"Ci

0.193

0.228

0.062 0.262 0.105

0.037

0.056

0.031

0.025

." ..

1":"

0.158

0.178

0.103 0.286 0.162 0.032

0.028

0.023

0.030

"1

Professions intermdiaires 0.128 Employs Ouvriers Retraits


0.097 0.073 0.209

0.169 0.180 0.193 0.109 0.087

0.077 0.330 0.105 0.034 OA15 0.083

0.050 0.047

0.072 0.082 0.100 0.054 0.013

0.018 0.025 0.024 0.013 0.015

0.051 0.037 0.037 0.032 0.()36

1
1"'"

1
l

0.048 0.392 0.059 0.074 0.192 0.321 0.062 0.007 0.005 0.574 0.107 OJ)84

1
1
::.

Autres inactifs 0.079

TABLEAU

6.5

Tableau des profils colonnes


Rppa Rspa
0.009

".":
"

...

Hotel Agriculteurs Artisans, commerants, chefs d'entreprise Cadres et professions intellectuelles suprieures
0.016

Location
0.015

Rsec

Tente
0.034

Caravane
0.004

A,J
0.023

VillageV
0.028

0.007 0.009

0.084

0.084

0.041

0.048

0.065

0.054

0.057

0.090

0.042

0.260

0.251

0.260 0.199

0.38'2

0.180

0.108

0.258

0.190

ProCessions intermdiaires 0.184 Employs Ouvriers Retraits Autres inactifs Total


0.072 0.085 0.287 0.012 1

0.207 0.114 0.191 0.127 0.011 1

0.168 0.200 0.039 0.130 0.085 0.399 0.001 1 0.193 0.185 0.036 1

0.215 0.088 0.098 0.121 0.023 1

0.245 0.119 0.294 0.032 0.043 1

0.242 0.142 0.271 0.173 0.004 1

0.175 0.126 0.191 0.121 0.015


1

0.281 0.105 0.166 0.168 0.020 1

6111\1Description bidimensionnelle et mesures de liaison entre variables

149

On remarquera que la moyenne des protils-lignes (avec des poids correspondant aux effectifs marginaux des lignes) n'est autre que le profil marginal des colonnes:

~ Il,, (Il.' ) L.J.-.JL -!:..


i='llli. Il

=-.:l
Jl

Il,

et que l'on a de mme :

~ Il '.' (11 ,) L.J.......!.L -.:l.


}= 1 Il.}

Il. ' =--.!..: Il

11

6.5.2

l'cart l'indpendance

Lorsque tous les profils-lignes sont identiques on peut parIer d'indpendance entre 21;" et UJJ puisque la connaissance de ft' ne change pas les distributions conditionnelles de UJJ. Il s'ensuit d'ailleurs que tous les profilswcolonnes sont galement identiques.
Il

On doit donc avoir


Il J.

n 1.

... = --2 'V;, ce qui entrane Il i. Il r. .


= ~.
Il
Il,

17

par sommation des

numrateurs et dnominateurs. L'indpendance empirique se traduit donc par !li}

n '

6.5.2.1

Le X2 d'cart l'indpendance et les autres mesures associes

On adopte gnralement la mesure suivante de liaison plus loin) :


Il" (
1)

(p. note aussi Xl ou

X1 (voir

11 i. Il.}):!
Il Il

dl -

2: 2: - - - }

ni. Il.}

On voit que d 2 est nul dans le cas de l'indpendance. Quelle est sa borne suprieure et dans quel cas est-elle atteinte? Il faut pour cela utiliser le rsultat suivant obtenu par dveloppement du carr :

Comme : -.!.l.
n.}

11 ' ,

:::::;

1 on a :

D'o:

" " L.J L.J


i

1li,Tl.}

' " Il 1) L.J .. s _ L.J Il.} :::::; ' " ' " - - ' " i L.J L.J ni} _ .L.J-- - " - _ i j Tl.) j n.} j=lll.j

150

6_ Description bidimensionnelle et mesures de liaison entre variables

D'o d 2 :s; n(s - 1). On pourrait montrer de mme que d 2 :s; n(r - 1). On a donc: "dl':! :s; inf (s - 1 ; r - 1)
1

La borne tant atteinte dans le cas de la dpendance fonctionnelle. En effet

dl

= n(s

Il,,

1) si -!l.
n ;.

l 'Vi, c'est--dire s'il n'existe qu'une case non nulle dans chaque ligne.

Ce cas est celui o JJ est fonctionnellement li fi:: ce qui n'implique pas que fJ: soit li fonctionnellement JJ comme on le voit sur la figure 6.9.

FIGURE

6.9

Le cas de la dpendance fonctionnelle rciproque ncessite r = s : aprs permutation des lignes ou des colonnes le tableau de contingence peut alors se mettre sous forme diagonale. Divers coefficients lis au d 2 ont t proposs pour obtenir une mesure comprise entre 0 (indpendance) et 1 (liaison fonctionnelle). Citons: le coefficient de contingence de K. Pearson ( - - - " 11 + dle coefticient de Tschuprow (
Il

d2

)1/:2

= C;

d'
(1' - 1)(s - 1)
ct- 1); (r

) 1/1.

=T;

le coefficient de Cramer

(Il inf. (s

1))1/2

cP / Il est usuellement not ",2. Pour l'exemple des vacances prsent plus haut on a :
d 2 = 1989
T = 0.12

c = 0.31
V
.

0.12
.

La constructIOn du tableau des tableau des


llij

Il i Il .
_._.J

(tableau d'mdependance) et sa comparaIson avec le

Il

est en gnral instructive: en particulier le calcul pour chaque case du terme:


(Il ij
-

Il i.

n):!
dl

ni. J1.j
Tl

6_Description bidimensionnelle et mesures de liaison entre variables

151

appel contribution au Xl permet de mettre en vidence les associations significatives entre


C

atoories des deux variables. Le signe de la diffrence


o

Il" Il "

Il

i)" -

-,._.]

Il

indique alors s'il y a

association positive ou ngative entre les catgories i de fi? etj de

qy.

Un tel calcul devrait tre systmatiquement associ chaque calcul de X::'.. On re marq ue que les marges des tableaux (Il ij) et (" i ;;,.

j) tant le s mme s par con s truc-

tian il suffit de calculer (r - 1)(s - 1) (le degr de libert) termes du tableau d'indpendance et de dduire les autres par diffrence. Le tableau 6.6 donne pour chaque case l'effectif thorique et le X"2 correspondant. Comme

il y a 72 cases, le X:! moyen par case est de 27.6 : on a mis en gris les cases o le X2 dpasse 60 : ce sont les cases o il existe une sur- ou une sous-reprsentation importante par rapport une rpartition au hasard .
TABLEAU

6.6
Rspa 23.46 1.78 Tente 9.8 26.77 Caravane 14.33 7.45 AJ 4.92 3.38 VillageV 8.7 12.2

Hotel 33.35 1.75

Location 39.2 1.55

Rscc 21.99 3.67

Rppa 79.25 5.18

Agriculteurs Artisans, commerants, chefs d'entreprise Cadres et professions intellectuelles suprieures

161.79 20.95

190.14 25.66

10.67 11.93

384.47 19

113.8 0.34

47.55 0.65

69.51 0.44

23.87 5.19

42.2 4.13

617.2 7.45

725.8 3.39 631.64 0.09 326.75 1.95 511.72 Il.28 600.79 71.86 65.38 15.06

406.93 1466.72 434.15 181.4 34,43 170.22 4.56 9.91 354.34 1177.18 378.05 157.96 10.97 0.58 1.05 6.10 183.3 73.79 660.68 35.12 195.56 5.42 81.71 1.3

265.18 77.31 230.91 7.67 119.45 14.45 187.07 75.6 219.63 2.76 23.9 14.95

91.05 0.88 79.29 1.61 41.02 1.55 64.23 1,48 75.41 10.71 8.21 0.59

160.99 5.96 140.18 19.9 75.52 0.00 113.57 0.00 133.34 2.52 14.51 0.02

Professions 537.44 intermdiaires 5.12 278.01 27.86 435.4[02.64 511.18 U5.34 55.63 10.91

Employs

Ouvriers

287.07 1034.7 306.7 127.97 17.70 51.24 76.63 68.34 337.03 1214.79 359.68 150.25 373.86 2.65 51.88 104.41 36.68 32.79 132.2 65.14 39.13 0.21 16.35 16.95

Retraits

Autres inactifs

L'analyse des correspondances tudie plus loin permet une reprsentation graphique des carts l'indpendance: on y retrouvera ces phnomnes.

152

6_Description bidimensionnelle et mesures de liaison entre variables

6.5.2.2

Cos des tableaux 2 x 2

Si et 6JJ n'ont que deux modalits chacune le tableau de contingence (tableau 6.7) n'a alors que 4 cases d'effectifs abcd.

gr

TABLEAU

6.7

JJ
f!t

1
2

a
c

b d

([2 peut alors s'exprimer par la formule:

d-

.,

=----------------------(a + b)(c + d)(a + c)(b + d)

l1(ad - bcf

Si l'on calcule le coefficient de corrlation linaire entre f!t: et CY en attribuant des valeurs arbitraires leurs catgories (par exemple 1 et 2 mais toutes les quantifications sont ici quivalentes) on montre que q.:>2 = r 2 Remarquons que dans le cas des variables dichotomiques la non corrlation entrane l'indpendance.

6.5.2.3

Caractre significatif de I:lcart l'indpendance

A partir de quelle valeur peut-on considrer que la Haison est significative? En anticipant sur la thorie des tests expose au chapitre l4 voici la dmarche: si les n observations raient prleves dans une population o .il' et q?J sont indpendantes (Pij = Pi. p) quelles seraient les valeurs probables de cJ2 ? En s'appuyant sur les rsultats du chapitre 4 paragraphe 4.4, on montre qu'alors dl est une ralisation d'une variable alatoire D2 suivant approximativement une loi Xfr-l)Lf~ 1) ; en effet les IlU - ~ sont lis par (1' - l)(s - 1) relations linaires puisque les marges sont
11

n n .

communes aux deux tableaux (ou encore en d'autres termes puisqu'on estime les Pi. par-.!:.. et les P.j par n. j ).
Il

Il

Il

Il suffit alors de se tixer un risque d'erreur a, c'est--dire une valeur qui, s'il y avait indpendance, n'aurait qu'une probabilit faible d'tre dpasse (on prend usuellement a=5%oul%).
On rejettera donc l'hypothse d'indpendance si d:! est suprieur 1a valeur critique qu'une variable xfr- 11(.\"-1) a une probabilit a de dpasser.

6aaDescription bidimensionnelle et mesures de liaison entre variables

153

trs leve :

Ainsi sur l'exemple: le degr de libert du X2 est (9 - 1)(8 d:! 1989.

1)

= 56. La valeur de dl est

La valeur critique 1 % d'un X6 est 83.5. On doit donc rejeter l'hypothse d'indpendance entre catgorie professionnelle et mode d' hbergement. pour les tableaux 2 X 2 o le degr de libert vaut 1 on recommande gnralement d'effectuer la correction de Yates :

d =
2

Il

[ lad -

bel -

'Il]:! 2

(a

+ b)(a + c)(b + d)(c + cl)

L'esprance d'un X2 tant gale son degr de libert on voit que d"!. est d'autant plus grand que le nombre de catgories des deux variables est lev. On ne peut donc comparer ~,-",-des (P correspondant des tableaux de tailles diffrentes pour une mme valeur de Il : un d 2 de 4 pour un tableau 2 X 4 ne rvle pas une dpendance plus forte qu'un dl de 2.7 pour un tableau 2 X 2 bien au contraire: afin de comparer ce qui est comparable el de s'affranchir du problme des degrs de libert il vaut mieux utiliser comme indice de liaison la probabilit p(X2 < d 2). On trouve ainsi:

P(XT < 2.7)

0.9

et

P(XJ

<

4) = 0.75

6.5.2.4

Autres mesures de dpendance

Les indices drivs du Xl sont loin d'tre les seules mesures de dpendance utilisables, elles ont d'ailleurs t souvent critiques. La littrature statistique abonde en la matire et le problme est d'ailleurs celui du trop grand nombre d'indices proposs. On se reportera utilement aux ouvrages de Goodman et Kruskal et de Marcotorchino (1979). Signalons toutefois pour son intrt thorique le G 2 ou khi-deux de vraisemblance:

qui sous l'hypothse d'indpendance suit une loi

X[r-Il(J-Il'

6.5.3

Un indice non symtrique de dpendance: le Tb de Goodman et Krusl<al

154

6eDescription bidimensionnelle et mesures de liaison entre variables

Cet indice rsulte du raisonnement suivant: si l'on ignore


11

la probabilit (estime)

qu'une observation appartienne la catgorie j de cy est -.:.1 : en affectant alatoirement cette observation selon les probabilits -.:.1 on a alors une proportion estime de classements
Il

11

11 .)l corrects gale L: (~ . Il


j

11

Si l'on connat la catgorie ide 2tTaffectation se fait alors selon les frquences conditionnelles ......!.l d'o une proportion estl me de classements corrects gale
ni.
11 nIl 2: 2: ......!.l-.!1.

11;. Il

Le 7' de Goodman el Kruskal mesure donc le taux de dcroissance du pourcentage de prdictions incorrectes. On a par dfinition 0 ::s lu liaison fonctionnelle.
Tll ::S

l avec

'TIJ

= 0 duns le cas de l'indpendance et 'Th =

1 pour

En introduisant les tableauX de variables indieatrices XI et Xl associes aux deux variables ft et t1JJ on trouve:
7=

Trace (X':! A? Xl) Trace V 22

o A? est le projecteur sur l'espace des combinaisons linaires de moyenne nulle des indicatrices de XI' n'est autre que le coefficient de redondance R 2 (X1, : chapitre 8).
'T

Xd

de Stewart et Love (voir

6.5.4

Le kappa de Cohen

Ce coefficient est destin mesurer l'accord entre deux variables qualitatives ayant les mmes modalits dans le contexte suivant: Il units statistiques sont rparties selon p catgories par deux observateurs. Si les deux observateurs concordent parfaitement, le tableau de contingence doit tre diagonal: seuls les effectifs nii sont non-nuls. Lu proportion d'accords observs est Po

1 fi - 2:l1ii'
lli=1

Si les deux variables taient indpendantes la probabilit d'tre dans l'une quelconque des
p

fi

cases diagonales serait 2:Pi.P.i que l'on estime par Pc = --:; Llli.n.; appel pourcentage d'accords alatoires. i= 1 n- 1 Le coefficient kappa s'crit alors:

I{=

Po - Pc 1 - Pc

1
1-

Il

"1111 L.J 1. .1 ;-=1

kappa est compris entre -1 et

+ 1 (accord

maximal).

.'analyse en composantes
principales

Dans la plupart des applications on observe non pas une variable par individu, mais un .J1o.!l::Ipre p souvent lev. L'tude spare de chacune de ces variables et celles des couples selon les techniques exposes prcdemment est une phase indispensable dans le processus de dpouillement des donnes mais tout fait insuffisante. Il faut donc analyser les donnes en tenant compte de leur caractre multidimensionnel; l'analyse en composantes principales est alors une mthode particulirement puissante pour explorer la structure de telles donnes. C'est galemenlla ({ mre de la plupart des mthodes descriptives multidimensionnelles.

7.1

TABLEAUX DE DONNES, RSUMS NUMRIQUES ET ESPACES ASSOCIS

7. 1. 1 Les donnes et leurs caractristiques


7.1.1.1 Le tableau des donnes

Les observations de p variables sur 11 individus sont rassembles en un tableau rectangulare X n lignes et p colonnes:
2 2

... P

xl 1

x{ est la valeur prise par la variable nO j sur le i n1c individu.

156

7L'analyse en composantes principales

Dans une optique purement descriptive on identifiera une variable la colonne de X correspondante: une variable n'est rien d'autre que la liste des Il valeurs qu'elle prend Sur les 11 individus:
.~

,-1f

On identitiera de mme l'individu i au vecteur ei p composantes:

e; = (x} ... xD
7.1.1.2
Il

Poids et centre de gravit

Si les donnes ont t recueillies la suite d'un tiragealeaioire probabilits gales, les individus ont tous mme importance, 1/11, dans le calcul des caractristiques de l'chantillon. Tl n'en est pas toujours ainsi et il est utile pour certaines applications de travailler avec des poids Pi ventuellement diffrents d'un individu l'autre (chantillons redresss; donnes regroupes ... ). Ces poids, qui sont des nombres positifs de somme 1 comparables des frquences, sont regroups dans une matrice diagonale D de taille JZ :

o
D=

o
Dans le cas le plus usuel de poids gaux, D =

Pli

~ I. 12

Le vecteur g des moyennes arithmtiques de chaque variable g' = (Xl; dfinit le point moyen, ou centre de gravit du nuage. Le tableau Y tel que

x2 ; ; xP)

On a g = X'DI o l dsigne le vecteur de IR!! dont toutes les composantes sont gales 1.

yi = xi -

:xj est le tableau centr associ X.

On a Y = X - 19' = (1 - Il ' D)X.

7.1.1.3

Matrice de variance-covariance et matrice de corrlation


J

La formule tablie au chapitre prcdent avec des poids gaux suit:

/Il se gnralise comme

Iv = X'DX -

gg' = Y'Dyl

7_ L'analyse en composantes princpales

157

On a galement:

X'DX =

LPje,e;
i=l

/1

Cette dernire formule est utile pour les calculs numriques car elle ne suppose pas la mise en mmoire du tableau X mais seulement la lecture successive des donnes. Si l'on note
D]h

la matrice diagonale des inverses des carts-types:

l/sl
Dllx

Ils"

et DlIsl la matrice diagonale des inverses des variances. le tableau des donnes centres et rduites Z tel que :

est donc:

YD 1/s

La matrice regroupant tous les coefficients de corrlation linaire entre les p variables prises deux deux est note R :

R=

Rappelons que R

= D l/sVD 1/.\' = Z'DZ.

R est la matrice de variance-covariance des donnes centres et rduites et rsume la structure des dpendances linaires entre les p variables prise 2 2.

7.1.1.4

Donnes actives et supplmentaires

Le tableau X ne reprsente souvent qu'une partie de l'information disponible, et cela pour diverses raisons: on ne s'intresse qu'aux liaisons entre cerlaines variables, les variables qualitatives sont par nature exclues de l'analyse etc. Les variables disponibles se partagent donc en deux ensembles: les variables actives qui serviront au calcul des axes principaux et les variables supplmentaires, appeles galement variables illustratives qui seront relies a posteriori aux rsultats de l'Aep. On peut galement n'utiliser qu'une partie des individus, soit pour valider les rsultats, soit parce que certains n'auront leur donnes disponibles qu'ultrieurement, ou parce que

158

7al'analyse en composantes principales

leurs donnes sont suspectes. Mettre des individus en supplmentaire revient leur attribuer un poids nul.

Variables actives

Variables supplmentaires

P1

P2
Individus actifs

s
Pn
0 0

Individus supplmentaires

'0

Matrice des poids

7.1.2

I!espace des individus

Chaque individu tant un point dfini par p coordonnes est considr comme un lment d'un espace vectoriel F appel l'espace des individus. L'ensemble des Il individus est alors un nuage de points dans F et g en est le centre de gravit.

e espace F est muni d'une structure euclidienne atin de pouvoir dfinir des distances entre individus.
7.1.2.1
Le rle de la mtrique

Comment mesurer la distance entre deux individus? Cette question primordiale doit tre rsolue avant toute tude statistique car les rsultats obtenus en dpendent dans une large mesure. En physique, la distance entre deux points de l'espace se calcule facilement par la formule de Pythagore : le carr de la distance est la somme des carrs des diffrences des coordonnes, car les dimensions sont de mme nature: ce sont des longueurs que l'on mesure avec la mme unit :
d 2 = (x1 - x~):!

(xi - x:!

+ ...

II n'en est pas de mme en statistique o chaque dimension correspond un caractre qui s'exprime avec son unit particulire : comment calculer la distance entre deux individus dcrits par les trois caractres: ge, salare, nombre d'enfants? La formule de Pythagore est alors aussi arbitraire qu'une autre. Si l'on veut donner des importances diffrentes chaque caractre, pourquoi ne pas prendre une formule du type:
d
2

lll(xl -

xlf + ll2(XY

- x~f

+ ... + ap(x'i -

x~f
a)

ce qui revent multiplier par ~ chaque caractre (on prendra bien sr des

positifs).

7_ L 'analyse en composantes principales

159

De plus, la l'onnule de Pythagore n'est valable que si les axes sont perpendiculaires, ce que l'on conoit aisment dans l'espace physique. Mais en statistique ce n'est que par pure convention que l'on reprsente les caractres par des axes perpendiculaires: on aurait pu tout aussi bien prendre des axes obliques. On utilisera donc la formulation gnrale suivante: la distance entre deux individus est dfinie par la fonne quadratique:
Ci

et Cj

o IVI est une matrice symtrique de taille [J dfinie positive. L'espace des individus est donc muni du produit scalaire: (Ci; Cj ) = e'; IVIcj En thorie, le choix de la matrice 1\11 dpend de l'utilisateur qui seul peut prciser la mtrique adquate. En pratique les mtriques usuelles en Analyse en Composantes ... Pril1 cipales (ACP) sont en nombre rduit: part la mtrique M = 1 qui revient utiliser le produit scalaire usuel~ la mtrique la plus utilise (et qui est souvent l'option par dfaut des logiciels) est la mtrique diagonale des inverses des variances:

1/ST
l/s~
1\11 = Dlh~

I/s~

ce qui revient diviser chaque caractre par son cart-type: entre autres avantages, la distance entre deux individus ne dpend plus des units de mesure puisque les nombres x{jSj sont sans dimension, ce qui est trs utile lorsque les variables ne s'expriment pas avec les mmes units. Surtout, cette mtrique donne chaque caractre la mme importance quelle que soit sa dispersion; l'utilisation de 1\11 = 1 conduirait privilgier les variables les plus disperses, pour lesquelles les diffrences entre individus sont les plus fortes, et ngliger les diffrences entre les autres variables. La mtrique D 1/s2 rtablit alors l'quilibre entre les variables en donnant toutes la variance 1. Nous avons vu qu'utliser une mtrique diagonale:

160

7. L'analyse en composantes principales

revient multiplier les caractres par ~ et utiliser ensuite la mtrique usuelle lVI Ce rsultat se gnralise une mtrique l\tl quelconque de la manire suivante: On sait que toute matrice symtrique positive M peut s'crire l\tI scalaire entre deux individus uvec la mtrique M peut donc s'crire:

= I.

= T'T.

Le produt

(e 1 ; e2) = c; l\tIc:! = el T'Te:!

= (Tc:!)' Tc 1
c'est~-dire

Tout se passe donc comme si l'on utilisait la mtrique 1 sur des donnes transformes, sur le tableau XT ' .

7.1.2.2
On appelle inertie totale du nuage de points la moyenne pondre des carrs des distances des points au centre de gravit:
Il

19 = ~Pi(ei - g)'M(c i
i"'l

g)

= ~Pi Ile; i

gl/2

L'inertie en un point a quelconque est dfinie par :

lu
On
li

= ~Pi(ei
i

- a)'l\tl(c i

a)

la relation de Huyghens:

Il

Si g = 0:

19 = ~Pie~IVIci
i=1

Par ailleurs, on dmontre aisment que l'inertie totale vrifie la relation:


/1
/1

Il

/1

21g

= ~ ~PiPj(ej
""I J;; 1

- c)/IVI(e;

e)

= ~ ~PiPjllCi i=lj-- 1
Il

eJ2

soit la moyenne des carrs de toutes les distances entre les L'inertie totale est la trace de la matrice MV (ou VM) :

individus.

/lg

= Trace MV = Trace VIVI 1

En effet, Pie;Mei tant un scalaire, grce la commutativit sous la trace:

= Trace IVDCDX

= Trace MV

si IVI = 1 l'inertie est gale lu somme des variances des p variables; si l\tl = Dlh' : Trace MV Trace (D,!s~V) = Trace (D'I.\,VD'/J, ce qui est gal Trace R = p. L'inerte est donc gale au nombre de variables et ne dpend pas de leurs valeurs. .

7_L'analyse en composantes principales

161

7.1.3

L'espace des variables

Chaque variable xi est en fait une liste de 11 valeurs numriques: on la considre comme un vecteur xi d'un espace E 11 dimensions appel espace des variables.

7.1.3.1

La mtrique des poids

Pour tudier la proximit des variables entre elles il faut munir cet espace d'une mtrique, c'est--dire trouver une matrice d'ordre Il dfinie positive symtrique. Ici il n'y a pas d'hsitation comme pour l'espace des individus et le choix se porte sur la matrice diagonale Il des poids D pour les raisons suivantes: Le produit scalare de deux variables xi et Xl;; qui vaul x'iDxk = LPiXfx{ n'est autre '" 1 que la covariance Sj/;; si les deux variables sont centres. La norme d'une variable Il xilln est alors IIxillfi = sJ ; en d'autres termes la longueur d'une variable est gale son cart-type. L'angle 6jl, entre deux variables centres est donn par:

(Xi; xl.:)

IIxill Il xl.: Il
Le cosnus de l'angle entre deux variables centres n'est autre que leur coefficient de corrlation linaire (chapitre 6). Si dans l'espace des indvidus on s'intresse aux dstances entre poinls, dans l'espace des variables on s'intressera plutt aux angles en raison de la proprit prcdente.

7.1.3.2

Variables engendres par un tableau de donnes

A une variable xi on peut associer un axe de l'espace des individus F et un vecteur de l'espace des variables E. On peut galement dduire de Xl, Xl, ... , xl' de nouvelles variables par combinaison linaire, ce qui revient projeter les individus sur de nouveaux axes de F. Considrons un axe il de l'espace des individus engendr par un vecteur unitaire a (c'est--dire de M-norme 1) et projetons les individus sur cet axe (projection lVI-orthogonale) (fig. 7.1).

:y: ei
1 1 1 1 1 1

FIGURE

7.1

162

711111111L'analyse en composantes

pru,cl~tale!~;@~i

La HSle des coordonnes Ci des individus sur il forme une nouvelle variable ou composante, c. Comme Ci a'Me j eilVIa (a; e;)1\1 on a:

fi

c=

XMa = Xu = 22xi uj
/=1

en posant u = Ma.
A la variable c sont donc associs trois tres mathmatiques: un axe il de F de vecteur unitaire a ; un vecteur c de E espace des variables; une forme linaire u appele facteur.

C ensemblds variablesCH'qTOripf rigridrrparcOfribsOri linaire des vecteurs-colonnes de X forme un sous-espace vectoriel de E de dimension gale (ou infrieure) p.
Remarquons que si a appartient l'espace des individus F, u appartient son dual F*, et que si a est M-norm l, u est M-I norm 1 :

F* est donc muni de la mtrique lVI- I .


(Lorsque M facteurs).

= 1 ces

distinctions disparaissent et on peut identifier totalement axes et

La variance de c vaut alors:


[ V(c)

s~

u'Vu [ u'X'DXu

En effet:

c'De

(Xu)'D(Xu)

7.2 7.2.1

l'ANALYSE Projection des individus sur un sous-espace

Le principe de la mthode est d'obtenr une reprsentation approche du nuage des JI individus dans un sous-espace de dimension faible. Ceci s'effectue par projection ainsi que l'lIustre la figure 7.2. Le chox de l'espace de projection s'effectue selon le critre suivant qui revient dformer le moins possible les distances en projection: le sous-espace de dimension k recherch est tel que la moyenne des carrs des distances entre projections soit la plus grande possible. (En effet, en projection les distances ne peuvent que diminuer). En d'autres termes il faut que l'inertie du nuage projet sur le sous-espace soit maximale.

7S1L'analyse en composantes principales

163

FIGURE

7.2

____ SoitP l'oprateur de projection M-orthogonale sur Fk : P est ter que p2

Pet P'M

MP.

Le nuage projet est alors associ au tableau de donnes XP', car chaque individu el (ou ligne de X) se projette sur Fk selon un vecteur colonne Pei ou un vecteur ligne eiP' (fig. 7.3).

FIGURE

7.3

La matrice de variance du tableau XP' est pour des variables centres: (XP')'D(XP') = PVP' L'inertie du nuage projet vaut donc: Trace (PVP'lVI). Par des oprations lmentaires on en dduit: Trace (PVP'lVI)

= Trace (PVMP)
= Trace (VMp:!) = Trace (VlVIP)

car P'lVl

= MP

car Trace AB = Trace BA car P est idempotent

Le problme est donc de trouver P, projecteur M-orthogonal de rang k maximisant Trace (VMP) ce qui dterminera donc Fk'

164

711111111L'analyse en composantes principales-

Si F et G sont deux sous-espaces orthogonaux alors:

Il suffit de remarquer que le projecteur associ la somme directe de deux sous-espaces lVI-orthogonaux est la somme des projecteurs associs chacun des espaces.
De ce rsultat on dduit le thorme fondamental suivant:
THORME

Soit F/.; lm ,'Wlls~espace portant l'inertie maxmale, alors le sous-espace de dimension k + 1 portallt l'inertie Inaximale est la somme directe de FI.; el du SOlls-espace de dimenson 1 lVI-orthogonal li Fk portant l'inertie maximale: Les solutions sOlIt emboUes .
_ Dmonstration : Soit El;: +1 un sous-espace de dimension k
Comme dlm E/.; + 1 = k

1:

1 et dim Ft

= 11

k, on a :
~ 1
12

dim (EHl car; dimEk+1

n Ft)

+ dimFl = Il + 1 >

Soit b un vecteur appartenant EH!

n Ft.

Posons EJ;;+1 = b EB G o G est le supplmentaire lVI-orthogonal de b dans EHI . G est FI; EB b. donc de dimension k et F
On a:
l/';+l

lF

+ IG = Ir'l + ft,
=
lb

Comme FI; tait le sous-espace de dimension k portant l'inertie maximale IG S ln, donc IH\ S lh + IFk' c'est--dire lHI S lF et ceci quel que soit Ek+]' Le maximum de l'inertie est donc ralis pour l'espace F lb soit maximal.

= b EB

F/.; et b doit tre tel que :

Pour obtenir FI; on pourra donc procder de proche en proche en cherchant d'abord le sous- : espace de dimension 1 d'inertie maximale, puis le sous-espace de dimension l lVI-orthogonal. l1li au prcdent d'inertie maxima1e, etc.

7.2.2
7.2.2.1

lments principaux
Axes principaux

Nous devons chercher la droite de [Rp passant par g maximisant l'inertie du nuage projet sur cette droite,

7. L'analyse en composantes principales

165

Soit a un vecteur port par cette droite; le projecteur M-orthogonal sur la droite est alors: P

= a(a'Ma)-'a'IVI

L'inertie du nuage projet sur cette droite vaut, d'aprs ce qui prcde: Trace VIVIP

= Trace VMa(a'lVla)-la'M

= -a'Ma

Trace VMaa'M

= ------

Trace a'MVlVIa aiMa

a'MVMa a'IVIa

puisque a'MVMa est un scalaire. La matrice MVIVI est appele matrice d'inertie du nuage ~ elle dfinit la forme quadratique d'inertie qui, toul vecteur a de M-norme 1, associe l'inertie projete sur l'axe dfini par a. La matrice d'inertie ne se confond avec la matrice de variance-covariance que """"siM = 1. =: . . . , 1 er a envee de cette expresslOn Pour 0 b temr 1e maXImum d e a'LVIVLVIa' l su f'llIt d' annu 1 1 d'" a Ma par rapport a :

~ (a'lVIVMa )
da a'Ma

(a'Ma)2IVIVMa - (a'lVIVIVIa)2Ma (a'Mar! aIMVMa) LVla a'IVla

d'o:

MVlVla = (

soit :

VIVla

= al

car ]\il est rgulire ~ donc a est vecteur propre de VM. S'il en est ainsi, le critre a'MVMa vaut a'Ma . Il faut donc que soit la plus grande valeur propre de VIVI. La matrice VM tant M-symtrique possde des vecteurs propres M-orthogonaux deux deux. D'o le rsultat suivant:
THORME

Le sous-espace FI. de dimension k est engendr par les k l'ecteufS propres de VIVI associs aux k plus grandes valeurs propres.

On appelle axes principaux d'inertie les vecteurs propres de VIVI, l\1-norms 1. Ils sont au nombre de p. Un calcul lmentaire montre que les axes principaux sont aussi V- I orthogonaux: on montre rciproquement que les axes principaux sont le seul systme de vecteurs la fois J\l1 et V-I-orthogonaux.

166

7.2.2.2

Facteurs principaux

(fi: ~~~~ a est associe la forme linaire u coordonne lVI-orthogonale sur l'axe dfini par a:~

[:~;~

\1

FIGURE

7.4

u est un lment de (~I')* (dual de l'espace des individus) qui dfinit une combinaison"'linaire des variables descriptives XI' X2, .. , xI"

A l'axe principal a lVI-norm 1 est associ le facteur principal u = 1\IIa.


Puisque a tait vecleur-propre de VM : VMa soit:

"'-a ~ 1\IIVlVIa

"'-Ma

1MVu

"'-ul

Les facteurs principaux sont les vecteurs propres M-1-norms de MV. En effet, on a vu que si [R;/' est muni de la mtrique M, son dual doit tre muni de la mtrique M-t, Donc U'M-lU = L Les facteurs principaux sont M- 1 et V-orthogonaux.

7.2.2.3

Composantes principales
Cj

Ce sont les variables

(lments de [R;II) dtinies par les facteurs principaux:

Ci est le vecteur renfermant les coordonnes des projections M-orthogonales des individus sur l'axe dfini par ai avec ai unitaire.

La variance d'une composante principale est gale la valeur propre

. :

En effet V(c) = c'Dc

= u'X'DXu =

U'VU or :

donc:

7_L'analyse en composantes principales

167

Les Cj sont les combinaisons linaires de . j la contramte U 'M-I Uj = 1.


En effet MVu

X'I XlI' "'

xp de variance maximale sous


:

Les composantes principales sont elles-mmes vecteurs propres d'une matrice de taille Il

= -u s'crit lVlX'DXu
1

-u ; en multipliant gauche par X et en remplaant

Xu par C on a:
XMX'Dc = -c
1

La matrice XMX' note West la matrice dont le terme gnral

wij

est le produit scalaire

(ei ;e)

e~Mej'

D'o pour rsumer : Facteurs principaux u Axes principaux a Composantes principales c lVIVu = -u VlVIa = -a M-I-orthonorms lVI-orthonormes D-orthogonales

= Xu

XMX'Dc u = Ma

-c

En pratique on calcule les u par diagonaIisation de lVIV, puis on obtient les c axes principaux an' ayant pas d'intrt pratique.

= Xu, les

1.2.2.4

Formules de reconsttuton

Comme XUj = cj en post-multipliant les deux membres par uiM-' et en sommant sur j il vient:

XLUjujM- '
j

= 2:cj ajlVlj

Or

ujujM-1

= 1 car les Uj sont M- 1 orthonorms, il suffit de vrifier que:

donc:

X = LcjujM- 1
j=1

"

On peut ainsi reconstituer le tableau de donnes (centr) au moyen des composantes principales et facteurs principaux. On a galement: MV = VM

" 2: -jujujM-!
j=l

2: -jajajM
j=1

168

7al'analyse en composantes principales

Lorsque IVI

= l, X =

2: cjuj
j=e
J

(J

2: 1i:;z v; o les
j

fl

Zj

sont les vecteurs propres de norme 1 de

j= 1

XXI el les vj les vecteurs propres de XIX de norme) (dcomposition en valeurs singulires),
Si l! on se contente de la somme des k premiers temles on obtient alors la meiHeure approximation de X pur une matrice de rang li. au sens des moindres carrs (thorme d'Eckart-Young).

7.2.3

Cas usuel. La mtrique 01/s2 ou l'ACP sur donnes centres-rduites

Le choix de la mtrique IVI est toujours dlicat: seul l'utilisateur peut dfinr correctement la notion de distance entre individus. Prendre IVI 1 revient travailler sur la matrice V des variances-covariances, il n' y a pas alors de distinction. entre axes principaux eL facteurs principaux. Cependant, les resultats J obtenus ne sont pas invariants si l'on change linairement l'unit de mesure des variables. Les covariances sont multiplies par un facteur k, la variance par un facteur ,,-2 si l'on choisit une unit de mesure li. fois plus petite pour une variable. Le choix de lVl = DlIs~ est le plus communment fait, et a pour consquence de rendre les distances enrre individus invariantes par transformation linaire spare de chaque variable et de s'affranchir des units de mesure ce qui est particulirement intressant lorsque les variables sont htrognes. On sait que l'usage de cette mtrique est quivalent la rduction des variables (division par l'cart-type). En pratique on travaillera donc sur le tableau centr-rduit Z associ X et on utilisera la mtrique M I. Comme la matrice de variance-covariance des donnes centres et rduites est la matrice de corrlation R, les facteurs principaux seront donc les vecteurs propres successifs de R rangs selon l'ordre dcroissant des valeurs propres. Ru ku avec Il u 11 2 1. La premire composante principale c (et les autres sous la contrainte d'orthogonalit) est la combinaison linaire des variables centres et rduites ayant une variance maximale

Zu.
On a de plus la proprit suivante lorsqu'on travaille sur donnes centres et rduites :

PROPRIT

c est la variable la plus lie aux x j au sens de la somme des carrs des corrlations:
1)

:2>:!(c; xi) est maximal

f='
Cette proprit pennet de gnraliser l'ACP il d'autres mthodes et d'autres type de variables en remplaant le coefficient de corrlation par un indice adapt (principe d'associaton maximale, voir plus loin),

7_L'analyse en composantes principales

169

.. Dmonstration: Supposons les variables centres:


r 2(c ; xi)

= r:l( c ; zi) o zi =
,

xi est la variable centre-rduite associe xi : si

r-(c;zl)

[cov(c ; zi)f
V(c) V(Zl)

= --V(c)

[c'Dzif

fi

or:

Lzi(zi)1 = ZZI
j=l

donc:

r; . c'DZZ1Dc L r-( c ; Xl) = --,-j=l

e De

le maximum de ce quotient est donc atteint pour e vecteur propre de ZZ'D associ sa plus grande valeur propre : ZZ'Dc c

on en dduit que c est combinaison linaire des zi donc que c ZZIDZu = Zu Comme ZIDZ

= Zu ;

= R, il

vient ZRu

Zu et si Z est de rang p . Ru = U.

Pour rsumer: l'ACP revient remplacer les variables x l, x 2, .. , XI' qui sont corrles, par de nouvelles variables, les composantes principales Cl, c2 , . combinaisons linaires des xi non corrles entre elles, de variance maximale et les plus lies en un certain sens aux xi : l' ACP est une mthode factorielle linaire.

7.3

INTERPRTATION DES RSULTATS

L'ACP construt de nouvelles variables, artificielles et fournit des reprsentations graphiques permettant de visualiser les relations entre variables ainsi que l'existence ventuelle de groupes d'individus el de groupes de variables. L'interprtation des rsultats est une phase dlicate qui dOt se faire en respectant une dmarche dont les lments sont les suivants.

7.3.1

Qualit des reprsentations sur les plans principaux

Le but de r ACP tant d'obtenir une reprsentation des individus dans un espace de dimension plus faible que p, la question se pose d'apprcier la perte d'infomlation subie et de savoir combien de facteurs retenir.

170

7mL'analyse en c.omposantes principales

7.3.1.1

Le pourcentage d'inerte

Le critre habituellement utilis est celui du pourcentage d'inertie totale explique. On mesure la qualit de FI.: par:

Si par exemple

+
Ig

'l

0.9 on conoit clairement que le nuage de points est presque

aplati sur un sous~espace deux dimensions et qu'une reprsentation du nuage dans le plan des deux premiers axes principaux sera trs satisfaisante. L'apprciation du pourcentage d'inertie doit faire intervenir le nombre de variables initiales: un % de 10 % n'a pas le mme intrt sur un tableau de 20 variables et sur un tableau de 100 variables.

7.3.1.2

Mesures locales

Le pourcentage d'inertie explique est un critre global qui doit tre complt par d'autres considrations. Supposons que le plan des deux premiers axes porte une inertie totale importante ( 1 + :!, lev) et que en projection sur ce plan deux individus soient trs proches: la figure 7.5 montre que cette proximit peut tre illusoire si les deux individus se trouvent loigns dans

el

g/::;:<1:I,
1 1 1

FIGURE

7.5

n faut en fait envisager pour chaque individu ei la qualit de sa reprsentation. Celle-ci est souvent dfinie par le cosinus de l'angle entre le plan principal et le vecteur ej Si ce cosinus est grand, e i est voisin du plan, on pourra alors examiner la position de sa projection sur le plan par rapport d'autres points; si ce cosinus est faible on se gardera de toute conclusion.
N.B. : Cette mesure du cosinus est d'autant meilleure que ei est loign de g ; si ei est proche de g, la valeur du cosinus peut ne pas tre significative.

7_L'analyse en composantes principales

171

Bien que moins utilise, une mesure lie la distance entre ei et Ft.. semble prfrable: en particulier la quantit:
d(e fi) -;================ (signe de ci
i ;

'+1

qui compare la distance entre e i et FI; la moyenne des carrs des distances de tous les individus Fk prsente un intrt statistique certain (on peut la comparer une variable de Laplace-Gauss centre-rduite).

7.3.1.3

A propos de la reprsentation simultane des individus et des variables en ACP

Certains logiciels prvoient la possibilit de superposer la reprsentation des individus (plan principal) et celle des variables (cercle des corrlations) avec ventuellement des chelles diffrentes.
Il convient d'tre trs prudent: en effet individus et variables sont des lments d'espaces diffrents: si une variable dfinit une direction de l'espace des individus elle ne peut tre rsume un point et on ne peut interprter une proximit entre points-variables et points-individus.

Les deux reprsentations individus et variables se compltent mas ne peuvent tre superposes, sauf en utllisant la technique particu lire du "biploe' (voir Gower et Hand, 1996).

7.3.2

Choix de la dimension

Le principal intrt de l'ACP consistant rduire la dimension de l'espace des individus le choix du nombre d'axes retenir est un point essentiel qui n'a pas de solution rigoureuse. Remarquons tout d; abord que la rduction de dimension n'est possible que s'il Y a redondance entre les variables Xl, x 2, . , xP : si celles-ci sont indpendantes, ce qui est un rsultat fort intressant en soi, l'ACP sera ineftcace rduire la dimension.

7.3.2.1

Critres thoriques

Ceux-ci consistent dterminer si les valeurs propres sont significativement diffrentes entre elles partir d'un certain rang: si la rponse est ngative on conserve les premires valeurs propres. On fait pour cela l'hypothse que les Tl individus proviennent d'un tirage alatoire dans une population gaussienne o k+ 1 = k+::! .. = Jl' Si cela est vrai la moyenne arithmtique a des k - p dernires valeurs propres et leur moyenne gomtrique 9 doivent tre peu diffrentes; on admet que:

+ 11 ) (p 6

- k) ln

(a) 9
k - 1)

. ., 'd 1 ' SUIt alors une 1 . du x- de degre e rh erte (p - k + 2)(p 01 2 thse d'galit des k

; on rejettera J'hypo-

p valeurs propres si c est trop grand.

172

7_L'analyse en composantes principales

On peut galement construire des intervalles de contiance pour les diffrentes valeurs propres en utilisant les formules de T. W. Anderson si Il est grand: si i est la iimc valeur propre de l'ACP, l'intervalle de confiance 95 % est donn par:

(voir chapitre 13) Ces proprits ne sont malheureusement utilisables que pour des matrices de variance dans le cas gaussien p-dmensionnel. Elles ne s'appliquent pas pour les matrices de corrlation ce qui est le cas le plus frquent en pratique; et ne doivent tre utilises qu' titre indicatif.

7.3.2.2

Critres empiriques

Ce sont en ralit les seuls applicables, le. critre de Kaiser est le plus connu: Lorsqu'on travaille sur donnes centres rduites on retient les composantes principales correspondant il des valeurs propres suprieures 1 : en effet les composantes principales seules les compoc tant des combinaisons linaires des zi de variance maximale V(c) santes de variance suprieure il celle des variables initiales prsentent un intrt.

.,

Cependant le seuil de ] ne peut tre considr comme absolu: 1.1 est-il signiticativement suprieur 1 ? Dans un travail rcent (Karlis, Saporta, Spinakis, 2003) nous avons montr l'intrt du critre suivant, inspir par une approche de type carte de contrle}) o on considre comme intressantes les valeurs propres qui dpassent leur moyenne (qui vaut ici 1) de plus de deux cart-types. Comme: et que l'esprance du carr du coefficient de corrlation entre deux variables indpendantes vaut Il (Il - 1), on trouve que:

E(f.f) =
1"'(

p + pep _- 1) n l

la dispersion espre des valeurs propres vaut alors:

Nous proposons donc de ne retenir que les valeurs propres telles que:

> 1+

2~P - l 11-1

7l111L'analyse en composantes principales

173

On recommande galement de dtecter sur le diagramme de dcroissance des valeurs propres l'exstence d'un coude (voir figure 7.8) sparant les valeurs propres utiles de celles qui sont peu diffrentes entre elles et n'apportent pas d'information. Il faut noter ici que les critres fOlmels bass sur les diftrences successives entre valeurs propres sont en gnral moins performants que l'inspection visuelle: nous ne les donnerons donc pas. Entin il faut rappeler avec force que les critres du type extraire au moins x % }) de l'inertie souvent prns par des praticiens, sont dnus de fondement et doivent tre bannis. car on ne peut donner de seuil universel sans tenir compte de la taille du tableau. et de la force des corrlations entre variables. Aucun des critres prsents n'est absolu: l'interprtation des rsultats d'une analyse relve aussi du mtier du statisticien.

7.3.3
7.3.3.1

Interprtation {{ interne
Corrlations (( variables - facteurs
)J

La mthode la plus naturelle pour donner une signitication une composante principale c est de la relier aux variables initiales xi en calculant les coefficients de corrlation linaire r(c; xj) et en s'intressant aux plus forts coefficients en valeur absolue. Lorsque l'on choisit la mtrique DI/s~ ce qui revent travailler sur donnes centresrduites et donc chercher les valeurs propres et vecteurs propres de R, le calcul de r( c ~ xj) est particulirement simple: En effet:
r( c ; Xl)

= r( c ; Zl) = - Sc

c'Dzj

comme V(c) =

. :

r(c; Xl) =

c'Dzi
~

or c = Zu o u, facteur principal associ c, est vecteur propre de R associ la valeur propre . :


r(c; Xl) = u'Z'Dz) =

(zj)'DZu
~

(zi)'DZ est la lme ligne de Z'DZ Comme Ru = .u, jl vient:

= R,

donc (zj)'DZu est la lme composante de Ru.

Ces calculs s'effectuent pour chaque composante principale. Pour un couple de compo~ santes principales Cl et c1 par exemp1e on synthtise usuellement les corrlations sur une figure appele cercle des corrlations o chaque variable x j est repre par un point d'abscisse r(c l ~ x';) et d'ordonne r(c 1 ; xi).

174

7111!1i11L'analyse en composantes principales

Ainsi la figure 7.6 montre une premire composante principale trs corrle positivement avec les variables 1, 2 et 3, anticorrle avec les variables 4 et 5 et non corrle avec 6, 7 et 8.

Axe 2

FIGURE

7.6

Par contre la deuxime composante principale oppose la variable nO 8 aux variables 6 et 7. On se gardera d'interprter des proximits entre points variables, si ceux-ci ne sont pas proches de la circonfrence. Dans le cas de la mtrique DlI,\'~ c'est--dire, rappelons-Je, de l'ACP sur donnes centres rduites, le cercle des corrlations n'est pas seulement une reprsentation symbolique commode: c'est la projection de l'ensemble des variables centres-rduites sur le sous-espace engendr par Cl et c2 En effet les zj tant de variance un, sont situes sur la surface de la sphre unit de l'espace des variables (isomorphe ~") (fig. 7.7). Projetons les extrmits des vecteurs zj sur le sous-espace de dimension 2 engendr par Cl et c2 (qui sont orthogonales) les projections tombent l'intrieur du grand cercle intersection de la sphre avec le plan Cl ; c 2. La projection se faisant avec la mtrique D de l'espace des variables, z se projette sur l'axe engendr par Cl en un point d'abscisse cos (zj; Cl) qui n'est autre que le coefticient de corrlation linaire r(x} ; Cl).

""'-----+-...... c 1

FIGURE

7.7

7_L'analyse en composantes principales

175

Le cercle de corrlation est donc, dans l'espace des variables, le pendant exact de la projection des individus sur le premier plan principa1. Comme k rapport:

2: r2(c k ; xi)
j=1

f1

on appelle parfois contribution de la variable j l'axe k le

mais cette quantit ne prsente que peu d'intrt en ACP et n'apporte rien de plus que le coefficient de corrlation.

7.3.3.2

La place et l'importance des individus

Dire que Cl est trs corrle avec une variable xi signifie que les individus ayant une forte .. coordonne positive sur l'axe 1 sont caractriss par une valeur de xi nettement suprieure la moyenne (rappelons que l'origine des axes principaux reprsente le centre de gravit du nuage). Inversement s les individus ne sont pas anonymes, ils aident l'interprtation des axes principaux et des composantes principales: on recherchera par exemple les individus opposs le long d'un axe. Il est trs utile aussi de calculer pour chaque axe la contribution apporte par les divers individus cet axe. Considrons la kiml: composante Ck ~ sot C,d la valeur de cette composante pour le iil1lc individu. On a :
Il

2:Pi di = k i=1
La contributon de J'individu i la composante Cl est dfinie par:

.,
PiC[i

La considration des contributions, quand elles ne sont pas excessives, aide l'interprtation des axes. Normalement, et ceci surtout pour les premires composantes, il n'est pas souhaitable qu'un individu ait une contribution excessive car cela serait un facteur d'instabilit, le fait de retirer cet individu modifiant profondment le rsultat de l'analyse. Si ce cas se produisait il y aurait intrt effectuer ranalyse en liminant cet individu puis en le mettant en lment supplmentaire, s'il ne s'agit pas d'une donne errone (erreur de saisie ... ) qui a t ainsi mise en vidence. Cette remarque est surtout valable lorsque les individus constituent un chantillon et ne prsentent donc pas d'intrt en eux-mmes. Lorsque les poids des individus sont tous gaux 1/11 les contributions n'apportent pas plus d'information que les coordonnes. Lorsque Il est grand, il est souvent possible de considrer que les coordonnes sur une composante principale (du moins pour les premires composantes) qui ont pour moyenne 0 et pour

176

7.L'analyse en composantes principales

variance la valeur propre, sont distribues selon une loi de Laplace-Gauss. Alors
,k

est distribu

1 c~ comme un X2 un degr de libert et la contributon - ~ a une probabilit 0.05 de dpasser


Il ,k

3.84/11. On pourra donc considrer qu'un individu a une contribution significative si elle dpasse 4 fois son poids.

7.3.3.3

Effet (( taille })

Lorsque toutes les variables Xj sont corrles positivement enlre enes, la premire composante principale dfinit un facteur de taille . On sait qu'une matrice symtrique ayant tous ses temles positifs admet un premier vecteur propre dont toutes les composantes sont de mme signe (thorme de Frobenius) : si l'on les choisit positives la premire composante principale est alors corrle positivement avec toutes variablest lesiridividus sont rangs sur l' axe 1 par valeurs croissantes de l'ensemble des variables (en moyenne). Si de plus les corrlations entre variables sont toutes de mme ordre la premire composante principale est proportionnelle la moyenne des variables initiales:
1 l' - 2:xj

P J=I
La deuxime composante principale diftrencie alors des individus de talle }) semblable: on }' appelle facteur de forme )).

7.3.4

Interprtation externe: variables et individus supplmentaires, valeur-test

Les interprtations fondes sur les remarques prcdentes prsentent le dfaut d'tre tautologiques: on explique les rsultats l'aide des donnes qui ont servi les obtenir. On risque de prendre pour une proprit des donnes ce qui pourrait n'tre qu'un artefact d la mthode: il n'est pas tonnant par exemple de trouver de fortes corrlations entre la premire composante principale Cl et certaines variables puisque Cl maximise:

2>2(C ; xJ)
i;1

On n'est donc pas sr d'avoir dcouvert un phnomne significatif. Par contre si l'on trouve une forte corrlation entre une composante principale et une variable qui n'a pas servi l'analyse, le caractre probant de ce phnomne sera bien plus lev. D'o la pratique courante de partager en deux groupes l'ensemble des variables: d'une part les variables ( actives ) qui servent dterminer les axes principaux, d'autre part les variables passives ou supplmentaires que t'on relie a posteriori aux composantes principales. On distinguera le cas des variables numriques supplmentaires de celui des variables qualitatives supplmentaires. Les variables numriques supplmentaires peuvent tre places dans les cercles de corrlation : il sutlit de calculer le coefi.1cient de corrlation entre chaque variable supplmentaire

7_L'analyse en composantes principales

177

y et les composantes principales Cl, c2 ... On peut alors utiliser les rsultats du chapitre prcdent pour dtecter une corrlation significative.
Une variable qualitative supplmentaire correspond la donne d'une partition des n individus en k catgories: on peut faire apparatre par des symboles diffrents les individus de chaque catgorie sur les plans principaux. En gnral on se contente de reprsenter chaque catgorie par son centre de gravit: on peut alors mesurer au moyen du rapport de corrlation la liaison entre une variable qualitative supplmentaire et une composante principale et vrifier son caractre significatif au moyen du F de Fisher-Snedecor (voir chapitre 6). Cependant la pratique la plus efficace consiste calculer ce que l'on appelle la valeurtest associe chaque modalit ou catgorie supplmentaire qui mesure sur chaque axe la diffrence entre ]a moyenne des individus concerns et la moyenne gnrale (nulle par construction puisque les composantes principales sont centres). Plus prcisment il s'agit de la diffrence divse par l'cart-type correspondant au raisonnement suivant (voir chapitre 12 el 20) : si les ll individus de la catgorie i tudie avaient t tirs au hasard avec probabilits gales parmi les Il de l'ensemble tudi, la moyenne cie leurs coordonnes sur

. . . k Il Il l'axe nO' seraIt une vana bl e a l' k eatolre d' esprance nul l e et de vanance - - -- - car l ' e tIrage
ni Il -

est sans remise. La valeur-test associe la coordonne

ail

du centre de gravit est alors:

En se rfrant la loi de Laplace-Gauss, ce qui se justifie si Il est assez grand, on dcidera qu'une modalit occupe une position significativement diffrente de la moyenne raie s en valeur absolue, lu valeur-test dpasse 2 voire 3. On peut galement ne pas faire participer l'analyse une partie des individus (on calcule les corrlations sans eux) ce qui permettra de vrifier sur cet chantillon-test des hypothses formules aprs uneACP sur les individus actifs. Tl est d'ailleurs immdiat de positionner de nouveaux individus sur les axes principaux puisqu'il suffil de calculer des combinaisons linaires de leurs caractristiques.

7.4

EXEMPLE

Les donnes concernent les caractristiques de 18 vhicules (anciens ... ) et figurent dans le tableau 17.1 page 428. Pour l'anulyse en composantes principales, les variables finition (qualitative) et prix ont t mises en lments supplmentaires, il y a donc 6 variables actives.

7.4.1

Valeurs propres

Comme les variables sont exprimes avec des unts diffrentes, on effectue l'ACP sur donnes centres rduites, ce qui conduit il chercher les valeurs et vecteurs propres de la matrice de corrlation R prsente en 6.1.2.3.

178

7 . L'analyse en composantes principales

Les calculs ont t effectus avec le logiciel SPAD version 5.6


DIAGRJ.j'jHE DES NUHERO
VALEUr.

6 ?HEllIERES 'LEUES PHOPRE5

POURCENTAGE

POURCalTj,GE CUNULE

PROPRE 4.4209
0.8561 73.68

0.3731
0.2139

0.0928
6

14.27 6.2:: .57 1. 55


0.72

73.68 87.95 94.17 97.73

99.28
100.00

0.0433

L'application des critres de choix de dimension ( 7.3.2) ne conduirait retenir qu'une seule valeur propre, ce qui moritibiii lurs limites. Nous conserverons deux dimensions"'" reprsentant 88 % de l'inertie. Remarquons que les intervaIJes d'Anderson des valeurs propres suivantes sont tous en dessous de 1.

INTERVALLES A 0.95 NUMEEO


1

BOENE INFERIEURE
1.4488 0.2806 0.1223 0.0701 0.0304

VALEUR PROPRE 4.4209


0.8561 0.3731 0.2139 0.0928

BORNE SUPERIEURE
7.3929 1.4316 0.6239 0.3577 0.1552

2 3 4 5

7.4.2 Interprtation des axes


Le tableau suivant ainsi que le cercle des corrlations montrent un effet taine sur le premier axe qui va donc classer les individus selon leur taille. Le deuxime axe s'interprte aisment comme opposant les vhicules sportifs aux autres.

VARIABLES IDEN - LIBELLE COURT


cyli
1 0.89 0.89 0.89 0.81 0.91 0.75 0.77

CORRELATIONS VARIABLE-FACTEUR
2
-0.11 -0.38 0.38 0.41 0.22 -0.57 -0.09
3
1}

5 -0.05 0.09 -0.22 0.15 0.09 -0.06 0.16

cylinre

Puis - puissance
Long - longueur Larg largeur Poi - pois Vite - vitesse Prix prix

0.22 0.11 -0.04 -0 _37 0.30 -0.30


0.13

-0.37 0.17 0.13 -0.10 o.H 0.03 0.23

7_ L'analyse en composantes principa.les

179

Facteur 2

Reprsentation des variables quantitalives dans le premier plan factoriel

0.8

0.4

largeur longueur

\ 1
poids

ire,
jPUiSSance
-0.8

-{l.a

-(l.4

0.4

0.8

Facteur 1

La prise en compte des variables supplmentaires montre en outre que la premire composante principale est lie la qualit et au prix.

DISTO.

Eini:.ion

F=3 ?=H

Finition~~

7.00
~i

O.':
0.1
0.1

finiticn=l-!

DO

(). 3
O.':

0.02
0.0)

!l.!l7
O. (17

-0.06

-0.06

.LO::'

7.4.3 Plan principal


Le tableau suivant fournit les composantes principales et les indices associs. Les indiet TOYOTfI.-COROLL.'\ qui s'opposent vidus les plus influents sur l'axe 1 sont HENAULT-30 par leur taille et sur l'axe 2 ALF;,SUD-TI-1350 et ALFET'l'A-l. 66 ,vhicules sportifs italiens.

-Jo

00

INDIVIDUS
~

.......

_-~-

.... __ ... -......

CClOP.DONNEES
,

COl-l'I'RIBU'I' lOHS

P.REL
ALFASUD-'l'l-j 350 AUDl-100I.. SHlCA-1307-GLS
Cl'rROEN-GS-CLUB
S~56

DIS'['O
8

-2,14

-1.7'.l

-0.57

-0.20
O.:: i

0.30 -0.15
0.3 fi

5.
3,1

20.7 15.

-1.9

1.1

0.56

0.39

0.04
0.26

0.00
{J.Ol

O.DI
Il. 00

5.56
':J6

6.67
2. .16

1. :'3

-1.
-O.IG

25.ll
l

1.2
0.7
0.0

1.J

0.37

o.
.21
,00
O. li

-1.12
-2,5'/
{} ~ fi]

(J.li7

0, i.7

1.6
8.
D.

3.0
0.3 0.6
.8
! .

8.4
3.1

o.
0.98

D.
00
0"

0.01

0.07 .06
0.17
.03
.O::!
0.01

5.

G.8
1.1 .13

-0.11

-0

.1~

o.
0.63 0.5r.

-0,23
-0.2.6

FIAT-132-1GOOGLS
LANCT.;-BE1'A-1300
PEUGEG'l'-501

S.Su .56
5.%
':). SU

-0.70
o.~o

0.19

3.

10.2
IL 1.1
:>. .

.,

00
?7

1G

0.31,

30
0,68

-0.68

0.4:;
-{J.

0.1

O.:::
.6

11.9

0,08

0.03

0.40
0.01

1-.51

0.93

U.26
.52 0.59
CI

-o. :.D
-0.5J
-0.a5
-0 0.76 30
0.77 -0.5B

::n
.1. 8
~ ~~

O.Jl
0.67
Il. Al)

.SB
O.
tl. 05

O.OJ

lW,UUl'-16-1'L RF.lll\UL'1'-30-TS
TOYOTA-CClHor.Lf",

.64
::1,79

-1.9:'
.41
-].99

O.'Hl
-1. 06
-0.2]

-0.29

5.7

.56
5.5G

0.]7

,1

7.3

.,

10,J
1!l.6

5.1
B ~ Il
I~
k

.07

O.G:;
O.

.29
.46
1. 95
11.11

-o.

20,

o.
23.7
of.6

.-1

1.8
7. ,~

.EHl
f},O\

0.00

j.LPE'I'TA-l. [i6

5. 5.56
5.
. 5G

o ..[il
.0:1
2.9,\ 1.
- 0 . Ci:1

PRINCESS-ISOO-HL
Di\'l'SUN-}()OL W.UIJIlB-JOOO-GL

1.91 0.84
0.56
.49
0 90

-0.02
-0.2.2. 1.24 -0.28
0 63

-o.
0.18
-(J.05 0.07
0 3ll

0.2

D.n 15.0
0.7
23.0 1.2 0.1 9.!1 1.5 [LE!
3 ]

1.7
.0
0.2 O.J
8 5

Il. OD
.02 0.03

.01
.0:;
0.05
0 . 0"
{1.0~

1.3 10.
J.2
0.6

0.53

1
;J Il.!

'J

.0 1.5
':) J.

O.7B
0 . 21

0.14

n.OO (LOD
0 . () '1

1'.1

r:

.45
1. 9G

0,'100.1.0

030.14 0.01 .10


0.0,;

Rf\.J1CHO
1,!';\ZDi\-9::?~'5

a. 3 6
-o.
-D.J'I -0.10

0 . H O . :2 (]

--<
ln
n
(!) ;J

5.56 5.56

O.

0.39
2.29 -2.71

-0.36 -0.10
D.14

.un
-(J.80 0 57

-o.
-0.34
0.38

O.
G.r) 9.2

0.3 0.1
(J.

0.3
1.5

.G
6.'1
."1

0.27.
0.86 0.93

0 19
(J.ao U.OO

O.H 0.02
0.02

OrEL-REi.:RD-I.

[j.OB .n

O.Oi {LOO

L.;DA-nOO

3 -c
Q
Q.J

III

;J r-t

III
III

-c ..,
;u

n '.

:f

if

7111!111L'analyse en composantes principales

181

Le plan principal donne la projection des 18 individus ainsi que les barycentres des modalits de la variable ( Finition ).

Facteur 2 - 1..\.27~~

1.50 RENAULT-16-TL

RANCHO SIMCA-130i-GLS

PEUGEOT-504 PRINCESS1BOQHL

0.75
LADA-1300

AUDI-l00-L

LANCIA-BETA'1300
Finilion""lI.f
0 :

DATSUN200L

o ..................................... l1li. .. _._._ ........ .. ---- .. ;11 ...... .......... ./111 .... .. .......... .. .............. -.............. .
TOYOTACOROLLA

Finition", TB

CITROE~.GS.ClUB

; Finitiofl=B OPEL.ROEI(ORD.L MAZDA.9295 0 TAUNUS-2QOQ-GL

!
!

-0.75

1 FlAT-132-16ooGLS
RENAULT-3D-Tf

-1.50 ALFASUD-TL 1350

: AlFEITA-l.6

-3.0

-1.5

1.5

3.0

Facteur 1 - 73.68%

7.5

ANALYSE FACTORIELLE SUR TABLEAUX DE DISTANCE ET DE DISSIMILARITS

Ces mthodes (multidimensional scaling) ont le mme objectif que l'ACP : trouver une configuration de n individus dans un espace de faible dimension, mais les donnes de dpart , , "1 1. erentes ; ICI on ne connmt que es sont dft'
11(11 -

, '1 ., ' 2 1) d'Istances, ou d'lSSlml antes entre III d'1-

vidus, et non les variables les dcrivant. Le cas o l'on dispose d'une vritable distance euclidienne entre individus n'est qu~une version de l'ACP, le cas de dissimilarits conduit des techniques originales.

7.5.1
7.5.1.1

Analyse d'un tableau de distances euclidiennes


La solution classique
Il

Soit il le tableau

X n des carrs des distances entre points:

et Si d est euclidienne, chaque individu peut tre reprsent dans un espace de dimension p (pour r nstant inconnue) par un point e tel que:

(e j

e)'(e j

e)

On peut en effet toujours supposer M 1 sinon on s'y ramne par la transformation T telle que l\tI = T'T. Si l'on place l'origine au centre de gravit, les produits scalaires wij = (e i ; e) sont alors entirement dtermins par les

d&.

182

7.L'analyse en composantes principales

Supposons Pi = lin du nuage.

V el posons

dT. = llj=IIJ et Cfl ~ d~ .

Il

Il

- ~df. = :lI o / est l'inertie


Tl i=l

On a alors la fonnule de Torgerson :

En effet:

. SOIt w IJ
d'o: car car l'origine est au centre de gravit. On a donc dT. =

1 = -- ( - d":IJ-: + :2

2:Wij = (e
j

i ;

2:e) = 0
j

lIedl:: + 1 et de mme d} =

l!ej

l1 2 + 1 d'o la formule par substitution.


=1Il' - : il y a donc n

1 Matriciellement W = --ALiA oll A est l'oprateur de centrage A 2 double centrage en ligne et en colonnes de Li.

On sait que les vecteurs propres de WD nuage des Il points.

(ici;; w)

sont les composantes principales du

Connaissant uniquement les distances di}, on peut donc calculer les composantes principales, et faire une reprsentation euclidienne de l'ensemble des points dans un espace de dimension fixe, car les composantes principales ne sont autres que des listes de coordonnes sur une base orthogonale. La dimension de l'espace est alors gale au rang de W : on vrifiera que d est euclidienne si "V a toutes ses valeurs propres positives ou nulles. Remarquons que rang W < 11 - 1 car Il points sont dans un espace de dimension 11 - 1 au plus.

7.5.1.2

Une transformation permettant de passer d'une distance non euclidienne une distance euclidienne

Si d n'est pas euclidienne, ce qui se produit quand "V a des valeurs propres ngatives la mthode de la constante additive permet d'en dduire une distance euclidienne. Il existe en effet une constante c 2 , telle que B& = d~ + Cl avec Bii = 0, soit euclidienne. La matrice "VI) associe 0 est alors telle que:

7- L'analyse en composantes principales

183

comme

=1-

- , Wc
Il

Il'

= - - ((Il

c 2A 2

1)1 - IlA)A

= -- ((Il

c2 2

- 1)A - nA)A

= -A

c2 :2

car A2 = A.
Les vecteurs propres associs des valeurs propres non nulles de Wei sont centrs. Comme A est l'oprateur de centrage, ils sont vecteurs propres de Wc avec pour valeur propre c2 /2. Aux vecteurs propres de W d correspondent les vecteurs propres de W fi avec pour valeurs propres . + c 2 /2. Il suffit donc de prendre c2 = 21 .IJ 1o . II est la plus petite valeur propre de W d (ici ngative) pour que 8 soit euclidienne. Remarquons que cette mthode pennet galement de transfonner une dissimilarit (pour laquelle l'ingalit triangulaire n'est pas vrifie) directemenl en une disLance euclidienne mais sans doute au prix d'une dformation importante des donnes. La mthode prcdente (la plus connue) ajoute donc une constante aux carrs des distances. F. Cailliez a rsolu en 1983 le problme consistant il ajouter la plus petite constante

::i:~~:::: :~~:~g~:e(: ~ette c~~~nte)


-1 -4Wv'"d
remplacs par les distances.

:s: :~l::t ~:a:::r:::: ~~::::s:: ~: :::::::::

7.5.2
7.5.2.1

le MDS
Analyse dJun tableau de dissimilarits

Lorsque les dij ne sont pas des distances mais seulement des mesures de proximit o l'infonnation est de nature ordinale, il est souvent prfrable d'utiliser des mthodes semimtriques de positionnement (mu/tidimensional scaling) qui consistent rechercher une configuration de Il points dans un espace euclidien de dimension fixe telle que les distances 8 entre ces points respectent au mieux l'ordre dtini par d : si dij < dkl on cherche avoir 8ij < 8kl pour le maximum de points. Dans l'algoriLhme MDSCAL de 1. B. Kruskal, on cherche minimiser la quantit suivante appele stress: L(8ij - M(dij))2 min
C,.AI
~i.J,,-_ _ _ __

~(8ijf
,j

o M est une application monotone croissante. La mthode est alors la suivante: on part d'une configuration euclidienne obtenue par exemple l'aide de la formule de Torgerson avec constante additive et on cherche alors

184

7.L'analyse en composantes principales

les k'I(dij) tels que '2(oij


.]

M(dij))"!.

soit minimum. Ce problme admet une solution unique

(rgression monotone) et on en dduit une valeur du stress. On modite ensuite la contiguration au moyen de petits dplacements des points selon une mthode de gradient pour diminuer le stress. On repasse ensuite la phase de rgression monotone, etc., jusqu' convergence. Une diffrence fondamentale avec l'analyse d'un tableau de distance euclidienne par ACP est que la dimension de l'espace de reprsentation doit tre fixe r avance et que les solutions ne sont pas embotes : la meilleure reprsentation trois dimensions ne se dduit pas de la meilleure reprsentation deux dimensions en rajoutant un troisime axe. Par ailleurs les distances dans l'analyse de Torgerson sont toujours approximes "par en dessous" car la projection raccourcit les distances. La solution du MDS est dfinie une transformation orthogonale prs (rotation, symtrie, etc.).

7.5.2.2

Analyse de plusieurs tableaux de distances

Pour les mmes Il individus on dispose de q tableaux de distances ou de dissimilarits (par exemple q juges donnent leurs apprciations sur les mmes objets). Le modle INDSCAL dvelopp par J.D. Carroll permet de donner une configuration unique des Il points et d'tudier les diffrences entre juges. On se ramne tout d'abord q matrices de distances euclidiennes par la mthode de la constante additive ~I, ~2, . , /j/l on note d~l la distance entre les objets i et j pour le tableau k. Le modle INDSCAL postule que:
r

(dW)f-#'2 1Jl}k) (x~


1=1

xJf

En d'autres termes il existe une configuration dans un espace r dimensions pour les objets (coordonnes xD, les juges utilisant des mtriques diagonales diffrentes:

MI"

[1Il~).. .11~~k)

c'est--dire pondrant diffremment les dimensions sous-jacentes. Il s'agit donc de trouver une dimension r, les mtriques M(k} et la configuration X approchant le mieux les donnes ~(k). On convertt tout d'abord les tableaux ~(k) en tableaux W(k} de produits scalaires par la formule de Torgerson et on pose:
w~ IJ

=~ >.
f; 1

111 I I } (k) a~ li

+E

111

Si les m et les a sont connus on estime les b par les moindres carrs. Ensuite on estime les en fixant (l et b, puis les a en fixant les 111 et les b, etc. Les proprits de symtrie des tableaux W(k) impliquent que les a et les b sont cohrents ({l~ = b~) et l'algorithme converge. Rien ne prouve cependant que les nd k) obtenus soient positifs mais l'exprience montre qu'il en est ainsi dans la plupart des cas avec r faible.

7_ L'analyse en composantes principales

185

7.6

EXTENSIONS NON LINAIRES

L'ACP est une mthode linaire au sens o les composantes principales sont des combinaisons linaires des variables initiales et aussi parce qu'elle est base sur les coefficients de corrlation linaire. Si les relations entre variables ne sont pas linaires, l' ACP choue en gnral reprsenter correctement les donnes et extraire de nouvelles variables intressantes. On sat en effet que le coefficient de corrlation linaire peut tre faible en prsence de liaisons fortement non linaires (cf chapitre 6). La solution est alors de transformer les variables pralablement l'ACP, afin d'obtenir des corrlations plus lves et se rapprocher de la linarit, ce qui revienl se rapprocher de la normalit (cf chapitre 3 page 84).

7.6.1

Recherche de transformations spares

Il est bien sur possible et souvent recommand d'utlliser des transformations analytiques classiques (logarithme, etc.), mais elles ne sont pas forcment optimales. Cette notion d'optimum doit tre : on cherchera en gnral maximiser le pourcentage d'inertie explique par les q premiers axes. La plupart du temps q = 2, mais Cf 1 correspond des solutions intressantes. Pour une variable donne Xj l'ensemble des transformations (I)i.\.) (au sens de carr intgrable) est bien trop vaste: il est de dimension infinie et conduit des solutions indtermines si 11 est fini, mme en imposant que la variable transforme soit centre-rduite(l). On se restreindra des ensembles de transformations correspondant des espaces vectoriels de dimension tinie. Les transformations polynomiales de degr fix conviendraient mais ont l'inconvnient d'tre trop globales et rigides. On leur prfre des transformations polynomiales par morceaux appeles fonctions splines. Soit x une variable dfinie sur [a, b] et k points intrieurs rgulirement espacs ou non, on appelle spline de degr d k nuds une fonction S(x) qui sur chacun des k + 1 intervalles est un polynme de degr d et est d - 1 fois drivable si cl> l, ou seulement continue si d = 1 (linaire par morceaux). Les splines de degr 2 ou 3 sont souvenl utilises pour leur aspect lisse Les splines permettent d'approcher toute fonction rgulire. Il est facile de montrer que les splines de degr d k nuds forment un espace vectoriel de dimension d + k + 1. Tout d'abord les combinaisons linaires de splines de degr d k nuds sont encore des splines de degr d k nuds. Sur l'intervalle If, le polynme est libre
.

I_Dans le cadre de l'ACP entre variables alatoires (n infini) le prublme admella solution suivante (sans dmonstration) lie l'analyse canonique gnralise de J.o. CaITOII.l.:l premire composante principale c des variables transformes de faon optimale vrifie donc tel que c (c ; <I)J (Xl)). Pour c fix max pL (c ; <Il) (Xi)) est atteint pour (Il/XI)
<Il;

E(C/Xl). c est

avec maximal.

186

7_ L'analyse en composantes principales

FIGURE

7.8

et dpend de d + 1 paramtres, mais sur chacun des k intervalles suivants, les conditions de raccordement (continuit et drivabilit d - 1 fois) ne laissent plus qu'un paramtre libre, d'o le rsultat. Puisque l'ensemble destransformatioIlsspljne est u,!espace vectoriel, on peut exprimer toute fonction S(x) comme une combinaison linaire de d + k + 1 lment~' d'une base, ce qui revient dans un tableau de donnes X remplacer chaque colonne-variable par d + k + 1 colonnes. On utilisera pour sa simplicit une base permettant des calculs rapides: les B-splines. En voici deux exemples en supposant que a = 0 et b = l avec des nuds rgulirement espacs. Les splines de degr 0 qui correspondent des transformations constantes par morceaux (fonctions en escalier) :

BiX) = 1 s~x E Ij { Blt) = 0 smon


La variable .r est alors remplace par un tableau disjonctif.

o ...........................I-------i-------------i

i - - - - - -............................... ---~--------~

t-~~____..I
1

..........................

12
FIGURE

13

14

7.9

Les splines de degr 1 correspondent des transfolmations continues. linaires par morceaux. la figure 7.10 donne les cinq fonctions de base associes trois nuds.

7111 L'analyse en composantes principales

187

{ Bl\) Bl(x) { Bl(x)

BI(.~): 1 ~ (k

l)xslx

I(

0 SlOon

o~ o
o
o

B"')(X) = (k

1)x si x

E II
XE

2 - (k

l)x si

11

/ '~ /
.~

0 sinon

Bj+I(X) = ~k Bj+J(x) {

l)x
(k

(j - 1) six

J + 1

I)x si

XE Jj + 1

Bj+l(x) = 0 sinon

/ '~
11

Bk+1(X) = (k ~ I)x - k si XE 1"+1 { Bk+2(X) = 0 smon

12

13

/1
14

FIGURE

7.10

Les splines de degr 1

Nous ne donnerons pas les formules pour les degrs suprieurs, car de nombreux logiciels les intgrent. tant donn un point x seules d + l fonctions de base sont non nulles et de somme gale 1 (codage ~< flou). La recherche de la transformation de chaque variable ou combinaison linaire des B-splines. maximisant l'inertie du premier axe de l'ACP s'obtient en effectuant simplement l' ACP du tableau augment 11 lignes et p(d + k + 1) colonnes. La maximisation de la somme des inerties sur q axes requiert un algorithme plus complexe que nous ne dtaillerons pas ici. Les tranformations splines ne sont pas monotones: on peut aisment y remdier si l'on veut des transformations bijectives. Les B-splines tant positives leurs primitives sont alors des fonctions splines croissantes de degr augment d'une unit (I-splines) ; on effectuera alors des combinaisons linaires coefficients positifs (cf la. Ramsay, 1988).

7.6.2

La l<ernel ..ACP

Cette mthode rcente (B. Sch61kopf et al., 1996) consiste chercher non plus des transformations spares de chaque variable mais transformer tout le vecteur x = (Xl, x 1, ... , x fl ). Chaque point de E est alors envoy dans un espace (lJ(E) muni d'un produit scalaire. La dimension de clJ(E) peut tre trs grande et la notion de variable se perd. On effectue alors une analyse factorielle sur tableau de distances entre points transforms selon la mthode de Torgerson qui revient l'ACP dans (P(E). TOUL repose sur le choix du produit scalaire dans <P(E) : si l'on prend un produit scalaire qui s'exprime aisment en fonction du produit scalaire de il n'est plus ncessaire de connatre la transformation cP qui est alors implicite. Tous les calculs s'effectuent en dimension n.

188

7 . l'analyse en composantes

pnr)CIClalp,~in:&.m

Soit k.(x,y) un produit scalaire dans (P(E) et <x,y> celui de E. Les choix suivants couramment utiliss:
k.(x. y)

x, y)

+cyl

1 k(x, y) = exp 1

k(x, y)

2ertanh(x, y) +c)

!Ix - ~vii:!)

n suffit alors de remplacer la matrice W usuelle par celle o chaque terme est k.(x, y), de la centrer en lignes et colonnes et d'en extraire les vecteurs propres pour obtenir les composantes principales dans (p(E).
Pour que k(x,y) soit bien un produit scalaire, on doit vrifier les conditions de Mercer qui signifient que toule matrice symtrique de terme k(x,y) doit avoir des valeurs propres positives ou nulles.

L'analyse canonique et la comparaison de grolJpes de variables

8.1

ANALYSE CANONIQUE POUR DEUX GROUPES

Lorsque Il individus sont dcrits par deux ensembles de variables (en nombre p et q respectivement) on cherche examiner les liens existant entre ces deux ensembles afin de _,,_ savoir s'ils mesurent ou non les mmes proprits.
_ Exemples: Les deux groupes de notes des disciplines littraires et scientifiques; des rsultats d'analyses mdicales faites par deux laboratoires diffrents.

Le tableau de donnes analys est donc de la forme suivante: 2 ...

2 ...

11

On considre alors les deux sous-espaces de IRS II engendrs par les colonnes de XI et X:!, respectivement: et
W) et W2 sont les deux ensembles de variables que l'on peut construire par combinaisons linaires des variables de deux groupes. Ces deux espaces peuvent tre appels potentiels de prvision (Camiez, Pags, 1976).

Si ces deux espaces sont confondus cela prouve que l'on peut se contenter d'un seul des deux ensembles de variables, car ils ont alors mme pouvoir de description; s'ils sont orthogonaux, c'est que les deux ensembles de variables apprhendent des phnomnes totalement diffrents. Ces deux cas extrmes tant exceptionnels~ on tudiera les positions gomtriques de WI et W::: en cherchant les lments les plus proches, ce qui permettra en particulier de connatre dme HI) n W:::).

190

B_L'analyse canonique et la comparaison de groupes de variables

Si les applications directes de l'analyse canonique sont peu nombreuses, elle n'en COflsurUe pas moins une mthode fondamentale car sa dmarche (rechercher des couples de variables en corrlation maximale) se retrouve dans d'autres mthodes comme l'analyse des correspondances, la rgression multiple, l'analyse discriminante: si la dimension q de l'un des groupes de variables est gale l, l'analyse canonique est quivalente la rgression linaire multiple tudie au chapitre 17. Si un des groupes est compos des Cf variables indicatrices d'une variable qualitative (donnes rparties en q catgories) et l'autre de p variables numriques, l'analyse canonique conduit l'analyse factorielle discriminante prsente au chapitre 18. Si les deux groupes des variables sont composs respectivement des indicatrices de deux variables qualitatives p et q catgories, on obtient l'analyse des correspondances prsente au chapitre 9.

8.1 .1

Recherche des variables canoniques

On supposera que ~'l est muni de la mtrique D. La technique est alors la suivante: chercher le couple (b TI!) d\lcteurs norms o~! eW1et'YIl eW2 forment l'angle le plus.,~: faible ~ l et Tl, sont des combinaisons linaires respectives des variables du premier et du second groupe appeles variables canoniques. On recherche ensuite un couple (2' 'YI2) avec :! D-orthogonal , et 112 D-orthogonal Tli tels que leur angle soit minimal et ainsi de suite. On obtient ainsi les p couples de variables canoniques (on posera p = dim Wl et q = dim W;2 avec p :5 Cf). Notons AI et A 2 les oprateurs de projection D-orthogonale sur HI) et Wl respectivement.

Il est facile de vrifier que les expressions matricielles explicites de Al et Al sont (si dim WI = pet dim W2 = q) : Al

= X\(X;DXI)-lX~D
1I

Al = X2(X2DX:J-IX~D
8.1.1.1

.tude de la solution dans !R

Il s'agit de rechercher deux vecteurs ~I et 'YJ, de WJy tels que cos ('J)\> t) soit maximal. . En supposant pour l'instant que 'YJ\ et ~! ne sont pas confondus, on voit gomtriquement

o ~------------------------FIGURE

VV1

8.1

8_L'analyse canonique et la comparaison de groupes de variables

191

que 1')1 doit tre tel que AITII sa projection sur W I soit colinaire ~I' En effet, l'lment le plus proche de TIl est la projection D-orthogonale de TIl sur W I Rciproquement, TIl doit tre l'lment de W:! le plus proche de I (ou de A 11')1), donc TIl doit tre colinaire tl

A:2AITlt
Notre problme revient donc trouver les valeurs propres et les vecteurs propres de A::!AJ puisque A!AITII ITlI' Inversement, il est immdiat que ~I est vecteur propre de AJA! associ la mme valeur propre. , reprsente le carr du cosinus de ('angle form par 1']\ et " ce qui entrane
1 :s; l.

Le cas I = 1 nous donne ~I TIl' donc TIl E W n W!. Les vecteurs propres de A2 A \ appartiennent W 2 : en effet, en prmultipliant A 2A\1']\ = ,TI par Alan trouve puisque A~ A::AITI = ,A::TI, donc A:>.Tll 1'],; on trouve de mme que les vecteurs propres de AJA::! appartiennent li W 1
J

A::!,

Montrons que A2A, est diagonalisable: puisque les vecteurs propres de A2AI appartiennent ncessairement W::! il suffit d'tudier la restricton de A::!AI W2 .

THORME

La restriction de A.:: A , il W;.? est D-symtrique.

Si nous notons (x ; y> le produit scalaire associ la mtrique D :


(x;

y> =

x'Dy

il faut montrer que quel que soit

K,

y E W2 :

on a :

(x ; A::! AI Y ) = (Al X ; AI y>

car A 2 est D-symtrique car x E W 2 car Al est D-symtrique car y


E

= (x; AtY)
=(A\x;y)
= (AIx; A 2y)

W2

(A 2A l x;y)

car A::! est D-symtrique

c.q.f.d.

Ceci entrane que la restricton de A:2AI W::!, et par suite A2At. est diagonalisable, ses vecteurs propres sont D-orthogonaux et ses valeurs propres j sont relles. De plus, les . j sont:;::::: 0 car A] et Al sont des matrices positives.

AlA, possde au plus min (p, q) valeurs propres non identiquement nulles. L'ordre de multiplicit de J = 1 est alors la dimension de W1n W2 ; les vecteurs propres associs des valeurs propres nulles de rang infrieur q engendrent la partie de W:! D-orthogonale W\.

192

8aL'analyse canonique et la comparaison de groupes de variables

Les vecteurs propres ~i et l1i D-norms de A,A::: et de AzA, sont associs aux mmes valeurs propres et vrifient les relations suivantes:

-f}:"t\. '1 i"1I = A,. _~I


AIA2~j = j~i

11~ D1'Jj

=0

et

pour i::foj

qui entranent de plus: pour i::foj

8.1. 1.2

Solutions dans IR? et IRtI

Les variables canoniques ~i et l1i s'expriment comme combinaisons linaires des colonnes de XI et X::: respectivement: et Les ai et b i sont les facteurs canoniques qui s'obtiennent directement de la manire suivante:
AI A2~i

= i~i :>

A 1A 2X [a,

= iX,a;

en remplaant les projecteurs par leur expression on a :


X! (X/,DX,)-IX;DX::.(X/:::DX:J-IX'2DX,ai = iXla j

Si le rang de XI est gal au nombre de ses colonnes, on peul simp1ifier de part et par XI (multiplication par (X~ XI )-'XD et on trouve:
(X;DX,)-IX~DX2(X2DX2rIX2DXlai

= iai

et de mme: Dans le cas o toutes les variables sont centres:


X~Dl = X~Dl

=0

les matrices X;DXj s'interprtent comme des matrices de covariance. On note usuellement:

V" V22

X;DX 1

= X~DX2

V,:! = X,DX 2 V::: 1 = X 2 DX,

= (V,:!)'

Les quations des facteurs canoniques s'crivent alors:

Vj,IV,.2V 22IV 2I a i V22IV::'IVj,IVnbi

= iai = jb
j

et les valeurs propres sont les carrs des coefficients de corrlation canonique entre les variables canoniques. Sur le plan pratique, on diagonalisera videmment la matrice de taille la plus faible.

8111L'analyse canonique et la comparaison de groupes de variables

193

Comme on a: ~ XIa; et 'lli = X::b i si l'on dsire que les variables canoniques soient de variance unit, on normera les facteurs principaux de la manire suivante: et

On en dduit:

_ 1 _1 b1 - -V" V'la1

.Ji:; -- -

et

_ 1 _1 a.--V11V\.,b. 1 _h - 1
-V i

Comme seuls comptent les sous-espaces WI et W::, il est quivalent de travaller avec des variables de variance 1. On utilisera donc en gnral les matrices de corrlation RII' RI:!, etc la place des matrices de variance.

8.1.2

Reprsentation des variables et des individus

Deux sortes de reprsentations sont possibles selon qu'on choisit les variables canoniques de WI ou de W:!> Si l'on fait choix de W] on reprsentera l'ensemble des variables de dpart D-normes (colonnes de XI et de X 2 ) en projection sur la base D~orthonorme forme par les ~j. En particulier, la projection sur le plan engendr par ~I et ~2 donne un cercle des corrlations (fig. 8.2) car, s les colonnes de XI sont D-normes ainsi que celles de Xl' les composantes sur la base des ~i sont les coefficients de corrlation entre les variables initiales et les variables canoniques.

- + - - - - - j - - - - ' - - - i - ~1

FIGURE

8.2

Xt

Si x" est la kii!me colonne de XIan a x~D~1 = X"DXI31 ; le coefficient de corrlation entre et ~I est la killlc composante de V lI al car Xk est gal Xlo" o l' est le vecteur de IR" dont toutes les composantes sont nulles sauf la kimt! qui vaut 1. Si YI est la
zime

colonne de X 2

la corrlation entre YI et ~i est alors la ziemc composante de V].[ai ou encore la li~H1C compo~ sante de ~IV 22b j

194

B_L'analyse canonique et la comparaison de groupes de

v,"-":ll"\'.,_

Si les colonnes de Xl et X:! ne sont pas D-normes il faut diviser les expressions dentes par les normes de Xk ou YI' Les reprsentations sur (Sb S2) et (111- ''-12) sont d'autant plus voisines que ] et 2 proches de 1. Pour les individus deux reprsentations des individus sont possibles selon les canoniques choisies.
var]at)lf'~

Si l'on choisit le plan dfini par (g[, gz) les coordonnes dufi:mc point sont lesjime posantes des variables canoniques SI et S2'

8.1.3

Test du nombre de variables canoniques significatives

On peut arrter l'extraction des valeurs propres et des vecteurs propres au moyen du de Bartlett. L'hypothse que les deux ensembles de variables sont indpendants revient tester [ :: Si cette hypothse est rejete, on teste la nullit de ""1' etc. D'une faon gnrale, si [. 2, . , k sont jugs signiticativement diffrents de zro, on teste la nullit des valeurs propres suivantes en utilisant la quantit:

- [Tl -

1 - Ir. -

~ (p + Cf +
2

1)

+ ~] ln (lUil
i=Ii

k+1

rr

f/)(1 -

J)
de
k +2"')

qui suit approximativement un Xfr-k)(q-k), si la valeur thorique de nune.

1 (donc

est

Le test prcdent n'est valide que dans le cas de variables normales et ne s'applique en aucune faon aux cas particuliers que sonl l'analyse des correspondances et l'analyse discrimnante.

8.2

MTHODES NON SYMTRIQUES POUR DEUX GROUPES DE VARIABLES

L'analyse canonique est une mthode faisant jouer des rles symtriques aux deux groupes de variables. Si l'un d'entre eux est privilgi diverses approches sont possibles.

8.2.1

Mthodes procustennes de comparaison de deux configurations d'individus

On suppose ici que les deux groupes de variables ont mme dimension (cas auquel on peut toujours se ramener en rajoutant des coordonnes nulles) afin de confondre les espaces W1 et W2' On dispose donc de deux cartes p-dmensionnelles des mmes des procds diffrents et on cherche les comparer.
11

individus obtenues par

Le principe consiste alors tixer l'une des deux configurations (le tableau XI) et faire subir l'autre une transformation gomtrique simple eX 2 = X 1T) telle que les deux configurations deviennent les plus proches possibles, un critre naturel tant: mJn

;2: \ICi 1=1

1/

ill~

mJn Trace [(XI - X 2T)(X I

X 2T)']

8- L'analyse canonique et la comparaison de groupes de variables

195

Ce type de problme se rencontre en particulier pour comparer des solutions diffrentes de multidimensional scalillg o les axes ne sont pas les mmes. On suppose dans la suite que les poids des individus sont gaux d'tendre les rsultats au cas gnral.

1/11,

mais il est facile

Si T est une transformation quelconque la soluton des moindres carrs est donne par:

En gnral, on impose T d'tre une transformation orthogonale: l'ide est de faire subir il l'une des deux configurations une srie de rotations, symtries, retournements de faon l'amener le plus possible sur l'autre. Le problme devient: avec

TT' = 1

soit p( p

+
2

1) contraintes.

Rcrivons tout cl' abord le critre:

TT'

Trace (XI - X 2T) (XI - X:!Tf Trace X1X'1 + Trace X 2TT'X; - 2 Trace X~X2T. Si Ion voit que T doit maximiser Trace V I2T sous la contrainte TT' = 1. Introduisons alors la matrice A/2 symtrique de taille p des multiplicateurs de Lagrange

aSSOCieS

.,

aux

pC p 2 +

1)

. ad' 1 d . contramtes. n Olt a ors ren re maximum:

Trace [ V "T -

~ A(TT' -

1)]

en drivant cette expression par rapport la matrice T on obtient le systme d'quations: soit
d car - Trace V l 1T = dT -

en multipliant par T'

V11

et

d -Trace ATT ' = ?AT dT .

Pour trouver T nous crivons V lI sous forme de dcomposition en valeurs singulres.

V 21 = VSU' o S est la matrice diagonale des valeurs propres de Y!IV I2 , V la matrice orthogonale des vecteurs propres norms de V21 V12' U la matrice orthogonale des vecteurs propres norms de V 12V 21
On en dduit:

A = VSU'T' = TUSV'
d'o A2

car

A est symtrique

= VSU'T'TUSV' = VS:!V' donc A

VSV' et V 21

= AT donne VSU'

VSV'T

La meilleure transformation orthogonale T est donc telle que:

IT =vu'j

196

8_L'analyse canonique et la comparaison de groupes de

vOIr''' .... ' __ .",:.",

8.2.2

Mthodes factorielles

Leur principe consiste chercher des combinaisons linaires de variables d'un des groupes vrifiant certaines conditions ou contraintes lies ]' existence du deuxime crrnl1~~.""<' de variables. Selon que l'on cherche se rapprocher du deuxime groupe ou au contraire s'affranchir de son intluence on pourra utiliser:

8.2.2.1

L'analyse en composantes principales de variables instrumentales (ACPVI)

On recherche des combinaisons linaires ~ des variables du premier groupe expliquant le mieux les variables du deuxime groupe. C. R. Rao a introduit le critre sUvant :

Si l'on rgresse les tre minimale. "


Cf

/112

variables du tableau Xz sur~, fa somme des variances rsiduelles

En pOPcl1t~. :::::HX,a, ce critre revient rendre maximale la somme des variances ques soit un coefficient prs:
2:(x~)' ~(~'~)-I f(x~)
j=l
IJ!'

je;: ,

~(x~rXI aa'X; (x~) _ . X~X,aalXIX1 .rt.J 'X - Trace a XI.i 1a a 'X'X Ja 1


l .1

a'V'2 = Trace V21 aa'V I2 = - - -2I-

V a

a'V; la

a'Vlla

a est donc vecteur propre associ sa plus grande valeur propre, de la matrice:
1

Vl lV 12V 211

Les valeurs propres suivantes conduisent d'autres solutions non corrles entre elles. Lorsque X2 est un ensemble de variables de variance unit, ~ est la combinaison des variables de XI la plus corrle avec les variables de X2 au sens o :
IHI''-'(.UH,,,,;'

2: r2(~ ; x~) est maximal


j=1

Oh

On reconnat ici une expression voisine du critre usuel de l' ACP rduite: ici on les corrlations avec des variables externes. Les variables ~ sont les composanLes principales de l'ACP de XI avec pour mtrique: M = V, IV I2V 2,V,1 = (Vl'V'2)(VIIV12)' ou, ce qui est quivalent, les composantes principales du tableau X,Vl'V 12 avec la mtrique identit: en d'autres termes on effectue: l'ACP des projections des variables de X 2 sur Xl' Le coefficient de redondance de Stewart et Love entre deux groupes de variables: R2(X 2 : Xi) (notons que R2(X, : X 2) =f= R2(X 2 : XI : . est: R-(

., X

2:.i ,)

Trace (V 21 Vl'V I2 ) = ------..:.-"-'--~ Trace V 22

a_L'analyse canonique et la comparaison de groupes de variables

197
1

Lorsque V:;:;

= R 11

(variables de Xl standardises) R:;(X::: Xl) = -.-

L R1(X~; XI)

1112

1Il2j=J

moyenne des carrs des coefficients de corrlation multiple des rgressions des x~ sur XI' On voit alors que les composantes principales des variables instrumentales ~ sont les combinaisons linaires des colonnes de XI ayant une redondance maximale avec X:!. On vrifie aisment que ~ est vecteur propre de AI W:'. o : et

ACP sous contrainte d'orthogonalit


On peut inversement rechercher des combinaisons linaires des variables de XI de variance maximale sous la contrainte d'tre non corrles aux variables de X:,! afin d'liminer leur effet. Pour que le problme ait une solution il faut que 1112 < ml_ On montre alors que les facteurs ""!l!~Jsque ~ = Xia sont vecteurs propres de :
(1 VI1(V2IV12)-IV21)VII

8.2.2.3

ACP des covariances partielles

Une autre manire d'liminer l'intluence des variables extrieures X:! consiste utlliser la matrice des covariances (ou des corrlations) partielles de Xl X:; fix:
VIII:! = Vll V I2V 2 :!IV:'!1

On cherche alors les vecteurs propres de cette matrice_ Il s'agit ici d'une ACP du nuage des rsidus des rgressions des variables de Xl sur Xl : les composantes principales ne sont pas ici des combinaisons linaires des variables de XI_

8.3

l'ANALYSE CANONIQUE GNRALISE

tendre l'analyse canonique plus de deux groupes de variables se heurte d'emble

la difficult suivante: il n'existe pas de mesure simple de la liaison entre plus de deux
variables. Il y aura donc autant de faons d'obtenir des variables canoniques que de manires de dtinir une corrlation ~) entre p variables: on peut prendre par exemple comme mesure la somme des corrlations deux deux, la somme des carrs des corrlations, le dterminant de la matrice des corrlations, etc. Toule gnralisation est donc plus ou moins arbitraire. Celle que nous prsentons ici a l'avantage d'tre sans doute la plus simple et la plus riche d'interprtations, car elle se relie aisment toutes les autres mthodes d'analyse des donnes.

8.3.1

Une proprit de l'analyse canonique ordinaire

tant donn deux ensembles de variables centres Xl et X;!, les variables canoniques ~ et 11, vecteurs propres de A lA] et A2Al respectivement, possdent la proprit suivante:
~

+ 11 est vecteur propre de AI + A 2

198

BaL'analyse canonique et la comparaison de groupes de

V::II"',,,k'I_..:.'cC'!,,,

En effet, posons z tel que (A, + A 2)z = I-lz ; en prmultipliant par AI ou quation, on trouve en utilisant r idempotence de At et A 2 :

soit: ce qui donne :


AIA:!A,z A:!A,A:!z

et

(I-l - lfA,z

= (I-l

- l):!A:;z

donc au mme coefficient multiplicateur prs, A!z et A 2z ne sont autres que les VilllutllestJ*! canoniques ~ et 'YI ; comme A ,z + A:!z = I-lZ on trouve I-lz ~ + 'YI, ce qui dmontre proprit annonce (fig. 8.3).

FIGURE

8.3

La variable z possde la proprit d'tre la plus lie aux deux ensembles XI et X:!. en sens qu'eHe a une somme des carrs des coefficients de corrlation multiple maximale XI et X 2 . En effet, le coefficient de corrlation multiple de z avec Xi vaut:

car les variables tant centres, Ri est le cosinus de l'angle form par z et Wj

8.3.2

la gnralisation de J. D. Carroll (1968)

De la proprit prcdente dcoule la gnralisation suivante due 1. D. Carroll: plutt;' que de rechercher directement des variables canoniques dans chacun des sous-espaces W; t associs des tableaux de donnes Xi> on cherche une variable auxiHaire z appartenant la; somme des Wj telle que

2: R2(z ; Xi) soit max.imal.


1='

l'

canonique et la comparaison de groupes de variables

199

z est alors vecteur propre de AI + A:! + ... + AI' :

On obtient ensute, si ncessaire, des variables canoniques ~i en projetant z sur les Wi (X I IX2 1 ...
SOUS

Ix/,), matrice Il lignes et Lm; colonnes, la variable z se met


i=1

11

la forme Xb et plutt que de rechercher z comme vecteur propre d'une matrice vaut mieux chercher b qui possde SnI i composantes. Comme Ai = Xi(X~DX)-!X;D, en posant Vu

Il,

n il

X;DX j matrice de variance-covariance

V -I 11 V -I 22
matrice bloc-diagonale des Vii l, on

v- I Pl'
p

trouve asment que LAi


1"'1

LXjV~[X;D s'crit en fat LAi = XMX'D.

l'

i=!

;=!

Donc z est vecteur propre de Xl\tIX'D, et puisque z = Xb, si X est de plein rang, b est vecteur propre de MX'DX :

XMX'Dz

= /.lZ

l\tlX'DXb = /.lb
On reconnat alors les quations donnant les composantes principales et les facteurs principaux, dans l' ACP du tableau total X avec la mtrique M. En particulier si chaque groupe est rduit une seule variable (mi retrouve l'ACP avec la mtrique Dl!s~ puisque z rend alors maximal

= l, i =
i=!

l, 2, ... , p) on

" L r 2(z ; Xi).

L'analyse canonique gnralise est donc une ACP sur des groupes de variables, ce qui nous ramne une optique de description des individus tenant compte des liaisons par blocs plutt qu' une optique de description des relations entre variables. On a toujours 2:J.Lk = 2:111 i Si /.l = p, il existe une intersection commune tous les lVi . Les variables canoniques ~~k) que l'on dduit des zU:.) par projection orthogonale sur les

Wi ont alors la proprit suivante, du moins pour l'ordre 1 : le p-uple (t)I), ~~I), ... , ~;,1) a une
matrice de corrlation dont la plus grande valeur propre Contrairement l'analyse canonique usuelle avec p
I

est maximale. a pas orthogonalit entre

= 2, il n'y

les ~~k) et les t~/).

200

B_L'analyse canonique et la comparaison de groupes de variables

On verra au chapitre lOque si chaque groupe est celui des variables indicatrices de p variables qualitatives, l'analyse canonique gnralise conduit l'analyse des correspon_ dances multiples. L'analyse canonique gnralise de Carroll n'est pas la seule mthode de traitement simultan de p groupes de variables; de trs nombreuses techniques ont t proposes: la mthode Statis, l'analyse factorielle multiple sont les plus connues. Le lecteur intress est invit consulter les ouvrages de B. Escofier, du Ger, ains que l'article de synthse de P. Cazes (2004) cits en bibliographie.

L'analyse des

correspondances

Cette mthode a t propose en France par J.-P. Benzcri dans le but d'tudier la liaison (dite encore correspondance) entre deux variables qualitatives; un exemple de correspondance nous est fourni, par exemple, par la ventilation des sjours de vacances selon le mode d'hbergement eL la catgorie socio-professionnelle (CSP) (voir chapitre 6, 6.5). Sur le plan mathmatique, on peut considrer l'analyse des correspondances soit comme une analyse en composantes principales avec une mtrique spciale, la mtrique du X2 , soit comme une variante de l'analyse canonique. Nous dvelopperons ces deux aspects en accordant toutefois la prfrence l'aspect analyse canonique qui a entre autres avantages de respecter la symtrie entre les deux variables el de gnraliser sans difficult l'ana1yse des correspondances plusieurs variables qualitatives.

9.1 9.1.1

TABLEAU DE CONTINGENCE ET NUAGES ASSOCIS Reprsentations gomtriques des profils associs un tableau de contingence

Le tableau des donnes est un tableau de contingence N ml lignes et 1112 colonnes rsultant du croisement de deux variables qualitatives 1/11 el 111 2 catgories respectivement (voir chapitre 6, paragr. 6.5). Si

r on note DI et D'2. les matrices diagonales des effectifs marginaux des deux variables:
Ill.
Il,!.

o
D}

n. 1
n.2

Dl =

0
Il ..

Le tableau des profils des lignes d'lments

-.!l.. eSL
11 i.

alors D 1 N. est alors ND;- l,

Le tableau des protils des colonnes d'lments


1l.j

202

9_L'analyse des correspondances

Les protils de lignes forment un nuage de m, points dans

; chacun de ces points

affect d'un poids proportionnel sa frquence marginale (matrice de poids: Le centre de gravit de ce nuage de points est:

~' ).

Il.,
Il

P.I

c' est--dire le profil marginal. Rciproquement, les profils-colonnes fonnent un nuage de poids donns par la matrice D
Il 2 ;

111::..

points dans lit'" avec

leur centre de gravit g(, est le point de coordonnes:

Pour garder les conventions du chapitre 7, les profils des colonnes de N sont les lignes du tableau transpos D l N' (<< individus en lignes, variables en colonnes). Dans le cas de l'indpendance statistique: et
Il 11 .J
Il

les deux nuages sont alors rduits chacun un point, leurs centres de gravit respectifs. L'tude de la forme de ces nuages au moyen de l'analyse en composantes principales permettra donc de rendre compte de la structure des carts r indpendance mais il faut choisir alors une mtrique pour chacun de ces espaces.

FIGURE 9.1

. 9_ L 'analyse des correspondances

203

Remarquons que les profils ayant pour somme l, les 11/1 profils-lignes sont en ralil situs
III>

dans le sous-espace W:! de dimension

1112

1 dfini par 2:x}


}=!

l (avec en plus x)

0) ainsi

que leur centre de gravit (fig. 9.1). De mme pour les rn2 protils des colonnes.

9.1.2

la mtrique du X2

pour calculer la distance entre deux profils-lignes i el i' on utilise la formule suivante:

11 s'agit donc de la mtrique diagonale nDil, La considration suivante justifie dans une certaine mesure l'emploi de la distance du X1 La pondration par
:

!!... de
11.)

chaque carr de diffrence revient donner des importances

comparables aux diverses variables ) : ainsi, dans l'exemple de la correspondance modes d'hbergement X CSP, (voir chapitre 6 et 9.3) si l'on calculait la dislance entre deux modes par la formule usuel1e : somme des carrs des diffrences des pourcentages des diverses CSP , il est clair que cette distance reflterait surtout la diffrence entre les CSP les plus importantes en nombre; pour pallier cet inconvnient la division par Il.} est un bon remde (quoiqu'un peu arbitraire). L'argument le plus frquemment utilis en faveur de la mtrique du X'2 est le principe d'quivalence distributionnelle: si deux colonnes de N,.i et j', ont mme protil il est logique de les regrouper en une seule d'effectifs (ni} + 11;/.), il faut alors que cette opration ne modifie pas les distances entre profils-lignes. On vrifie en effet par simple calcul que:
Ji

(11 ij Il.)'

Il i'j 11 1. .,

n.) ni.

)" + (
11

n ij'
Tl /. .
H /., .

Il, .J

)'

- _

11 11' J .11 ., . J

11 ij

+
11 1. .

11 li'

Il i'j

+ Il i'J'):!
Il i',

lorsque

Il ..

.-Ji.
Il,}

Cette proprit n'est pas vrifie pour la mtrique euclidienne usuelle. Lajustification la plus profonde, mais la plus difficile, est en fait la suivante: les profils-lignes sont des lois de probabilit sur des ensembles finis de ml lments (les modalits de la deuxi~ me variable). Au moyen de l'esprance mathmatique, ces lois de probabilit sont associes des formes linaires (qu'on leur identifie) sur les variables quantitatives compatibles avec la deuxime variable qualitative. Ces variables quantitatives (qui ralisent une quantification de la deuxime variable qualitative) formant un espace vectoriel, les individus sont donc des lmenL~ du dual de cet espace (pas tout le dual, mais un simplexe de ce dual). Les modalits de la deuxime variable ayant pour poids P.I' P.:!, ... , les variables 1 quantitatives associes sont munies de la mtrique - D:! qui est la mtrique de la covariance,
11

204

911111L'analyse des correspondances

si l'on se restreint des codages centrs. Le dual doit donc tre muni de la mtrique inverse

nDi l .
On dfinit de mme la mtrique du X:! entre profils-colonnes (matrice nDl1) par la fonnule :

Le terme de mtrique du X:! vient de ce que les deux nuages ont alors pour inertie totale la quantit mesurant l'cart l'indpendance :

cp:! = 1 L
Il

(nu -

Il, Il ,)1 ~
Il

(voir chapitre 6)

11 i. 11 .j

11

En effet, l'inertie du nuage des profils-lignes par rapport g;vut:


111, '" kJ

Il,

;=1 Il

,. d" (' g/) x' l, -

"'V ..i.J /. ..i.J "'V - - i=lj=1 Il Il.j

III 1

1111

Il,

Il

('1"

'.1

- -

11 ,)2
.}

IIi.

Il

ce qui donne cp:! aprs un calcul lmentaire. Il en est de mme pour l'inertie du nuage des profils-colonnes. Nous avons remarqu que le nuage des points profils-lignes tait dans un sous-espace \VI : le vecteur Og, est alors orthogonal au sens de la mtrique du X2 ce sous-espace (fig. 9.2) :

o
FIGURE

9.2

En effet, soit

x un lment de W1 :
(x - gl)'I1Di l g, = < Og[; g,x >x!

=0

car:

et pour tout lment de WI

x'l
L

= 1 donc g; 1 =

l.

De plus "gdl~~

= gl =

91111L'analyse des correspondances

205

9.2

ANALYSES EN COMPOSANTES PRINCIPALES DES DEUX NUAGES DE PROFilS

Deux ACP sont alors possibles: 1) Celle du nuage des profils-lignes avec: - tableau de donnes X = DtlN ; - mtrique M = uDi l ; _
2)

poids

= Dl.
Tl

Celle du nuage des profils-colonnes avec: - tableau de donnes X = DiIN '

(Le tableau des profils colonnes est ND;-I mais, pour garder l'usage de mettre les "individus" en ligne, il faut le transposer; d'o X = DilN') ;

mtrique poids

LVi D

= IID I l = D 2
11

Nous allons voir gue leurs rsultats sont en dualit exacte.

9.2.1

ACP non centres et facteur trivial

La matrice de variance d'un nuage de protil est V

= X'DX

- gg'.

D'aprs la proprit tablie la fin du paragraphe 9.1.2 Og est orthogonal au support du nuage, il est donc axe principal, c'est--dire vecteur propre de VM, associ = O. Les vecteurs propres de VM sont alors les mmes que ceux de X'DXl\t1 avec les mmes valeurs propres sauf g qui a pour valeur propre L. En effet gg'M est de rang 1 et :

X'DXl\'1
d'o:

VM

+ gg'M

X'DXMg

= VMg + gg'Mg = 0 + gllgll~~


=g

Il est donc inutile de centrer les tableaux de profils et on effectuera des ACP non centres: la valeur propre l dont on verra plus tard qu'elle est maximale sera ensuite liminer. A cette valeur propre triviale est associ l'axe principal g et le facteur principal constant:

206

9l11i1111L'analyse des correspondances

9.2.2

ACP non centres des nuages de profils

Il suffit d'appliquer ici les rsultats du chapitre 7 : les facteurs principaux sont les vecteurs propres de lVIX'DX, les composantes principales les vecteurs propres de XlV!X'D. 1 Pour les lignes on a X = D,'N d'o X'DX = - N'D,IN, MX'DX = D1 1 N'D l Net J XlVIX'D = Di' ND 1 N'. n Pour les protils-colonnes il suftit de transposer N et d'inverser les indices 1 et 2, comme le montre le tableau 9. t :

TABLEAU

9.1

ACP des profils-lignes Facteurs principaux Vecteurs propres de D1"' N/D,I N

ACP des profils-colonnes Vecteurs propres de D,' ND 1" , N'

Vecteurs propres de D,' ND 1" 1 N' Composantes principales normaliss par

---------4-----------------------Vecteurs propres de

D;-' N'D,' N
normaliss par
b / D:! b = X.

a' D I a n

= X.

On constate que les deux analyses conduisent aux mmes valeurs propres et que les facteurs principaux de l'une sont les composantes principales de l'autre ( un coefficient multiplicateur prs). En pratique on s'intresse ici exclusivemenL aux composantes principales pour obtenir directemenL les coordonnes factorielles des points reprsentatifs des profils-lignes ou colonnes. On remarque que les matrices ayant comme vecteurs propres les composantes principales sont les produits des deux matrices [D,' N] et [D1"' N'l dans un ordre ou dans l'autre: Les coordonnes des points-lignes et points-colonnes s'obtiennent en cherchant les vecteurs propres des produits des deux tableaux de profils. La parfaite symtrie entre ACP des profils-lignes et ACP des profils-colonnes conduit alors superposer les plans principaux des deux ACP atin d'obtenir une reprsentation simultane des catgories des deux variables croises dans le tableau de contingence N. Cette pratique sera justifie plus en dtail au paragraphe 9.4.4 Les cercles de corrlation n'ayant aucun intrt ici dans le contexte de variables qualitatives l'interprtation des composantes se fait essentiellement en utilisant les contributions des diverses catgories aux inerties des axes factoriels, c'est--dire aux valeurs propres.

91111BL'analyse des correspondances

207

Comme: On appelle contribution (CTR) du profil-ligne i t'inertie le quotient:

CTR(i)

11

-.:L (b.f-

Il-

On a de mme:

CTR(j) =

--

Comme en ACP on considre ra les catgories ayanlles plus fortes contributions comme constitutives des axes: un critre simple consistant retenir les CTR(i) > .....!:. La contribution
11

JI-

doit tre complte par le signe de la coordonne car certaines catgories peuvent avoir des contributions de sens opposs. Remarquons qu'ici
n 2: -.!.:.lli = L _hj =
i

0 (les composantes sont centres) ; il ne peut

Il

11

Y avor d'effet de taille car les coordonnes des points ne peuvent tre toutes positives ou toutes ngatives.

9.2.3

Formules de transition

Les coordonnes des points-lignes et les coordonnes des points-colonnes sont relies par des fom1UJes simples dont le premier intrt est d'viter de raliser deux diagonalisations. On diagonalisera la matrice la plus petite, par exemple Dt ND l ' N' si 1111 < ln"].. Connaissant les solutions a de l'quation:

il suffit de prmultiplier les deux membres de cette quation par Dli N' pour obtenir un vecteur proportionnel b :

On a donc b normalisation ND2' I N ' a =

= kD2'1 Nia. Pour dterminer k il suffit ., Di k2 b ' -= b = soit k-a'ND;1 -=. D;I Nia = II -11 n
D-,
a il vient
k 2 a '

d'utiliser la condition de

a'ND;1 N'a 1l

=
.

Comme

Dl

DI a
Il

= soit P =

1 puisque a' Dl a =

208
On a donc les formules suivantes pour chaque axe: soit soit
l'Jj -

9_L'analyse des ... r>rr<>." ..... n'n..l'..... ~, __

'l.

r. " 1-. 1 ai .l.J


=

111\

Il"

1 }l.j

avec:

a=

b=

.Ces formuls dites de transition sont des formules pselldo~barycentriques au sens suivant

...J'X. prs la coordonne d'une catgorie i d'une variable est la moyenne des coordonnes des
catgories de l'autre variable pondres par les frquences conditionnelles du profil de i.

9.2.4
9.2.4.1

Trace et reconstitution des donnes


Dcomposition du <pl

Nous avons dj vu que l'inertie totale des deux nuages tait gale au <.pl, En liminant la valeur propre triviale on a donc si 111,
1111-

<

m2 :

~ . k =
k=l

<.p2

car il Y a au plus min 111, - 1) ; (m2 - 1)) valeurs propres. Chaque direction principale explique une partie de l'cart l'indpendance mesure par le <.p2, Les pourcentages de variance (ou d'inertie) sont donc les
.d <.p'2 ,

P. Cibois (1983) a mis en vidence la proprit suivante qui montre que l'analyse des correspondances tudie la structure des carts l'indpendance plus que les carts eux-mmes; Le tableau N* dfini par:
~+a, ",.-~
1l
1)

n,

11 '

11 ,)

JI

a mmes marges que N donc mme tableau d'indpendance mais des carts il l'indpendance. rduits de ct (si 0 < ct < 1). L'analyse des correspondances de N* est alors presque identique celle de N : mmes' graphiques, mmes pourcentages d'inertie, mmes contributions. Seul <.p2 et les valeurs pro pres ont chang :
(<.p2r~

= a,2 <.p2 et .*=

a'2 .

Un utilisateur ne regardant que les pourcentages et non les valeurs absolues ne verrait aucune diffrence. Le problme est alors de savoir si l'on analyse des cart." significatifs ou non.

des correspondances

209

Formule de reconstitution
La formule X

= L cl;,uJ,lVl- 1 tablie
k

au chapitre 7 s'applique ici pour X tableau des

profils-lignes, CI;, vecteur des coordonnes des lignes sur r axe na k, Uk facteur principal (identique au vecteur des coordonnes des colonnes sur r axe k divis par ~) et IVI = llD~ 1. On a alors:
...21
Tl i .

n..

= 2: _1_-'_
k

a!k)//k)

-{

Il

mais il faut utiliser tous les facteurs y compris le facteur trivial correspondant h = l, d'o :

Il s'agit donc bien d'une reconstitution des carts l'indpendance l'aide des coordon"'isfactorielles des points associs aux profils-lignes et aux profils-colonnes.

9.2.5

Choix du nombre de valeurs propres en AFC

L'AFC est une ACP particulre mais on ne peut appliquer exactement les mmes rgles car la mtrique du khi~deux n'est pas la mtrique usuelle. On peut ne retenir que les valeurs propres suprieures leur moyenne comme le fail la rgle de Kaiser, mais cette pratique est peu usite. La rgle du coude reste cependant valide, mais est toujours quelque peu subjective. Lorsque la taille de l'chantillon le permet, le critre suivant propos par E. Malinvaud peut se rveler trs efficace. Il est bas sur la comparaison entre effectifs observs lIu et effectifs calculs raide de la formule de reconstitution dans le contexte suivant: on fait l'hypothse que [es donnes forment un chantillon tir alatoirement et avec quiprobabilit dans une population teHe que Pij = Pi.P.j(l

Ciik {3jk)' En d'autres termes la loi bidimensionnelle


k=1

sous-jacente est un tableau de rang K. Dans ces conditions, si ,ij};) case ij, raide des K premiers

= (n i .ll d )
11

(1

aikbik/~) est la reconstitution de la


k=l
~

axes~

on peut montrer que la quantit


)' (11 ij
~

Il

ii)

K :!

I.j

Il i.ll~i
Il

suit asymptotiquement une loi du X (1' - K - 1) (q - K 1) degrs de libert. Il s'agt donc d~une gnralisation du test d'cart l'indpendance qui correspond au cas K = O. On trouve sans difficult que QK se calcule l'aide des valeurs propres et est gal rI fois l'inertie au del de la dimension K :
QK
n(l - hl - h 2 -

o r ::::: lIlin(p - l ; q - 1)

210

9. L'analyse des

I..c,-,o.ll,rr,e5J)Orldance~..

-.
-.,

On peut donc tester successivement les valeurs de K depuis K = 0 (hypothse " l' 1" dance),jusqu au moment ou on ne peut p us rejeter ajustement.

;
'l1e1'::.
r

.i.
i

Les conditions d'application sont celles du test du khi-deux: effectifs thoriques au 1I1ins gaux 5. Cependant si :' est tr.s lev le test ~on?~it ~onserver un .tr~p grand nombre de) valeurs propres: on ne l' emplOIera que pour Il mfeneur a quelques millIers. "'.

9.3

UN EXEMPLE

Nous avons soumis l'analyse des correspondances (logiciel SPAD Version .'. le tableau de contingence sur les vacances des franais en 1999 dj tudi dans le: chapitre 6. Le tableau des valeurs propres montre clairement que deux axes suffisent dcrire la liaison entre la catgorie socio-professionnelle et le mode d'hbergement:
.. c

;'

SQt..!1v1E DES VALEURS PROPRES . 0.1073

..'~

HISTOGFLL.J:,!NE DES 7 PREMIERES Vl'.LEURS PROPRES

'.
....

NUHERO

VALEUR PROPRE 0.0657 0.0254 0.0081 0.0037 0.0028 0.0014 0.0002

POURCENT.

POUHCENT.
C-1ULE

1 2

61.24
23.70

3 4 5 6 7

7.55 3.46 2.60 1. 29 0.16

61. 24 84,94. 92.49 95.95 98.55 99.811 100.00

********************************** ******************* ********** ***** "*** **

*
...

Ici le test de Malinvaud est inoprant car 11 = 18352 est trop lev.
Les tableaux suivants permettent de reprer les modalits ayant des contributions significatives : Sur l'axe 1 Hotet, Rsidence seconda re lis avec retraits et opposs tente et ollvriel: L'axe 2 est caractris par Rsidence secondaire de parents et amis et
i

cadres.
On retrouve des associations dtectes par la dcomposition (figure 9.3) du khi-deux, mais le graphique pennet de les illustrer de manire vocatrice. Rappelons que l'interprtation des proximits sur le graphique doit respecter certains principes: si deux modalits d'une mme variable sont proches et bien reprsentes, cela signifie que leurs profils sont semblables (c'est le cas d' ouvrers et employs par exemple qui frquentent les mmes lieux dans des proportions proches). Par contre la proximit entre une modaHt d'une variable et une modalit de l'autre, comme prt~fession illfermdiaire et village de l'acances, est plus dlicate interprter: ce que l'on peut seulement dire c'est que: le barycentre des 3787 sjours des professions n/enndiaires est proche du barycentre des . 686 sjours en village de vacances (voir plus loin).

HODES D' HEBERGEt'lEN'['

COORDONNEES

CONTRIBU'l'IONS

COSInUS CI\ERES

mEN

LIBELLE
14.19 .68 .36 33.73 9.98 4.17 6.10 2.09 3.70

DIS'I'O
0.11 0.0,: 0.33 0.03 0.15 0.31 0.18 0.07 0.07 -0.32 13 -0.55 0.11 -0.06 0.52 0.25 0.15 0.10

2
-0.03 -0.11 0.15 0.09 -0.37 -0.02 0.27 O. 0.12 0 00 -0.10 -0 0.01 0.16 0.10 0.02

4
-0.03 0.03 -0.01 0.02 0.0/1 -0.19 0.09 0.00 -O.lB

5
-0.08 -0.01 0.07

5
,\'329. 3.3.3 0.6 15.2 3.9 LB 3.9 17.0 40.2 0.3 U.2 13.2 0.0 7.3 31.7 11 7

!-lOTE ![ote1 LOCA-Locat.lon RSE:C-Rsid. I1PPA-Rsid. Par RSPA -Hsid. 'l'EN'l'-'l'ent.e CAR.~ Caravane .".J Auberge VILL Village

-o.

-0.13
0.03

0.09

.6 0.:1 3.9 4.1 .628.2 113.2 8.'1 6.3 10.7 38.4 0.5 53.9 .8 17.1 0.1 0.0 6017.3.6 D.7 1..1 .'/ 0.5 O.:': 0.2

0.27 0.07 0.27 O. 0.00 0.360.41 0.33 0.:2'1 0.1,1 0.02

O.
0.30 0.04 0.00 O.LS 0.01 01 .11

.01 0.01 0.01 0.03 0.00 0.03

Ci'.1'EGORIES
SOCIa-PROFESSIONNELLES

COORDONNEES

i
5 -0.11 -0.1'1 O. 0.06 -0.0'1 .02 -0.01 -0.13

CONTRIBUTIONS

COSINUS Cl.. RRES

j
.2

P.HEL
!>.griculteurs 1.27 6.15 23.4'7 20 13 10.57 0.27 0.08

0.15
-0.01 -0.13

Artisans,
Cadres Prof. interm. Employs Ouvriers P.et.raits
J

o.
O. Dl

O.OB
. 26 0.33 -O.,B 0.36

-0.14 -0.15 -0.23 -0.01

0.13

O.lB
-0.03 0.02 -0.04 0.05

O.OB
.1'1
0.40

0.06
.13 0.01

-0 .'14 0.03 0.02 -0 .0'1 0.08


0.01

0.4 0.0 5.6


10.9 28.2 lB .6 4

0.9

5.6 49.9

.6

67.3 1.2

5.5
1 ~l

OB

0.07

o.
1 11. 30 3

3.0 0.9
1.7 :1.7.

16.56
19 . 41 2.12

2.5 7.6 16.3 0.3


-1.7

3.6

0.22 O. '1 ()

.1
13 .

.B2 0.83
0.80

.75 0.00 0.0"1

0.06 0.42 O. O.

73 0.01 0.01 0.10

O. Cll

o
0.01 0.23 0.02
.

o.
0.02 .00 .60

.07
0.00 0.00 0.02

.13

-o.
-0.'19

0.00

O.
62.8

o.
0.00

0.00
0.0'1

Aut.res inactifs

-o.

0.33

212

9 . L'analyse des correspondances

Dans la figure 9.3, les points ont des tailles proportionnelles leurs frqences marginales.
Facleur2,---_ _ _ _ _ _ _ _ _ _ _ _ _,--_ _ _ _ _ varavanE! _ _ _ _ _-.

Ouvriers

0.15

Rsidence Principale Parents


A

Amis

Employs A.utres inactifs

villag1 de vacances

o ---

---1It-----------------------Professions intermdiaires
.... Location Tente

-0.15

Agriculteurs .... Auberge de Jeunesse

Artisans, commerants, chefs d'entreprise

-0.30 -0.50

Cadres et professions intellectuelles suprIeures


i
1 1 1
1

-0.25

Rsidence Secondaire Parents

Amis 0.25

0.50
Facteur 1

FIGURE

9.3

9.4

ANALYSE CANONIQUE DE OEUXVARIABLES QUALITATIVES, JUSTIFICATION DE LA REPRSENTATION SIMULTANE

9.4.1

Mise sous forme disjonctive de donnes qualitatives

Le tableau de contingence N ne constitue pas en ralit le tableau de donnes brutes: il est le rsultat d'un traitement lmentaire (tri crois) de donnes releves sur 11 individus du type : (x}; xl) pour i l , 2, ... , Il o xl et xf sont les numros des catgories des variables qualitatives 2f1 et 3:2 La numrotation des catgories est arbitraire et on introduit , alors la reprsentation suivante comme au paragraphe 6.4.3 : A une variable qualitative gr 111 catgories on associe les 111 variables indicatrices de ses catgories: li 1; li 2, ]m. :[X(i) vaut 1 si x est dans la catgorie i, 0 sinon. Pour un individu i une seule des nI indicatrices vaut l les III - 1 autres valent o. Pour Il individus la variable binaires X suivant:

zr peut

tre reprsente par le tableau de donnes


2

nt

1
2

0 0 ...

0 0

17

...

'analyse des correspondances 9 .. L

213

On dit que f!l'a t mise sous forme disjonctive. On remarque que vecteur 1.
Il

2: ll.x

111

1 donc que les

III

colonnes de X ont pour somme le

A deux variables qualitatives stl et g[,'J;. correspondent donc deux matrices XI et X:. lignes et respectivement ml et 111:. colonnes. On vrifie alors les formules suivantes liant Xl et X:. au tableau de contingence N

et aux deux matrices d'effectifs marginaux DI et D:. :

N = Xi X 2 D,=X,X 1
D2

= xzX"!.

En effet, faire le produit scalaire de deux vecteurs d'indicatrices revient compter le nombre de co-occurrences.

9.4.2

Quantifications de variables qualitatives

Si chaque catgorie d'une variable qualitative ~r on associe une valeur numrique, on transforme gr! en une variable discrte III valeurs: on ralise ainsi une quantification de !Ze en une variable numrique x (cerlains auteurs parlent de codage }). Il existe une infinit de quantifications possibles dont la structure est celle d'un sous-espace vectoriel de l'espace des variables. Si
Clj

est la valeur numrique associe la catgorie j, on a :

2: aj]/
j=1

III

Une quantification n'est donc qu'une combinaison linaire des variables indicatrices.
Pour l'ensemble des n individus on a :

soit si a

=
a III

= Xa

L'ensemble des x est donc le sous-espace Wengendr par les combinaisons linaires des colonnes de X.

214

9aL'analyse des correspondances

9.4.3

Analyse canonique de deux groupes d'indicatrices

L'tude de la dpendance entre fIl'! et f!{~ est donc cene des relations entre les deux groupes de variables indicatrices associes. On peut donc appliquer l'analyse canonique tudie au chapitre prcdent. Les deux tableaux de donnes analyser sont les tableaux disjonctifs XI et X 2 . On constate immdiatement que les deux espaces WI et W2 engendrs par les colonnes de ces tableaux ont en commun le vecteur 1 qui est le vecteur somme des colonnes de Xl ou de X 2 (donc dim (W 1 n W2) 2:!: 1). Les variables canoniques autres que 1 formant des systmes D-orthonorms de WI et W:b sont donc centres, car elles sont orthogonales au vecteur 1. En supposant ici que les on a:
11

individus ont mmes poids 1ln, avec les notations du chapitre 8

v.,., --

1 t 1 =-X.,X., =-D"l
Il Il -

Vil;::::

-Xl X 2 =-N
11 11

V21

= -- N
Il

Les facteurs canoniques du groupe l sont les vecteurs propres de VIIIV 12V;-21V21 c'est-dire de DlNDlN' : ce sont donc les composantes principales de l'ACP des profils-lignes un facteur multiplicatif prs. De mme les facteurs canoniques du groupe 2 sont les vecteurs propres de D;-IN'D1N et fournissent les coordonnes des profils-colonnes sur les axes principaux. Les valeurs propres de \' analyse des correspondances sont donc les carrs des coefticents de corrlation canonique (ce qui prouve que :::;: 1) et la valeur propre triviale = 1 correspond au fait que W1 et W2 ont 1 dans leur intersection. Les facteurs canoniques donnent des combinaisons linaires des variables indicatrices, donc des quantifications de 2r( et 2C2 : on peut interprter l'analyse des correspondances comme la recherche d'une transformation simultane de 2f, et 2l':. en variables numriques telles que leur coefficient de corrlation linaire soit maximal. Cette prsentation plus connue des statisticiens anglophones est attribue Fisher, elle remonte en fait des travaux de Hirschfeld, alias H.O. Hartley, de 1936. Les valeurs numriques optimales attribuer aux catgories sont donc leurs coordonnes sur le premier axe de l'analyse des correspondances. Si l'on rordonne I1gnes et colonnes du tableau de contingence N selon l'ordre des points sur le premier axe principal on obtient un tableau tel que les termes diagonaux aent des effectifs maximaux. Les formules de transition sont identiques ceBes permettant de passer des facteurs canoniques d'un groupe ceux de l'autre groupe.

9111L'analyse des correspondances

215

Il n'est donc pas ncessaire dans ce contexte d'introduire la mtrique du X2 et on voit que les catgories des deux variables et sont traites de la mme faon en tant qu'lments de [R'! grce aux variables indicatrices ce qui justitie le fait de les reprsenter simultanment sur les mmes graphiques. Les reprsentations graphiques de l'analyse canonique (cercle des corrlations) sont cependant ici inadquates car la notion de corrlation avec une variable indicatrice n \a gure de sens: on se contentera de reprsenter chaque catgorie par ses codages ) successifs sur les axes.

9.4.4

Reprsentation simultane optimale des (m 1 + m2) catgories d'individus

Les catgories des variables qualitatives !!CJ et dfinissent des sous-groupes d'individus 2 d'effectifs Ili. (i = l, 2, ... ,1111) et 1l.j (j = l, 2, ... , 111:1). Si l'on dispose d'une variable numrique z de moyenne nulle reprsentant les coordonnes des Il individus sur un axe on reprsentera la catgorie i de !!Cl par un point dont la coordonne Cli est la moyenne des coordonnes des l1j. individus de la catgorie en question;

Xii

est la

[me

colonne de

XI'

On en dduit que le vecteur a renfermant les coordonnes des

n11

catgories de XI est:

de mme pour les

1112

catgories de X 2

La variable z est d'autant plus intressante pour Xl qu'elle permet de bien sparer les ai.
c'est-~dire

que la variance - a/DJa est plus grande. Le maximum de cette variance est
Il

obtenu s tous les individus appartenant une mme catgorie de de z.

, ont la mme valeur

Cherchons alors la variable z et les coordonnes a et b telles que en moyenne a'Dla et b ' D 2b soient maximales: on aura alors en un certain sens une reprsentation simultane optimale des catgories des deux variables sur un axe. Comme a'Dla b ' D 2b =
1 (A ,
Zl A 2 z,

= z'X1(X;

X1)-IX;Z = z'Alz o AI est le projecteur sur WI ; et

le maximum de

~ [a'D I a + b ' D2 b] s'obtient lorsque ~ [z/(AI + A 2)z] est

maximal. En supposant V(z) fix ce maxmum est atteint pour z vecteur propre de

+ A:):

216

9. L'analyse des correspondances

Comme Al

= X! D Il X '1 Z = X 1 a

et

soit en prmultipliant les deux membres de cette quation par DII X;

soit : et en prmultipliant par Di 1 X 2:

a + DI! Nb

2Jl.a

ou il vient alors:

DI!Nb = (21-L -1)a { Di'N'a (2f.L-1)b

On reconnat les formules de transition et par substitution on a :

DI! NDil N'a = (2f.L - l)Za { Di! N'DII Nb = (2f.L - Ifb


Ce sont les quations de l'analyse factorielle des correspondances avec (2f.L - 1)2 =
.

Remarquons que l'on aurait pu appliquer directement les rsultats du paragraphe 8.3.1 du chapitre prcdent: z est alors le compromis un facteur prs des deux variables canoniques ~ et Y). Les coordonnes des points catgories donnes par Je premier axe de l'analyse des correspondances sont donc optimales; les axes suivants correspondent au choix d'autres variables z orthogonales aux prcdentes. La signification relle de la reprsentation simultane est donc celle-ci: les points reprsentatifs des catgories des deux variables sont les barycentres des groupes d'indiv;dus qu'elles dfinissent. Les proximits entre points reprsentatifs doivent tre inlerprtes comme des proximits entre moyennes: pour deux catgories i et i' d'une mme variable cela entrane une proximit de leurs profils. Pour deux catgories i et j l'une de 2l'l l'autre de gr:. l'interprtation est plus dlicate. On peut galement reprsenter sur le graphique les cases du tableau de contingence: tout et j de a pour coordonne z sur un axe: individu de la catgorie i de
""
'7

= -

l 1 (a + b.) = --_-=1. 2f.L 1 l + 'l


2f.LZ.

(lli

+ bj )

d'aprs la formule XI a

+ Xl b

des correspondances

217

La mthode des moyennes rciproques


La prsentation suivante connue sous le nom de reciprocal al'eragillg ou de dual scaling claire galement la reprsentation simultane de l'analyse des correspondances. comme des points de Supposons que l'on place sur un axe les catgories de ln variable coordonnes [li' Par exemple les CSP dans le cas tudi prcdemment: CSP 1 CSP 2 CSP

o
Pour reprsenter une catgorie j de l'autre variable 2r::.., ici le mode d'hbergement, il semble logique de la reprsenter comme le barycentre des catgories professionnelles avec pour coefficients les importances relatives des diverses CSP dans le mode d'hbergement en ques-

soit b =

Di l N'a

L'idal serai t que la rciproque soit vraie, c'est--dire que l'on puisse reprsenter les catgories de gel comme barycentres des catgories de

a=DilNb
La simultanit de ces deux relations est impossible: on cherchera alors une reprsentation barycentrique simultane approche avec:

aa = D'Nb { ab = D;-' N'a


o a est le plus grand possible car a correspondances avec a = ..JI.

<

1. On retrouve alors les quations de l'analyse des

L'algorithme consistant partir d'un vecteur a O arbitraire, en dduire b(l) = D;-I N'ao puis a(l) = D 1 Nb(ll, etc., avec normalisation chaque tape jusqu' convergence fournit en gnral la premire solution de l'analyse des correspondances relative il ,I'

9.4.6

Conclusion

L'analyse des correspondances est la mthode privilgie d'tude des relations entre deux variables qualitatives et l'une de ses principales proprits est la facult de reprsenter simultanment lignes et colonnes d'un tableau de contingence. Si en thorie elle ne s'applique qu' des tableaux de contingence, elle peut tre tendue moyennant certaines prcautions d'autres types de tableaux comme le prouvera le chapitre suivant.

L'analyse des correspondances multiples

des correspondances multiples (ACM) est une technique de description de donnes qualitatives: on considre ici Il individus dcrits par p variables 2/;"1' . , !!l~} ml' m'l' ... , ml' catgories. Cette mthode est partculirement bien adapte l'exploration d'enqutes o les questions sont rponses multiples. Sur le plan formel il s'agit d'une simple application de l'analyse des correspondances au tableau disjonctif des 1111 + 1112 + ... + ln!, indicatrices des catgories. Cette mthode possde cependant des proprits qui la relient d'autres mthodes statistiques et lui donnent son statut particulier et en font l'quivalent de l'analyse en composantes principales pour des variables qualitatives.

10.1 10.1.1

PRSENTATION FORMELLE Donnes et notations

Chaque individu est dcrit par les numros des catgories des p variables auxquelles il appartient. Ces donnes brutes se prsentent donc sous forme d'un tableau Il lignes et p colonnes. Les lments de ce tableau sont des codes arbitraires sur lesquels aucune opration arithmtique n'est licite. La forme mathmatique utile pour les calculs est alors le tableau disjonctif des indicatrices des p variables obtenu en juxtaposant les p tableaux d'indicatrices de chaque variable Ainsi le tableau brut suivant:

1
2 2

2 2
2

2 2

3 3

220

10aL'analyse des correspondances

ITIUI[IDIF>~,~f!@

correspondant 5 observations de trois variables Ff2, 3, 2, 3 catgories ment engendre le tableau disjonctif X 5 lignes et 8 colonnes:
1 0

rpcnp,,..l-i ~

(X,IX:;IX 3 )

0 0 0 0

1 0 1 0:0 1 : 0 1 0 0 1:0 1: 1 0 0 0 1 : 1 0:0 0

0:0

1:0
l

o: 1 o:

0 0

La somme des lments de chaque ligne de X est gale p, nombre de variables. La somme des lments d'une colonne de X donne 1'effectif marginal de la catgorie correspondan te. La somme des colonnes de chaque tableau d'indicatrices est gale au vecteur 1 ; le de X est donc

2: 111
i=1

fl

i -

1.

On notera D le tableau diagonal des effectifs marginaux des ml

+ J11:; + ... + m" catgories:

10.1 .2

Une proprit remarquable pour p

=2
J

Pour deux variables qualitatives fit, et fIt; m, et ml modalits l'analyse facto .. rielle des correspondances du tableau disjonctif X = (X, 1Xl) est quivalente l'onalyse factorielle des correspondances (AFC) du tableau de contingence N X , X 1

Cette proprit est l'origine du nom de la mthode tudie ici.

10.1.2.1

AFC formelle du tableau disjonctif

L'AFC d'un tableau X revient chercher les valeurs propres et les vecteurs propres du produit des deux tableaux de profils associs X. Le tableau des profils-lignes vaut ici X/2. Le tableau des profils des colonnes XD- ' est tel que:

7O_ L'analyse des correspondances multiples

221

Les coordonnes des profils des colonnes sont les vecteurs propres de :

(XD- 1)'

1
-

= - D-IX'X
2

ml

L'quation donnant les 1111 + 111::. coordonnes des profils des colonnes est, en notant a les premires composantes et b les 111::. suivantes:

d'o les quations:

a + D'Nb = 2j.1a { D I N'a + b = 2j.1b 2

ou

DlNb { D 1N'a 2

= (2j.1 = (2j.1 -

1)a l)b

On reconnat les quations de l'analyse des correspondances de N (formules de transition) et par substitution: D 2 I N'D I Nb { DIND;-IN'a avec ~

= (2j.1 = (2j.1

- lfb - Ifa

= (2j.1

- 1)2.

Les coordonnes des nll + 111::. points colonnes de X sont donc identiques ( un coefficient de proportionnalit prs) aux coordonnes des lignes et des colonnes de N dans la reprsentation simultane.

10.1.2.2
Si
11

Proprits particulires des valeurs propres et vecteurs propres


111 1

>

+ 1112' l'AFC du

Lableau X va aboutir plus de facteurs que l'AFC de N.

D'o viennent les solutions supplmentaires? Notons tout d'abord l'existence d'une solution triviale supplmentaire correspondant une valeur propre nulle puisque les colonnes de X sont lies par une relation linaire (la somme des colonnes de XI est gale la somme des colonnes de X::.). Il y a donc 1111 + 1112 - :2 valeurs propres non trivialement nulles ou gales l. Comme ~

= (2j.1

- 1f, chaque

correspondent deux valeurs propres:


1 - {};.

et

j.1=---

222

10. L'analyse des correspondances multipl

correspondant aux vec te urs propres (:) et ( _ :) soit, si Il Ya en plus /Il,


de multiplicit 1112
-

/Il,

<

1/1,. 2(1/1, -

1) valeurs 11rn'........... _

."""

/Il,

vecteurs propres du type

(~) associs la valeur propre 1/2 qui est

JJ1 l'

Seules les (m 1 - 1) valeurs propres suprieures l/2 ont une signification. Comme:

l'inertie totale est gale

ml + m,
2

- - ].

Bien que fournissant des axes identiques l'analyse des correspondances de N, inerties assoies et les parts d' inertie sont trs diffrentes et ne peuvent tre sans prcaution. Ainsi l'analyse des correspondances sur le tableau disjonctif associ au tableau tudi au chapitre prcdent conduit aux rsultats suivants: (m, = 9 et ml = 8) :
~I =

0.628 0.545 7.5

8.37% 7.77% 7.27%

~I ~2 ~3
7

= 0.0657
= 0.0254

61.24% 23.7% 7.55%

/-L2 = 0.580
~3 =
15

= 0.0081

2: /-Li =
i=1

ml

+ Ill;! 2

2: ~i = 0.1073
""I

Les valeurs propres qui taient trs spares dans l'AFC de N, ne le sont plus dans l'AFC de X.

10.1.3

Le cas gnral

p> 2

La proprit prcdente conduit l'extension p variables qui consiste effectuer une analyse des correspondances sur le tableau disjonctif X = (X, 1X:!I .. X,,) pour obtenir: ainsi une reprsentation simultane des ml + Ill;! + ... + 1111' catgories comme points' d'un espace de faible dimension.

10.1.3.1

Coordonnes des catgories

On notera a

=
ap

le vecteur

2: 11l
1=1

l'

composantes des coordonnes factorielles des ca t-

gories de toutes les variables sur un axe.

to_L'analyse des corresponda.nc.es multiples

223

pour chaque valeur propre /-L on a donc:

D l
01
soit:
1

X;X I
X~XI

X;X 2 ... X(X,,- al


X~X1
a:.>
=j.L

al a:.>

p
()

n- I

"

X~XI .......... X; X" _ al'

aIl

On note B le tableau dont les blocs sont les X;-X j . Ce tableau, dt tableau de Burt, est un super-tableau de contingence puisque chaque bloc X;Xj est le tableau de contingence croisant i?ti avec &'l1. L'quation des coordonnes des catgories est donc:

[~D~IBa = ~a
On prendra comme convention de normalisation:

=JJ.
car la somme des lments de X vaut np.

10.1.3.2

Coordonnes des individus

Les lignes de X reprsentant les individus, les coordonnes des points-lignes s'obtiennent en diagonalisant le produit, effectu dans l'ordre inverse, des deux tableaux des protils. Soit z le vecteur Il composantes des coordonnes des 11 individus sur un axe factoriel. On a :

[~XD~IX'Z = ~Z[
En dveloppant par blocs XO-IX ' il vient:

(X', X 1)-'
(X~X1)-1

j.LZ

224

10. L'analyse des correspondances multipl

I-Lz = - 2:A j z. P ;=1


Xi(X~ XJ-1X/; est le projecteur orthogonal Ai sur l'espace engendr par les cOlmD1mllS(Jns linaires des indicatrices des catgories de !!t~.

Jl

ZO

tant la solution triviale associe ~ = ] les autres solutions lui sont orthogonales.

Les coordonnes des individus sur un axe sont donc de moyenne nulle. La condition habituelle de normalisation est: 1
-

/1

"" ~~/

7'~

= - z'z =
Il

11. r-

Il i= 1

10.1.3.3

Formules de transition et relations barycentriques

D'aprs les rsultats du chapitre prcdent on a :

1 -Xa

et

La premire formule s'interprte comme suit:

A 1/ {ji prs la coordonne d'un individu est gale la moyenne arithmtique simple des coordonnes des catgories auxquelles il appartient.
fi

En effet Xa

2:Xj3j. Pour un individu i les seuls termes non nuls sont ceux
j=1

correspondant aux catgories possdes (une par variable). La deuxime formule montre que :

A 1/{ji prs la coordonne d'une catgorie j est gale la moyenne arithmtique des coordonnes des nJ individus de cette catgorie.
Les points reprsentatifs des catgories dans les graphiques factoriels doivent donc tre considrs comme des barycentres : les proximits devront tre interprtes en terme de proximits entre points moyens de groupes d'individus.

10_ L'analyse des correspondances multiples

225

On a l/~ prs, la proprit des moyennes rciproques ) qui est l'origine de certaines prsentations de r analyse des correspondances multiples (dual scaling). z tant une variable de moyenne nulle il s'ensuit que pour chaque variable coordonnes de ses catgores (pondres par les effectifs) sont de moyenne nulle. est possible de reprsenter simultanment individus et catgories des variables les points reprsentatifs des catgories sont barycentres de groupes d'individus. les
Et~

car

Nous conseillons toutefois d'utiliser le systme suivant de coordonnes afin de conserver la proprit barycentrique :

z de variance IJ. et a = n- 1x'z


10.1.3.4

J;.a

Proprits des valeurs propres


(1

Le rang de X tant ~ 1Jl j


;=1
jJ

l, si

11

> Lm;. le nombre de valeurs propres non trivia-

ement gales 0 ou 1 est

2:mi - P =
;=1 li

q.

La somme des valeurs propres non triviales vaut:

2:f.1i = ;=1

Pi

~
1

J.l

1/1;-

L'inertie est donc gale au nombre moyen de catgories diminu d'une unit: c'est une quantit qui ne dpend pas des liaisons entre les variables et n'a donc aucune signification statistique. La moyenne des q valeurs propres vaut Ilp. Cette quantit peut jouer dans une certaine mesure le rle d'un seuil d'limination pour les valeurs propres infrieures comme nous allons le voir. La somme des carrs des valeurs propres est lie, eHe, des indices statistiques.
f.1::! tant valeur propre du carr de la matrice diagonaliser on a :

1+

2: (f.1rf
<=I

Il

o <P~ est Je

c.p='-

de K. Pearson du croisement de

avec Et).

226

10.L'analyse des correspondances

Si les p variables 2r}>

,,"
P-

2l~,

sont indpendantes deux

"" ") 2./1-1-,)i

] 2.;(m, = -:; ""


Pi

1)

1 -:; q.

On a donc:

La moyenne des carrs ne peut tre gale au carr de la moyenne que si toutes les "'r" ....,"""
V

propres sont gales, Le cas de l'indpendance correspond donc il I-I-i

1
l'

Vi.

On retrouve galement cette situation si les donnes sont recueillies selon un quilibr o les ml 111'). /Ill' combinaisons possibles des modalits des sont '""h"'-'L-,,',,;,!, ves avec le mme effectif car tous les tableaux croiss X j ont alors les protils. Pour un tel plan d'exprience l'analyse des correspondances multiples est inutile.

X;

10.1.3.5

AFC du tableau de Burt

Si l'on soumet le tableau B il une analyse des correspondances on retrouve, une constante multiplicative prs, les mmes coordonnes factorielles des catgories. Le tableau de Burt tant symtrique les totaux de lignes et de colonnes sont gaux (on retrouve P fois les totaux marginaux). Le tableau des pronIs-lignes associes il B est donc (pD)-1 B. Le tableau des profilscolonnes associ B est B(pD)- 1. L'AFC de B revient donc diagonaliser:

qui conduit aux mmes vecteurs propres que - D~IB avec des valeurs propres gales f.L2,

10.2

AUTRES PRSENTATIONS

L'extension formelle du cas p = 2 au cas gnral ne suffit pas pour confrer un statut de mthode statistique l'analyse des correspondances multiples. Les prsentations qui suivent, la relianl d'autres mthodes, y contribuent en apportanL des clairages diffrents. Chacune de ces prsentations correspond une "dcouverte" indpendante de rACM.

des correspondances multiples

227

Analyse canonique gnralise de p tableaux d'indicatrices


On sait que l'analyse des correspondances d'un tableau de contingence est une analyse canonique particulire, cene des tableaux XI et X::!. Lorsqu'il Y a P tableaux d'indicatrices associs p variables qualitatives 21;'" .. " est naturel d'utiliser la gnralisation de l'analyse canonique tudie au chapitre 8.

3:;1'

Celle-ci revient chercher les vecteurs propres de la somme des oprateurs de projection

sur les sous-espaces engendrs par les colonnes des Xi'


Au coefficient l/p prs, les valeurs propres sont donc les mmes qu'en analyse des correspondances multiples. Les composantes z sont donc identiques aux variables auxiliaires de la gnralisation de Carron de l'analyse canonique.

Un critre d'association maximale


Puisque l'analyse des correspondances mulLiples est identique l'analyse canonique gnralise de X" X2,
,

X p' les variables z rendent maximale

2: R2(z : X;).
1

fI

Or X j tant un tableau d'indicatrices, le coefficient de corrlation multiple n'est autre que le rapport de corrlation ll(z/X i ) (chapitre 6, paragr. 6.4). Les variables z sont donc les variables de variance J.L, non corrles deux deux vritiant : max
z

2: TJ2( z/ !ft,)
i= 1

f'

Si l'on se rappelle qu'en ACP norme, les composantes principales rendaient maximale

r= 1

L rl( c ; xj) on a ici l'quivalent d'une ACP sur variables qualitatives, la mesure de liaison
,.2.

l'

tant Tl 2 au lieu de

L'analyse des correspondances multiples revient donc rsumer p variables qualitatives par des variables numriques de variance maximale les plus corrles possible, au sens dfini prcdemment, avec les f!e;. Lorsque les variables

a:':!. ... ,

sont dichotomiques (mi

= 2) le

tableau X possde

2p colonnes.
01
tO 01

228

10. L'analyse des correspondances multipl

Le coefficient de corrlation multiple au carr entre z et Xi est alors au carr coefficient de corrlation linaire simpJe entre z et l'une des deux indicatrices de puisque la somme des deux indicatrices vaut L

On a donc:

2: TJ2(Z ; g()
=I

l'

i=l

i=1

Dans ce cas r analyse des correspondances multiples de X revient effectuer une norme, c'est--dire sur la matrice de corrlation, sur un tableau JI lignes et p COllonne.~:U; obtenu en ne conservant qu'une indicatrice par variable qualitative.

10.2.3

Quantification optimale de variables qualitatives

On retrouve la solution de l'analyse des correspondances multiples. tout au l'quation du premier facteur, en cherchant rsoudre le problme suivant : tr~n",I'l"\"'''''''l,,~:.';i de faon optimale (selon un critre dfinir) chaque variable qualitative mi modalits une variable discrte il mi valeurs. On sait qu'une telle quantitication s'crit ~i = Xiai ~i est la variable numrique obtenue, ai le vecteur des valeurs numriques attribuer modalits. 10.2.3.1

ACP de variables quantifies

On cherche ici obtenir une ACP des ~i qui soit la meilleure possible au sens o premire valeur propre I de la matrice de corrlation des ~j est maximale. Ceci il chercher:

or:

mrx r (z ; ~)
2
-1

R 2(z ; X)
fI

on est donc amen rechercher le max de

2: R
j=1

(z;

X). Les

codages

optimaux des

catgories ne sont donc autres que les coordonnes de ces catgories sur le premier axe de l'analyse des correspondances multiples de X.

10.2.3.2

Guttman et l'homognit maximale

En 1941 L. L. Guttman avait abouti aux quations de l'analyse des correspondances multiples en rsolvant le problme suivant: tant donn un questionnaire choix multiple il p questions ayant chacune mj modalits de rponse (une seule rponse possible chaque question), on veut attribuer des notes chaque modalit de telle sone que les variables numriques ainsi cres ~j sOent les plus cohrentes au sens suivant : les rponses aux p questions doivent conduire des notes proches, tout en donnant une note globale moyenne la plus disperse possible.

L'analyse des correspondances multiples

229

Considrons le tableau

Il,

p des variables
~I

~j:

., .....

~/'

ll .. 11'

Il

notons ~I' 2. .. ' ;" les moyennes des diffrentes lignes:

Supposons, ce qui ne nuit pas la gnralit que chaque ~j est une variable de moyenne nulle. On cherche alors avoir des mesures les plus homognes possible en minimisant en moyenne la dispersion intra-individuelle.

l~t: . Pour caque 0 bservatlOn cel l ' vaut- L.J (Sij h e-Cl
P J=I

t"ld one en moyenne elle vaut: e:,;)-

La variance totale du tableau des moyennes :

(~ij)

tant gale la moyenne des variances plus la variance

il revient au mme de maximiser:

- 2:(Y
ni;;:;1
/1

II

- 2: 2: (ijf!
np
i=1 j= 1

l'

Or:

l
P

Xa

donc:

230

10.L'analyse des correspondances

/1

2.:c~j)1 = ~jj = (Xja)'(Xja)


i=l

ajDjaj

d'o: La quantit critre vaut donc:

-.,a'X1Xa
I1P-

1 a'X'Xa
p aiDa

-a'Da
IIp

Son maximum est atteint pour a vecteur propre associ la plus grande valeur nromp'"'j'0 l l 4e - D-1X'?C On retrouve bien le premier facteur de l'ACM de X.
p

10.2.4

Approximation d'ACP non linaire


Xl,

Revenons sur le chapitre 7, 7.6 : pour P variables numriques che une combinaison linaire de variance maximale :

x\ ... , xl', ]' ACP

Si l'on veut s'affranchir de la linarit, on peut chercher des transformations les


!.p1(XI), ... , !.pJl(xP)

rorlCUOnIlel-

des variables telles que

v(.
1;;1

!.pj(x ))

soit maximal.

Choisissons pour les i.pj des fonctions en escalier (conSlantes par morceaux) ou splines de degr O. On sait que ces fonctions permettent d'approximer n'importe quelle fonction numrique. Concrtement on dcoupera l'intervalle de variation de x j en mj classes (fig. 10.1).

.
j
2
FIGURE

j
xl

10.1

des correspondances multiples

231

<pj(x j ) est une fonction prenant les valeurs al' a~, ... , amj sur les intervalles de dcoupage;

s'explicite comme la combinaison linaire des variables indicatrices des classes du ,iirMcloUr)uge, coefficients al. a2' ... , (lm/

Le cri tre max

v(7

cpJ(XJ

) est donc identique au critre max v( ~ XJ" j). La solution est

donne par la premire composante de l'analyse des correspondances multiples du X obtenu en dcoupant en classes chacune des variables numriques. La pratique qui consiste dcouper en classes des variables numriques, donc les rendre pour ensuite effectuer une analyse des correspondances multiples se justifie par fait qu'il s'agit d'une analyse non linaire des donnes. Sous rserve d'avoir suftsamment d'observations par classe on peut ainsi visualiser des liaisons non linaires entre variables qui ne seraient pas apparues en ACP ordinaire o )'on travaille avec la matrice R des corrlations linaires.

10.3

PRATIQUE DE l'ANALYSE DES CORRESPONDANCES MULTIPLES

L'interprtation des rsultats d'une ACM se fait grosso-modo comme en analyse des correspondances sur tableau de contingence et comme en ACP. On prendra garde ici au fat que les pourcentages d'inertie n'ont qu'un intrt restreint. La slection et r interprtation des axes factoriels se fera essentiellement raide des contributions des variables actives et des valeur-tests associes aux variables supplmentaires. Rappelons une fois encore la signtication des proximits entre points-colonnes sur un plan factoriel : il s'agit d'une proximit, en projection, de points moyens de catgories reprsentant plusieurs individus.

10.3 . 1 les contributions


10.3.1.1 Contributions un axe factoriel
Clj

Une catgorie d'effectif Jlj qui a une coordonne contribution (CTR) gale :
-L(ai
j.L
Il

sur un axe factoriel fournit une

. np J CTR(j) = - -

On

les modalits intressantes qui ont une contribution suprieure leur poids n j.
np

En correspondances multiples, les modalits d'une mme variable tians qui peuvent tre cumules.

ont des con tribu-

232

10aL'analyse des correspondances

"'11I't' ..... I.__

On dfinit la contribution cumule de


Ill,

comme:

CTR(Er;) = ~CTR(j)
j=1 a) tant {J, prs la moyenne des coordonnes des individus de la catgorie j de Z~'i' contributions cumules sont relies au rapport de corrlation entre la composante z de variance J.1 et la variable par:

Remarquons que

1']2

< 1 entrane CTR(2Ti ) < - et que PfL


Il

P i=1

2.: T)2(z/~) =

l'

J-L.

1 On utilise comme en ACP les contflbutims des individus - (zJ! / J-L, et comme en ACP
AFC les cosinus carrs avec les axes pour juger de la qualit d'une projection. On pourra utiliser ici le rsultat donn au chapitre 7 : un individu aura une contribution signiticative si celle-ci dpasse 3.84 fois son poids.

10.3.1.2

Contributions l'inertie totale


-

. L' . mertle totale vau L, rappelons- le, -l.f, nl; L


Pi;ol

-1 1. Le nuage des prott s-colonnes a pour centre

de gravit le vecteur de ~Jl dont toutes les composantes valent 1/11 : en effet la somme des colonnes du tableau disjonctif est le vecteur constant dont toutes les composantes valent p. La mtrique du X2 pour le nuage des profils-colonnes est donc la mtrique diagonale nln (diagonale des inverses des frquences marginales). Le carr de dislance d'un point catgorie j au centre de gravit g vaut donc: d 2 ; g) = (j o
11

Il})X i)/1l)
i=1

l/Ilf!
0 ou 1 on a

Xij

est le terme courant de la/Ille colonne du tableau disjonctif. Comme xi)

X~ = xijd'o:

comme ~ x ij
1

11)

il vient ;

11

Une catgorie est donc d'autant plus loigne du centre que son effectif est faible.

tO_L'analyse des correspondances multiples

233

11" Son inertie vaut -L d 2(j, g) =


'W

(11,) -: l - -1 1
n

ll j )

La contribution d'une modalit l'inertie est fonction dcroissante de son effectif. Il convient donc d'viter de travailler avec des catgories d'effectif trop faible, qui risquent de perturber les rsultats de l'analyse (absence de robustesse). L'inertie totale d'une variable! I(n;), vaut:

ni) ~ = ___
Il

1_)

P
p

P
1)

sa contribution est donc:

1 - Lm p

L(mi - 1)
i

Elle est d'autant plus importante que son nombre de catgories est lev. On recommande gnralement pour cette raison d'viter des disparits trop grandes entre les nombres de catgories des variables f1~, lorsque l'on a le choix du dcoupage.

10.3.2

L'usage de variables supplmentaires

Dj voqu lors de l'tude de r ACP, l'usage de variables supplmentaires est trs courant en analyse des correspondances multiples. Rappelons que les variables actives sont celles qui dterminent les axes. Les variables supplmentaires ne participent pas au calcul des valeurs propres et vecteurs propres mais peuvent tre reprsentes sur les plans factoriels selon le principe barycentrique pour les variables qualitatives: chaque catgorie est le point-moyen d'un groupe d'individus. Pour les catgories des variables suplmentaires qualitatives on calcule comme en ACP des valeurs-test mesurant en nombre d'cart-type l'loignement de r origine. Entn il est possible de mettre en variables supplmentaires les variables numriques qui ne peuvent pas tre aClves ( moins de les rendre qualitatives par dcoupage en classes) : Elles peuvent tre positionnes dans un cercle de corrlation avec pour coordonnes les corrlations avec les composantes de l'analyse. Soit aj la coordonne d'une catgorie d'une variable supplmentaire, d'effectif l1i , sur un certain axe d'inertie gale J.L :

234

10.L'analyse des correspondances multples

On sait que si les I1j individus de cette catgorie taient pris au hasard parmi les Il individus de r chantillon (sans remise) la moyenne des coordonnes des I1j individus concerns serait une variable alatoire centre (puisque par construction les composantes z sont de moyenne nulle) et de variance gale 1:: 11
nj Il -

(voir chapitre 7)_


J

Avec les conventions habituelles de la reprsentation simultane llj est gale 1/~ fois l-I la moyenne des coordonnes, la quantit est donc la valeur-test

aj-r;;; --Il -

nj

Le calcul des valeurs-test n'est lgitime que pour des variables supplmentaires n'ayant pas servi il la dtennination des axes. Leur utilisation pour des variables actives ne doit tre considre qu' titre indicatif: les valeurs-test pour les variables actives sout en gnral trs leves, ce qui est normal car les variables actives dterminent les axes.

10.4

UN EXEMPLE: lES RACES CANINES

Les donnes communiques par M. Tenenhaus (tableau 10.1) dcrivent les caractristiques de 27 races de chiens au moyen de variables qualitatives, les 6 premires ont t considres comme actives, la septime, ~< fonction , comme supplmentaire: ses trois modalits sont compagnie chasse utilit . On remarquera que les paires d'individus (5, 26) (8, 22) (11, 19) ont des valeurs identiques pour les 7 variables, il y aura donc des observations confondues. Le nombre de modalits actives est 16, ce qui conduit 10 facteurs et une inertie totale de 16

1.667, le critre f.L

> l/p conduit ne retenir que trois axes, le diagramme

des valeurs propres montre cependant une chute aprs /Jw2- On interprtera donc uniquement les deux premiers axes (tableau 10.2)1. L'axe 1 oppose ( droite) les chiens de petite taille, affectueux, qui concident avec les chiens de compagnie (valeur-test 4.06), aux chiens de grande taille, trs rapides et agressifs (fonction utilit). L'axe 2 oppose (en bas) les chiens de chasse, de taille moyenne, trs intelligents fI des chiens lents et peu intelligents. Le tableau 10.3 eSlle tableau de Burt qui rsume les liaisons deux deux entre les 6 variables actives. Le tableau 1004 permet de reprer les modalits contribuant fortement l'inertie des axes et sa lecture doit tre complte par celle du tableau 10.5 qui fournit les valeurs tests. Le tableau 10.6 permet d'apprcier la qualit de la reprsentation graphique (tig. 10.2).

(_Les calculs ont t effectus l'aide du logicel SPAD, version 5.6.

TABLEAU

10.1

TABLEAU DISJONCTIF

2 Taille Poids

3 Vlocit

4 Intelligence

5 Affection

6 Agressivit

1 3 4
5

+
0 0 1 0

++
1

+
0 0 1 0 0 1 0 0

++
)

+
0 0 1
1

++
1

+
1 1 1 1

Fonction Co. Ch. Ut.

Cl..
(1)

6 7 8
9

la
II 12 13 14 J5 16 J7 18 19

2a
21
21

23 24 25 26 27

Beauceron Basset Berger Allemand Boxer Bull-Dog Bull-Mastiff Caniche Chihuahua Cocker Colley Dalmatien Dobermann Dogue Allemand pagneul Breton pagneul Franais Fox-Hound Fox-Terrier Grand Bleu de Gascogne Labrador Lvrier MuSliff Pkinois Pointer Saint-Bernard Setter Teckel Terre-Neuve

a a
1

a
l

a
1

a
1 1 0 0 0 0 0
1 1

a a
0 0

a a
0 0
1
J

a a

0
)

0 0
1

0
1

a
0 0
1

a
1 0 0 0 l

0 0 1

a
0 0 0
1 0 0 0

a
1 0 0 1 1 0 0 0 0
1

a
1 0

a
1 1 1

a
1

1 0 0

a a a 0 a a a
0 1 0
0

0 1

a
1 1 0 1
1

a
0 0 0 0 0 0 1 0

0 0 0 0 0

0 1
1

0 0 0 0 0 0
1

a a
1

0 0
()

0 0
0 0 0
[
j

l 0 1 1 1 0 1 t
1

a
0 0 0
1

a
0
0

a
1 0 0

a
1 0

1
()

a
1

a a a 1
0 0 0

1 1
J

0 1 1 0
l

1 1 0

1
1 1

0
1

a
1 1 0

1 1
J

a
0

a
1 l

a a a
0
1

a
0 1

a a 0 a a a
0 0
1 1

0 1 0
t

a
1 1 1 0 0 1 0 1

a
0
0

0 0

a
1 1 1 0

a
1 0 0
0

0 0 1
1 0

a
1

0
1

0 1 0 0 0
0

0 1 1

1 1 0 0 1 0

1 0

a
1 1 0
()

a
1 0 1

a a a
0 1 0

a a
1 0

0
0 0 1 1

a
1 1 1 0 1

0 1 0

a
1

a
0

a a

a
0

a
1

a a J a a 0
1

a a
J

0 1
()

0 1 1 1 0 0 0

a
0 0
l

1 0 1

0 0 1 1 0 0 1 1
1

1 1

0 0 0 0 0 0

1 0 1 0 0 1

VI

o ..., ...,
(1)

VI

"'0 :J

o
n

lU :J
VI

Cl..

0 0
()

l'Il

-5'

c ;:;-

a
0

a a
0 1
1 1

if

a
1 1 0

a a a
1

a
1
J J

0
1 1

0 0 0

a
0 1

a
1
1 1 1

a
0 0

1 0 l

0
1

0 0 1

a a
0 1

1 1

0 0

a a

a
0

a
1

a a a
1 0

1 0
1

a a
l 0

a
0
l

0 0 0 0 0 0
1

a
0

a
0
1

a
1

1 1

0 1 0

0 0 1

N
l.U

V1

Q)

N W

TABLEAU 10.2
lT.:"C.RAMt.!F. DES l r'lUl'lERO VALEUR PROPRE
10

'!.'"-L,EURS PROPHE3 POURCENTAGE CUt-IULE


28~90

POURn~NTAGE

0.4816

28.90

2 4 5

8
10

.3847 0.2110 0.1576 0.1501 0.1233 0.0815 0.0457 0.0235


0.0077

23.0B 12 66 9.45 9.01 7.40 4.89


J.7~

1.41
0.46

51.98 64.64 74.09 83.10 90 50 95.38 98.13 99.54


100.00

r~*.**~**~Y*~*.~*.'**k*j~*~**~**~*.~*~.*.**~*****.**.k*.*A * * * *.* * *~k.r* * *.** * ** *.*** _ *

*****.**~*****.*

*, *.* *.* *.*ko* **_**o *.**.**A _* * * * *


w

Cl

....

** *~.*.* *

1
::J
11'

p.1

~ fi)
0fi)
VI

..." ..." fi)

{;
::J
pJ

0-

::J
fi) VI

-5' iD VI

;;:"

3 c:

..... c::,:, 1
~

r:
::l
~

..:c
VI

rD

TABLEAU TABLEAU DE BUR'I' TAI


'l'Al TA:::!. 'l'A 3 7 0 0

10.3
VEJ : IN1 IN2 H13 APl AF2 :
.L\.G1

0.
rD
VI

T1\2
0 5 0

TA3
0 0 15

POl

P02

P03

VEI

VE2

AG2

o o
VEl VE2 VE3 5 2 0

l 4 0
1 4 0

0 10

0 14

0 0

5
4 2 9

0
6 2 0

0
0 6 8

5
4 0 1

10 0 0

0 8 0

0 0 9

nn
11'12 IN3
l1 ?F2

3 3 l
1 6
5 2 Tl

0 4 1
0 5
3 2 1'1\2

5 6 4
12 J
6 9 TA3

3
Il 1

3 2 7:2 '1 l.
7 7
8 6 PO}

4 5 1
5

l 5 2

3 3 3
6 J
1]

8 0 0
6 2

0 13 0
4 9
8 5 IN2

0 0 6
3 3
3 3 IN3

1
"1

5 0
l /1 P03

13 0

1]

14
14 0 AGl
0

AGI

5 3 POL

5 5

8
AFl

5
AF2

13
AG2

VEl

VE2

VE3

"'-J

l'V W

l'V W

co

TABLEAU
BODALITES COOHDONNEES

10.4
CON'l'IUBOTIOHS COSINUS ChRRES

IDEN-Lf3ELLE

P.REL

DrS'I'O

1:2

<1

Tai1 'l'Al PE'ITT'E T;'.ILLE 'l'A2 - 'l'AILLE J:<10YENNE '1'/,3 - GE.Il.NDE 'l'AILLE

1.32
0.84

0.93 -0.62 0.12 -0.02 12.6 .6 7.8 -1.23 1.U2 0.34 -0.31 4.612. 15.1 -0.02 -0.05 -0.17 011 13 0.0 0.1 CUl-lULEE = 30. :n.823.0
-o. -0.23

0.4 1

01.'1

0.0 2.0 0.8 2.8

0.49 0.30 0.13 0.01 0.00 0.16 34 O. 0.030.02 0.88 O.GO 0.00 0.()1j 0.02

Pois
pal
1'02 1'03 -

PET11' POIDS POIDS '!OYEN POIDS ELEVE

4.94 64 ] 09

0.16

-0.05 -0.19 0.61

H.O .7 3.0 0.9 1.7 15.1 .2 0.8 .6 7.6 :21.8.1

O. 0.29 0.05 0.01 0.00 0.10 0.7:. 0.06 0.0::1 0.04 0.230.22 0.3' 0.00 0.09

CUMULEE

3 . Vlocit
VEl - LENT VE2 ASSEZ Ri"PIDE VE3 TRES RAPIDE
Intelligenc~

22.3
.3 3.7 9.2

31.4

.0
0.3 1.3 2.0 .6 3.8 .5 0.0 8.4 0 06 O. 6 <1 O. 09 O. 00 O. 0 (, O. 0.33 () OS O. 0.06 O.lQ 0.07 0.29 0.D3 0.00

G 17

O. 3 l -0.37 .01

14.2
PEU INTELLIGENT IN~ - INTELLIGENCE ImYEHNE IN] THI':S INTELLIGENT INl 4.94 8.02 3.70 0.81 -0.29 -0.35 0 119 02

17. 5 tl 7 10.1 3.0 2. 15.3 29.6 23.0

-1.

-o. .15 1.28 1.06 CUMULEE

1. .3 0.9
~.4

8.4 9 0.0 35.2 .'f 9. 1.5 .1 2.0 O. 38.2 12.1 18.5 56.8 1.7 1.6 .3

0.05

a.oo

1
O. 0.02 0.32
Il.)

...... c

~f
ro
c.. ro

~
ln

AEtection
IL 8.6'1

APl PI::U hFFEC'PUEUX AF2 - AFFECTUEUX


fi

.OB 0.93

0.84 0.29 -0.78 -0.27

0.07 -O.OB -D 04 08 0.04 Cur1ULEE -0.31 -0.51 0.35 0.33 0.55 .37 CUHULEE

11.6 10. 22.'[

O.::: 0.2 0 3

O. 0.3 0.7

08 0.00 .01 0.00 0.08 0.00 D.Ol O.DO

o '"1
'"1
VI

ro

AGl AG2 - AGRESSIF

Agressiv,it PEU AGRESSIF

8.61 8.02

0.93 1.

-G.llQ

-o.
0.21

0.,13

.9 .1

O. 1. a

3.914.4 7. il.':: .5 7.5 J :2 9 14 5

0.17

!l.Ol 0.10 0.280.13 .0,: 0.10 0.21:l 0.13

" c..
:::J :::J
~

-6'

3 c

ff

~
TABLEAU
1'!ODALI'l'ES IDEN -

10.5
COORDONNEES

1 r

w::l
pJ

V_~LEURS-TEST

--<
VI

!tl

LIBELLE

EFF,

P .l\BS

;)

DT S'l'O.

Taille
TAI TA 2 TA3 - PE"TITE 'ri,ILLE - TI,ILLE NOYEt]NE 'rAILLE 7 5 15 7 .00 -3.6 -2.1 il.B 2.f:l -3.0 -0.1 -1.9 2.5 -0.3

.,1
-1.

-O.L -0.8 O.G

-1.18

-o.
0.84

0.92 -1.23 -0.02

-0, 1. -o.

.12 0.34 .17

-0.02 -0.31 0.11

J.86 4.40 0.80

m .., o
::l

m n o .., ..,
a.
w
VI

a.

Poids
l'Dl PETIT POIDS POIDS --10YEN POIDS ELEVE

::l

14

.00 H.OO 5.00

-3.9 1.6 2.5

:::.7 -4.3 2.4

-1.2 .0

() -G.G 0.2

-O.::: -1.0 1.

-1.17 0.31 ,2

0 -0 0.97

-0.36

-o.:n
1.22

O.lG -0.12 0.07

.05 -0.19 O.Gl

2 38

!tl

3
VI

vlodt6
VEi. ifE? VE3 - j,EN'!' - ASSEZ HAPID2 - 'l'HES Rf1PIDE 10 B 9 10.00 B.OO 9.00 -1.3 -2.0 3.2 1.6

-6'

rt

c::

1.:::
-1.

-:L8

-0.3 1. -0.9

1.2 -1.2 o.a

-o. -o. 0.89

.04 -0.89 -0.37

0.,10 0.36 -0.76

-0.08 0.37 -0.24

0.31 -0.37 .01

1.70 2.3f:l 2.00

ml IN2 IN3

rntelligence PEU Hl'L'ELLIGENT


- HJ'i'ELLlGEHCE llOYENNE - THES IN'l'ELLiGENT

a 13 fi

B.OO 13.00 6.00

1.2 .B

2.7 -1.,1 -1.3

-1.2 2.,1 -1.

0.1 -3.0 ].5

-3.4 0.7 ::1.9

.37 0.34

0.81 -0.29 -0.'l6

-0.35 0.49 -O.GO

0.02 -0 1.

.0<1 0.15 LOG

::.38 1.08 3.

Affection
AFl liF:! PEU Ai~FECTUEUX AFPEC'l'UEUX 13 1\ 13.00 4.1

14.00

-,.1.1

1.,1 -1.'1

0.3 -0.3

-0.4 0.4

O.

0.84 -0.78

0.29 -0.27

0.07

-O.

-O. 0.08

-0.04 0.01

l.08 0.93

".gress i vit:
AG1
!IG2

..;GRESSIF i\GRESSTF

14 13

1'1.00
DO

-2.1 2.1

-1.0 l.0

-1.6 1.6

.7

LB -1.8

.40
(J.1;3

-0.19 O.

-0.31
0.33

-0.51 0.55

0.35 .37

0.93 1.

7 ml
F02 -

Fonction
COf.!PAGNIE CHi\SSE

- UT l L TT 1\ lE E

10.00 9.00 8 . 00

-4..1

1.:::
J .1

O.'i -1.6

-0.3 -G.'! 1. 1

0.0 -1.
L -,

-1.[;,1 0.32 0 . 5' '1

O.

-0.,13
0 . 37

-O.O -0.35 0 . 'lll

-0.09 -0 18 0 . 3::'

-0.01 -0.-1:1 0 . 51

1.'10 .00 ::. . 3 B

N W \.D

I\J

o
TABLEAU 10.6
INDIVIDUS
IDS1'l'l'Ifo" ICA'rEUR BEAUC!'.:HON P. REIJ

COOP.DONNEES

SASSE'l' BElmEfI. ALLE1,lII.ND 30XEP.


BULL-DOG BULL,-I.!ASTTFF

3.70 3.70 3.70 3.70 3.70


3.70

CANICHE
CH l HU1\1!IJA

COCKER CQ[,f,c,Y DM. "\1I n EN DOIlCRNAl'lll


ALLE1!.-\ND

J.70 J.70 .70 3.70 3 70 3.


BRr:;TON

1.6.1 .09 2.15


1.86

J.
:1.'/0 3.70 3,'10 3.70
] .70

1.93 1.11 1. 77 .56 1.95 2.18

FR!,HClHS FOX-'fERHIER GP'i,l']O BLEU DE GASCOGNE


LABJ\ADOR

-0.,12 1.10 -0.,16 -0.88 -LOLO. 0.75 -0.91 -0.84 0.8:1 -0.73 0.08 0.12 -O. 6 5 - 0 . 99 0.87 -0.32 1. 0.51 -o. -1.04 0.14 -0.52 0.03

-0.10 -0.19 -0.50 0.G9 -O.Hi 0.50 -O.5fJ -0,17 (l.Ut)


-(J.J)

-0, 0.17 0.06

-0.21 0.29 0.58 0.26 -0.35 0.66 O. -0.09 0.19 -0.66 - O. 1 9 0.51 O,OG

-0 -O.':):! 028 -0.46 0.33 0.72 0.43 -0.i8 -0.10 0.19 - 0 . 14 0.J4 -0.32 0.::'5

0.13 0.5

1.7 11.7

5.'1

4.1 0.1 3 . ::: 5.9


IL~

0.13 -0.36 0.05 0.04


a <\ G 0.::>1 - 0 19

a.oo
-0.66

LB O. 5,

J.l 2.D J.1 7.0 7.5 1.6 .9 O.~i J.9 .9 4.:\.1 0.0 s.n 9.3 3.~! O. 0.8 .fI 10.2 3. 0 . il 1.0 G.! 7..5 0.1 10.,1 Il.S 2.6 5.:: O.O.

O.:! O.G .'l 8.';

0.63 n.02 O.H 0,16 0.22 il.43 0 0.04 0.18 O. 0.07 0.1<10.120.210.25 D,DO U.l~ 0.180.09 0.12 0.00 0.02 0.23 O. 0.01 10 0.39 0.0] (l. 0:; 0.0l 13 0.17 0.04 0.01 [l.OO 0.'190.00 D,l? 0.22 0.01 0.00 0.00 O. 0.3:.! 0.01 .01
0

1 r::J CJ
VI

CJ-

0.14 -0.11
- il. 9:1

-0.27 -0.il2

6.00.20.11. 2.i n.l 0.0


3 :: 9 . ,I ] . '1 fi . J 0 (3

0.00
0 . 1:; a

0.04 0.46
0

-<
lb Cl.. lb
VI

LEVRiER
H;'SI'IFF

. 7U 3.7U 3.7U

PEKINOiS

1. 3 ') l.90 l.86


1.5,~

0,
81 0.67

- il . 0 9

- 0 . 60 O.
-o.

- 0 . ,1 fi
09 O.OG

3.

0.l 7.6
6.9 1.7

S. 0

0.0l U . .n D.]fJ 0.12

0 . 2 ij 0.113

POHn'E:n.
SJ\HiT-[!EPJ/AJW SETTER TECl,EL TERRE-NEUVE

3.7U 3.7D 3.70 3.70 .70

n.H9 n.!H -042

cL4
5.4

G.l

o.,j
U.2

-0.69 -U.29 -0.16 0.66

,Il 8,j
1,1.0

0.12 0.31

0,1 0.0 0.00 0.00

n
0.U2

D.JO
(l.OG 0.0:::

.,
ro VI
-0
::J

o "'t

1.69 .H

0.513 O.

0.89.13

-0.73 -0.35 -0.58

0.33 0.16
0.33

3.-'
1.4 1.1

0.2!

a.,n
0.07

1.5

1.6-! 1.66

-1.01 0.3[1

0.64

VI

Cl..

lb

10_ L'analyse des correspondances multiples

241

Facteurr2~

____________________
Lent

Reprsenlaton des individus et des variables dans le premier plan factorial


~

______________________________________--,
Poids lev

A. 08ASSET
MASTIFF .\
PelJ/fJ taille

1.0

CHIHUAHUA PEKINOIS

Pelil poids :) BULLDOG TECI<EL A.

A
SAINTBERNARD .\ BULLMASTIFF DOGUE ALLEMAND TERRENEUVE A Ulllil
Peu affectuewc

0.5

ompagnie

FOX- TERRI ER Jo COCIR

Jo
CANICHE : FOXHOUND

o ...... ..... .......................... ......... ...... ... ...... t ..... ......................................................1:':.5" ......... .
GRAND BLEU DE GASCOGNE A
Affec/Ue}U!( Grande taille

o
-0.5

lnlellfgence moyenne

DOBERMANN BEAUCERON SETTER

Jo

Chasse
~
': . :.

EPAGNEUL FRANCAIS
,\

POINTER 0 t.J...ct::"..,<:n ALLEMAND Trs rapide

Jo

A".'R" ''"Rnl,~n

BOXER

COLLEY
Poids moyen

-1.0

LABRADOR EPAGNEUL BRETON DALMATIEN

"

Taille moyenm!

n
-1.0

-0.5
FIGURE

o
10.2

0.5

1.0

Facteur 1

1 11

Mthodes de

classification

Le but des mthodes de classification est de construire une partition, ou une suite de partitions embotes, d'un ensemble d'objets dont on connat les distances deux deux. Les classes formes dOvent tre le plus homogne possible. *

Il.1

GNRALITS

Il.1.1

Distances et dissmilarits

En classification, que les donnes se prsentent initialement sous forme d'un tableau individus-variables ou non, toule l'information utile est contenue dans un tableau Il X Il donnant les dissemblances entre les Il individus classer.

Il.1.1.1

Dfinitions
Il

Notons E l'ensemble des dans ~+ telle que:

objets classer. Une distance est une application de EX E dU,j) d(i,j)

= dU, i)
~

( d(i, j) = 0 ~ i = j dU,j) :::; dU, k) + d(k,j) Rappelons que toute distance n'est pas euclidienne engendre par un produit scalaire (voir chapitre 7). Lorsque r on a seulement:

il faut pour cela qu'elle soit

dU, j) = dU, i) { dU,}) ;:::: 0 dU, i) = 0


on parle de dissimilnrit. Une similarit est une application s telle que:

sU, j) = sU, i) {
l

s(i,j)

s(i, i) ;:::: s(i,j)


(lU

Le lecteur dsireux d'approfondir ce chapitre se reportera avec profit

livre de Nakache et Confais, 2004.

244

11_ Mthodes de classification

Lorsque l'on a seulement une infonnation du type sUvant : i etj sont plus semblables que k et I, on parle de prordonnance ; il s'agt d'un prordre total sur les paires d'lments de E. Shepard, puis Benzcri, ont montr que la connaissance d'une pr ordonnance suffit reconstituer une tigure gomtrique de 11 points dans un espace euclidien de dimension rduite. Benzcri a donn la fonnule approche suivante pour reconstituer une distance dij connaissant seulement le rang de cette distance parmi les n(n - l )/2 possibles:

., 1 P ( Xi> < ;;: cl ij L.


o p est la dimension de l'espace.

2) =

1 ( nn- 1)

Lorsque les donnes se prsentent sous forme d'un tableau X de p caractres numriques. on utilise souvent la mtrique euclidienne classique 1\11 = 1, ou

= D Il.r1,

la mtrique de MahaJanobis IV1 = V-l, la distance LI: dU, j)

= 2:1 x}
k

xJ 1,

la distance de Minkowski LI, : d(i, j) = (

10

(X7 - xJ)" )

Il.1.1.2

Similarits entre objets dcrits par des variables binaires

Ce cas trs frquent concerne des donnes du type suivant: 11 individus sont dcrits par la prsence ou l'absence de p caractristiques. De nombreux indices de similarit ont t proposs qui combinent de diverses manires les quatre nombres suivants associs un couple d'individus:
a = nombre de caractristiques communes; b = nombre de caractristiques possdes par i et pas par j ; c = nombre de caractristiques possdes par j et pas par i ; d = nombre de caractristiques que ne possdent ni i, ni j.

Bien que possder une caractristique ou ne pas possder la caractristique contraire soient logiquement quivalent, a et d ne jouent pas le mme rle pour des donnes relles: le fait que deux vgtaux ne poussent pas dans la mme rgion ne les rend pas ncessairement semblables. Les indices suivants compris entre a et 1 sont aisment transfonnables en dissmilarit par complmentation il l :
a Jaccard : - - - -

a+b+c

. k' Dlce ou CzekanOWS"I: - - 2a - -

2a + b + c

Ochia : -======
(a

li

+ 11)(a +

c)

Russel et Rao:

a+b+c+d a+d Rogers et Tanlmoto : b


a

+d+

2(

De nombreux autres indices ont t proposs.

11_Methodes de classification

245

11.1.1.3

Accord entre distances et dissimilarits

Deux distances ou dssimilarits s'accordent d'autant mieux qu'elles respectent les ordres entre proximits. A toute distance d correspond un ordre sur les parties d'lments de E dfinies par des relations du type d(a, b) ::5 d(c, d). Pour comparer deux distances dl et dl, on formera tous les quadruplets possibles de points de E et on comptera le nombre d'ingalits modities (ceci constitue une distance entre classes de fonctions de E X E dans !Ri-+- dfinies un automorphisme croissant prs). L'ordre sur les paires dfini par une distance s'appelle une ordonnance. Si .1 dsigne l'ensemble des paires de E, cette ordonnance peut tre reprsente par un graphe sur i, c'est--dire une partie Ede i X i. Le nombre des ingalits modifies n'est autre que le cardinal de la diffrence symtrique des graphes G I et G"]. associs d, et d"]. d(d, ; d"].) = card (GILlG"].).

1 1.1.2

Accord entre partitions, indice de Rand

Une partition dtnit une variable qualitative dont les catgories sont les classes de la partition. On pourrait donc comparer deux partitions PI et Pl en tudiant le croisement des deux variables qualitatives associes. Cependant, la numrotaLion des classes tant arbitraire, il est prfrable de considrer les paires d'individus afin de savoir si quand deux individus font partie de la mme classe de P" ils sont dans une mme classe de P"]..

11.1.2.1

Tableau des comparaisons par paires associ une partition

On notera C le tableau de taille Il, telle que cij = 1 si les individus i et j font partie de la mme classe, cij = 0 sinon. Il est facile de voir que C = XX' o X est le tableau disjonctif associ une partition P Les cij vrifient des relations particulires puisqu'une partition est une relation d'quivalence : Rflexi vit : Cfi { Symtrie: cij Transitivit: cij

=1
Cik ::;

= cp + Cjk -

La dernire relation peut ne pas sembler naturelle, mais elle traduit linairement le fait que, si i et j sont dans une mme classe, j et k dans une mme classe, alors les 3 lments sont dans la mme classe. On a de plus les formules suivantes: Le nombre m de classes de la partition est tel que:
111

" 1 = )'-.;;...J/I

1=1"" L.Jcij
j=1

Si

11 110

dsigne le nombre d'individus de la classe

Il :
/Il

2:. :Lcij =
i=1 j=1

Il

Tl

Trace(CC')

:Ln r~.
11=1

246

11_Mthodes de classification

Il.1.2.2

Accord entre deux partitions

Considrons les n 2 paires d'individus, on notera: a : le nombre de paires dans une mme classe de Pl et dans une mme classe de Pz (accords positifs) b : le nombre de paires dans une mme classe de PI et spares dans P2 c: le nombre de paires spares dans PI et dans une mme classe de P2 d: le nombre de paires spares dans PI et spares dans P2 (accords ngatifs) Le pourcentage de paires concordantes a/1l 2 est un coefficient semblable celui de Kendall pour les ordres, mais il est plus courant d'utiliser (a + d)//12 si l'on donne la mme importance l'appartenance au complmentaire d'une classe. On a ainsi dfini le coefficient de Rand R dans la version donne par Marcotorchino et Michaud (1l 2 paires au lieu de /1(n - 1)/2 paires dans la version orginale de Rand). En notant CI et C2}es deux matrices de comparaisons par paire, on trouve facilement:
a

=~

Il

...:..J

"I

I "I k.J C!cf.:: Trace(C C2) = k.J "In 1/1' l] IJ k.J


0=\ \'=\

11

11/1

Ill!

i""l )=\

Il III'

est le terme gnral du tableau de contingence X'IX:, croisant les deux partitions.

ana:

d =

L L(1 ""l j-=\

/1

Il

cij)(l - c~)

Le coefficient de Rand vaut alors:

Il prend ses valeurs entre 0 et 1 ; il est gal 1 lorsque les deux partitions sont identiques. La version suivante (correction de Hubert et Arabie) est galement utilise:

Son avantage est que son esprance est nulle si les deux partitions sont indpendantes, mais l'inconvnient est que l'on peut avoir des valeurs ngatives.

_ Exemple: Considrons les deux partitions PI ana:

= (ab)(cd) et Pl = (a)(bcd) de 4 objets.

Cl

(j

l 1

o o

1)

c' =

(~

o
l

1)

11_Mthodes de classification

247

Le tableau crois est: a ab cd L'indice de Rand R


1

bcd 2

10/16. ---.,"':"---';;;"- ou G1LlG:; est la dlfference symetnque des graphes


11II1II

On notera que ] - R

card(GI~G1)

. ..

induits par les deux partitions.

ad da

ExE
FIGURE

Il.1

1 1.1 .3

Aspects combinatoires de la classification

On pourrait penser que. muni d'un critre, la recherche de la me11eure partition soit chose facile: E tant fini, il suftirait de considrer toutes les partitions possibles ( nombre tix de classes ou non) et de choisir ce]]e qui optimise le critre de qualit choisi. Les rsultats suivants montrent que cette tche est insurmontable car le nombre de partitions devent vite astronomique: un calculateur pouvant traiter un million de partitions par seconde mettrait plus de 126 000 annes pour tudier toutes les partitions d'un ensemble de 25 lments ! Il faudra donc, dans la plupart des cas, se contenter de solutions approches.

11.1.3.1

Nombre de partitions en k classes de n lments

Notons Pli, k' ce nombre appel nombre de Stirling de deuxime espce. On a les rsultats triviaux suivants : P/l. 1

Pn.1I = l

~ Pll,tI-1

11(11 -

])
.

Le nombre de dIchotomies

248

11_ Mthodes de classification

possibles est : PlI, '1

=2

11

1 - 1. En effet, il y a 2" parties de E, donc ; partitions de E ou

')11

couples de parties complmentaires, mais parmi eUes il y a la partition {E, 0} liminer. Les nombres Pn, k satisfont l'quation de rcurrence suivante qui permet de les calculer de proche en proche : (tableau Il. 1)

_ Dmonstration: Soit une partition de E en k classes et soit un lment e de E : de deux choses l'une, ou bien e est seul dans sa classe, ou il ne r est pas: si e est seul dans sa classe il y a PII _I, k-) partitions de cette sorte; si en' est pas seul dans sa classe c'est que E - {e 1 est partitionn aussi en k classes et 11 y a PII -1. J.. manires de le faire et e peut se trouver alors _ dans l'une quelconque de ces k classes soit kP II _ u possibilits.
On peut montrer que :

Il,~

=k'

~ C i .(-l )k-i i ll
~
k

, 1"'1

et donc

SI Tl

--'J> 00

Pn. k

-,

kn
k!

Il.1.3.2
On a:

Nombre total de partitions Pn (nombre de Bell)

k=1I

Pli

2:PIl ,k
1;;1

On peut aussi obtenir une fonnule de rcurrence sur les Pli" Considrons, comme prcdemment, un lment e : pour une partition donne de E, e se trouve dans une classe ; si cette classe a un lment, il y a PII _ 1 partitions de E laissant e seul dans une classe; si cette classe a deux lments, il y a C 1~-1 manires de choisir le compagnon de e dans sa classe et P/I-1 manires de constituer les autres classes; si cette classe a k lments, il y a C~: \ manires de choisir les compagnons de e et Pn - k manires de constituer les autres classes d'o:

Si l'on pose par convention Po

= l, on a la fonnule :

11IIIIIIII Mthodes de classification

249
kil

1
On dmontre que P'I = e

2: k=1

k!

TABLEAU

r 1.1

TABLE DES

PI!, k
7

k
Il

1 1 1 1

'1

.\.

.5

l)

10

LJ
1 66

P"
1 2

3
../

;
7 15 31

.5
1 10

1
1 1 1

5
6 7 8

15
90
30\

15 52 1
21

65
350 1701 7770 3..J. 105 145750 6\\ SOI

63
127

15 140
1050 6951 42525 146730 \ 379400

203 877
1 36 750 11880 159 on
1 45 1 155 22275

9 10
1\ Il

1 1
1

255
511

1
1

1 o:!3
2047

966 3 OlS l) 330 28501 86526

266 2646 22IQ7 179487 1 313652

28 462
5880
63987 627396

1 55 1705

..J. 140 21 147 115975 678970 42\3 597

1 1.1.4

Sur l'existence et la caractrisation des classes d'un ensemble

La dfinition de classes ~< naturelles )} pose cl' pineux problmes. Si dans certaines situations simples comme celle de la figure 11.2 on voit clairement de quoi il s'agit, il est loin d'en tre ainsi la plupart du temps et il faut bien admettre que l'on ne peut donner de dfinition clare des classes II priori. D'o la difficult de valider des mthodes de classification en essayant de reconnatre des classes prexistantes.

){ )(
JI(

)(
)(

JI( JI(

JI( JI(

)(

x
JI(

le )(

le le

FIGURE

Il.2

Bien souvent, les classes ne seront que ce qu'a produit un algorithme de classification. Sur le plan pratique, la dtermimuion du nombre rel solution satisfaisante.

de classes n'admet pas de

Notons enfin qu'il ne suftt pas de produire des classes: il faut encore les interprter et utiliser alors l'ensemble des infonnations disponibles et pas seulement les distances deux deux.

250

11_Mthodes de cla5iSfication

Il.2

LES MTHODES DE PARTITIONNEMENT

1 1.2.1

les mthodes du type nues dynamiques ou k-means

Ces mthodes permettent de traiter rapidement des ensembles d'effectif assez lev en optimisant localement un critre de type inertie. On supposera que les individus sont des points de IRI' muni d'une distance euclidienne.

Il.2.1.1

Inertie interclasse et inertie intraclasse

tant donn une partition en k groupes d'un nuage de Il points, on dfinira les quantits suivantes: g" g:! .... , gk centres de gravit des k groupes et II. l:!, ... , lk inerties des k groupes. On rappelle que l'inertie est la moyenne des carrs des distances au centre de gravit. L'inertie totale 1 des II points autour du centre de gravit global g est alors gal li la somme de deux termes (thorme de Knig-Huyghens) :

o III' est l'inertie intraclasse Ill' = 'LPij' Pi tant le poids de la classe i et l/J l'inertie interclasse ou inertie du nuage des k centres de gravit: lB = LPid2(gi. g). Un critre usuel de classitication consiste chercher la partition telle que IH' soit minimal pour avoir en moyenne des classes bien homognes, ce qui revient chercher le maximum de lB' Remarquons que ce critre ne s'applique qu' nombre de classes fix: si k n'tait pas fix la solution serait la partition triviale en 11 classes (un individu = une classe) qui annule III"

Il.2.1.2

La mthode des centres mobiles

Due Forgy, elle consiste partir de k poinlli pris parmi E (en gnral tirs au hasard) ; ces k points dfinissent une partition de l'espace, donc une partition de E en k classes Ec E C1 ' , EI.'.(' La partition de IR JI associe k centres CI> c:!' ... , Ck est un ensemble de domaines polydraux convexes dtermin par les hyperplans mdiateurs des centres. ECI est la classe constitue par rensemble des points de E plus proches de Cj que de Lout autre centre (fig. 11.3).
j ,

x
)(

FIGURE

Il.3

11_Mthodes de dassificar.ion

251

On remplace alors les k pOnts pris au hasard par les Il. centres de gravit de ces classes et on recommence: l'algorithme converge rapidement vers un optimum local car le passage d'un centre arbitraire Ci un centre de gravit diminue ncessairement la variance interne des classes. Soit ErJ,1 la classe obtenue en remplaant Ci par gj centre de gravit de Er.::,. TI suffit de montrez que:

car, d'aprs le thorme de Konig-Huyghens, gi n'tant pas le centre de gravit de E"'I' le membre de droite sera suprieur la variance intrac1asse de la partition EgJ' Or, si r on considre un point quelconque, il figurera dans le membre de droite avec son carr de distance au gi qui sera le plus proche de lui par construction des E/!", tandis que dans le membre de gauche il tigurera avec sa distance un gi qui ne sera pas forcment le plus proche de lui. mais qui sera seulement son centre de gravit dans la partition Er!" Ceci dmontre donc le rsultat annonc: le nuage tant fini (l'ensemble de toutes les partitions possibles aussi), 1'algorithme converge car la variance intraclasse ne peut que diminuer; elle atteindra donc son minimum accessible partir du systme initial de centres Ci en un nombre tini d'itrations, le thorme de Huyghens indiquant que cette dcrossance est stricte si gj n'est pas confondu avec Ci' L'exprience montre que le nombre d'itrations ncessaires est trs faible. Si au cours d'une itration une classe se vide, il est possible de tirer au hasard un nouveau centre. La tigure lIA montre le droulement de l'algorithme sur un cas d'cole: on voit qu'en deux itrations on a reconnu ) la structure existante.

x x
x )(
x

FIGURE

liA

Cette mthode peut s'appliquer des donnes qualitatives condition de travailler sur des coordonnes factorielles. On a ainsi effectu une partition en quatre classes de l'ensemble des 27 chiens tudis au chapitre prcdent en utilisant les coordonnes issues de l' ACM du tableau disjonctif (on utilise ici les la facteurs). Quatre centres ont t tirs au hasard (les individus Il, 7, 18, 25) et on a abouti en moins de 10 itrations la partition suivante: Classe Classe Classe Classe l : individus 2 : individus 3 : individus 4: individus n" n n n 2, 5, 7, 8, 17, 22, 26. 4,9, Il, 14, 19. 6, 21, 24. 27.

1,3,10,12,13,15,16,18,20,23,25.

252

11_Mthodes de Classitic:aticln

On a : inertie interclasse 1.66667 = (; 2;'" ,)

0.93665, inertie intruclasse = 0.7300 l, l'inertie totale

l.

Dans la mthode prcedente, on attend que tous les individus aient t affects une classe pour recalculer les centres de gravit. La variante de Mac Queen procde diffremment: les centres sont recalculs aprs l'affectation de chaque point. La mthode des nues dynamiques, propose par E. Diday, est une extension de la prcdenle. Elle en diftre notamment par les traits suivants: au lieu de reprsenter une classe uniquement par son centre de gravit, on la caractrise par un noyau )}. Ce noyau peut tre un ensemble de q points (les plus centraux), un axe principal ou un plan principal, etc.

Il faut donc disposer formellement d'une fonction de reprsentation qui, un ensemble de points, associe son noyau.

Il faut ensuite disposer d'un algorithme de raffectation des points aux noyaux. On procde alors par alternance des deux phases: affectation, reprsentation jusqu' convergence d critre choisi. La mthode des nues dynamiques ne se limite pas au cas de """"UII'-\...:I euclidiennes.
Comme la partition finale peut dpendre du tirage des noyaux de dpart (problme d'optimum local), on recommence alors toute l'opration avec s autres tirages. On appelle formes fortes ou groupements stables les ensembles d'lments ayant toujours t regroups lors de la partition finale pour les s passages de l'algorithme.

1 1.2.2

La mthode de Condorcet
,1111'

Considrons un ensemble de Il individus dcrits par p variables qualitatives 11lb 1n2' modalits respectivement: on a p partitions diffrentes du mme ensemble.
p partitions initiales.

La recherche d'une nouvelle partition revient donc rechercher un compromis entre ces Soit Cl, et C
Cij

e\ ... , CP

les tableaux des comparaisons par paires associs

... , f~"

= :LC/.:.
k

est le nombre de fois parmi p o les objets i etj ont t mis dans une mme classe.

Soit C' = 2C - p. On a alors cij > 0 si i etj sont dans une mme classe pour une majorit de variables g{'k' cij < 0 si il y a une majorit de variables o i et j sont dans des classes di ffrentes ; cij = 0 s'il y a autant de variables pour lesquelles i et j sont spars que de variables pour lesquelles i etj sont runis. Un critre naturel pour former une partition centrale , compromis entre les p partitions, consiste alors mettre i et j dans une mme classe chaque fois que cij est positif et il les sparer il chaque fois que cij est ngatif. Malheureusement, ce critre ne fournit pas ncessairement une partition: il peut y avoir non transitivit de la rgle majoritaire. C'est le paradoxe de Poincar: ce n'est pas parce qu'il y a une majorit pour runir et j, jet k qu'il y a une majorit pour runir i et k.. Il faut donc imposer les contraintes des relations d'quivalence ce qui revient chercher la partition satisfaisant au mieux la majorit des partitions initiales.

It_Mthodes de classification

253

Si Y est le tableau des comparaisons par pares de la partition cherche, on a donc rsoudre le problme suivant:

i
.IJ

avec:

Yij + )jk - )'ik { v, = Oou 1 lJ


~

"" + -\'., JI

:5

C'est un problme de programmation linaire bivalente dont on peut trouver une solution exacte (pas forcment unique) si Il est faible, ou une solution approche si 11 n'est pas trop lev en utilisant des heuristiques (voir l'ouvrage de Marcotorchino et Michaud cit en rfrence). . Il Y a. en eftet, d e l'ord re de w1 tnconnues contraintes. On aura remarqu que le nombre de classes n'a pas tre impos, il fat partie de la solution. La distance de la diffrence symtrique entre les deux partitions associes aux tableaux Cl: et Y vaut: 2:2:1 Yu
i j

(11(11 2 -

1) exactement ) et d e l'ord re de n'3

c~,1 1)

..::.-..::.-

"''''(v" 1]

k C 1).)1

La partition cherche est donc celle qui est distance moyenne minimale des partitions initiales puisque:

ce qui revient chercher max2:2:cijYij'


i j

D'aprs le paragraphe 11.1.2, la partition optimale est donc celle qui maximise la somme des indices de Rand avec chacune des partitions associes aux p varables qualitatives. On retrouve ici une proprit d'association maximale: max2: c (qy, gek) I)
k

o <I> est un critre d'association entre variables qualitatives. Lorsque <I> n'est pas l'indice de Rand, il faut en gnral fixer te nombre de classes de OY, En l'exprimant en termes de comparaison par paires, c'est--dire en explicitant la mesure d'association (1) en fonction des tableaux Y et Cl:., on peut se ramener un problme de programmation linaire dans certains cas. Ainsi l'indice d'association de Belson entre deux variables qualitatives dfini par:
lIu.

2:2:(1111\'
Il l'

Il.I'):!

Il

254

11_Mthodes de classification

O 11/H'

est le terme gnral du tableau de contingence croisant CfY et tableaux Y et C k :

s'crit avec les

1 1.3

MTHODES HIRARCHIQUES

Elles consistent en un ensemble de partitions de E en classes de moins en moins fines obtenues par regroupements successifs de parties. Une classification hirarchique se reprsente par un delldrograw1Ile ou arbre de classification (fig. 11.5) :

d
Il.5

FIGURE

Cet arbre est obtenu de manire ascendante dans la plupart des mthodes: on regroupe d'abord les deux individus les plus proches qui fonnent un noeud , il ne reste plus que 11 - l objets et on itre le processus jusqu' regroupement complet. Un des problmes consiste dfinir une mesure de dissimilarit entre parties. Les mthodes descendantes, ou algorithmes divisifs, sont plus rarement utilises.

11.3.1
Il.3.1.1

Aspect formel
Hirarchie de parties d'un ensemble E

Une famille H de parties de E est une hirarchie si :


CI) E et les parties un lment appartiennent H.

b) \tA, B E HAn BE lA, B, 0}. En d'autres termes, deux classes sont soit disjointes, soit contenues l'une dans l'autre. ( c) Toute classe est la runion des classes qui sont incluses en elle.

A toute hirarchie correspond un arbre de classification:


_ Exemple: H

= {0, a, b, c, d, e, f; ab ; abc, de, deJ, abcdef}

(fig. 11.6)

Une partition de E compatible avec H est une partition dont les classes sont des lments de H. D'une manire image, c'est une partition obtenue en coupant l'arbre selon une horizontale et en recueillant les morceaux.

11_Mthodes de classificaton

255

FIGURE

Il.6

Lorsque l'on peut dire qu'un lment ou L1ne partie A est relie B avant que C ne soit relie D, autrement dit s'il existe une relation de prordre totale compatible avec la relation d'ordre naturelle par inclusion, on dit qu'on a une hirarchie stratifie. Une hirarchie est indice s'il existe une application ide H dans lR!+ croissante, c'est-dire telle que si A C B : i(A) ~ i(B). A toute hirarchie indice correspond une hirarchie stratifie. Les indices sont appels niveaux d'agrgaton : i(A) est le niveau auquel on trouve agrgs pour la premire fOs tous les constituants de A. Ainsi, dans la figure Il.7 on a i(c, d) = 1 et i(a, b, c) = 0.5.

0.5
0.4

1 1 1 1 1 1 1 -J,.---1

t---------1 1

0.2

+---.....-----.. . .
1 1

o!
a
b
FIGURE

Il.7

Les niveaux d'agrgation sont pris gaux, en gnral, lndice de dissimilarit des deux parties constituant la runion i(a, b, c) = 8(([/, b), c). Le problme se pose alors de savoir si )a hirarchie peut prsenter ou non des inversions : si li, b sont runis avant c, d dans l'algorithme, on doit avoir i(ll, b) < i(e, d) sinon il y a inversion.

Il.3.1.2

Distances ultramtriques

A toute hirarchie indice H correspond un indice de dis Lance entre lments de H : d(A, B) est le niveau d'agrgation de A et de B, c'est--dire nndice de la plus petite partie de H contenant la fois A et B.

256

Cette distance possde la proprit suivante, dite proprit ultramtrique:


d(a, b) $ sup {d(a, c); d(b, c)}
\;/a, b, c
'x

En effet, de deux choses l'une, quand

a a t runi

b pour la premire fois:

ou bien c n'est pas encore runi a (ni b par consquent), il sera donc runi tard, donc d(a, c) qui est gal d(b, c), puisque a et b sont maintenant runis, suprieur d(a, b) ; ou bien c est dj runi 11 ou b, supposons CI pour fixer les ides, avant que a ne soit runi b. Donc d(a, c) < d(a, b). Mais alors d(b, c) = d(a, b), car c est runi b en mme temps que b l'est a. Ce qui dmontre la relation ultramtrique. Rciproquement, toute ultramtrique correspond une hirarchie indice; la recherche d'une classification hirarchique est donc quivalente celle d'une ultramtrique; le problme cl de la classtication est donc le suivant : connaissant une mtrique sur E, en dduire une ultramtrique aussi proche que possible de la mtrique de dpart. Les proprits suivantes de gomtrie ultramtrique prcisent le lien avec les hirarchies indices: En gomtrie ultramtrique, tout triangle est soit isocle pointu (la base est infrieure la longueur commune des deux autres cts), soit quilatral. En effet:
d(a, c) $ sup {d(u, c) ; d(b, c)} d(a, c) ::=; sup {d(a, b); d(b, c)}

d(b, c) ::=; sup {d(a, b) ~ d(b, c)}

Supposons par exemple d(a, b) > d(a, c) > d(b, c). Cette hypothse est absurde car une des trois relations ultramtriques n'est plus vritie. Il faut donc que deux cts soient gaux et on vot aisment que ce sont forcment les deux plus grands qui le sont. En gomtre ultramtrique, tout point d'une boule est centre de cette boule. En effet, soit B la boule ensemble des points dont la distance un centre a est infrieur
r:B(u,r) {xld(a,x)::=;r}.
E

Soient x et)' deux points

B : d(x, y) ::=; sup (d(x, a) ~ d(o, y)}.

On en dduit que, si deux boules ont une intersection non vide, l'une est ncessairement incluse dans l'autre puisqu'elles sont concentriques. On retrouve bien ici la proprit d'inclusion des parties d'une hirarchie.

1 1.3.2

Stratgies d'agrgation sur dissimilarits

On suppose ici que l'on connat un indice de dissimilarit d. Diffrentes solutions existent qui correspondent des choix diffrents de la dissimlart entre parties de E, appels stratgies. Le problme est en effet de dfinir la dissimilarit entre la runion de deux lments et un troisime: du, b) ; c). A chaque solution correspond une ultramtrique diffrente.

11_Mthodes de c1assificaton

257

Il.3.2.1

Le saut minimum

dll, b) ; c)

Cette mthode (connue sous le nom de single linkage en anglais) consiste crire que: inf(d(ll, c) ; d(b, e)). La distance entre parties est donc la plus petite distance (fig. 11.8) entre lments des deux parties.

FIGURE

Il.8

Cette stratgie conduit une ultramtrique particulire : la sous-dominante

qui est

parmi les ultramtriques infrieures d (8(i,j) s; d(i,j)) la plus leve (S(i,j) maximum).
En effet, la construction de l'arbre aboutit une suite de partitions Pli embotes, conduisant chacune une dissimilarit cl" entre parties. Nous allons montrer que dIt, qui est forcment infrieure 8, est suprieure toute ultramtrique infrieure fi : comme, la limite, dl: devient ultramtrique, c'est que l'on a obtenu l'ultramtrique infrieure maximale. Montrons ceci par rcurrence; si c'est vrai pour dll-l~ montrons que c'est encore vrai pour th. Il suffit d'examiner les couples pour lesquels d,,(u, i) =J:. d"_1 (u, i). Ceci n'est possible que si Il (ou i) vient d'tre agrg. Nous sommes donc dans la situation suivante o, au pas h, on vient d'agrger i l' (fig. 11.9).

n
a alors:
d,,(i, i')
dh-l(i, i')

i'

FIGURE

Il.9

Sil' on a agrg i i' , c'est qu'ils taient les plus proches avec la dissimilarit

d,,_, et l'on

s inf (dll-I(U,

i), dlt-I(u, i')}


,

D'autre part, on a prcisment d,,(u, i) =


d(u, i) s; d"-l (u, i).

d,lu, l') = inf {dlt -

(li, i), d"-l (u, i)} par hypothse.


I

Sot d ) une ultramtrique infrieure ou

S, donc d lt -

(rcurrence)

Comme d est ultramtrque, d(ll, i) s; sup [d(i, i') ; lI(u, i')} donc:
d(u, i)

s sup

{dit-ICi, i') ; dll-I(U, i')}

Comme dh-1U, i') s; inf (d"_l(ll, i), dIJ-1(u, t)]. On a d(u, i) s; dh-l(lI, i'). On a donc la fois d(u, i) s; d"_1 (li, i'), d(u, i) s; d h - I (li, i) et:

dil (lI, i)
C'est donc que d(u, i) S dl!(u, i).

inf {dll-I(U, i') ; d,,_,(u, t)}

258

11_Mthodes de classification

Une autre mthode pour aboutir l'ultramtrique infrieure maximale, due M. Roux, consiste passer en revue tous les triangles possibles faits avec les points de E el les rendre isocles pointus (on remplace la longueur du plus grand ct par celle du ct mdian), de manire obtenir directement l'ultramtrique infrieure maximale. On passe en revue tous les tr,mglesjusqu'~l ce qu'on ne puisse plus rien modifier; le reste ensuite tracer l'arbre.

Il.3.2.2

Le diamtre et autres stratgies

On prend ici comme distance entre parties la plus grande distance:


d(a, b) ; c)

= sup(d(a, c), d(b, e

On aboutit alors une des ultramtriques suprieures minimales, contrairement au cas prcdent o la sous-dominante est unique. Il n'existe pas en effet une seule ultramtrique minimale parmi les ultramtriques suprieures d; on montre mme qu'il en existe (Il - 1)1 dans le cas o toutes les valeurs de la dissimilart sont diffrentes. De nombreuses autres mthodes de calcul de distances entre parties ont t proposes (moyenne des distances, etc.) toutes sont des cas particuliers de la formule de Lance et Williams gnralise par Jambu :
da, b) ; c)

= a\d(a, c) + alll(b, c) + 113d(a, b) + ll~i(a)


+ lI si(b) +
al {
a6i(c)

+ ll71 d(a, b)
1
0

- d(b, (')/

Pour qu'il n'y ail pas d'inversion, il faut que les coefficients vrifient:

+ a2 + [/3

;::

a!, a2' ll), ll.4' il;;, 06;::

Ch 2!: - mm(a\ ; a2)

Ainsi la mthode du saut minimal consiste prendre:


al

= Cl:! = 1/2,03 = Cl~

= as

= 116 =

0,a7

= 1/2

11.3.3

La mthode de Ward pour distances euclidiennes

Si l'on peut considrer E comme un nuage d'un espace IRJ!, on agrge les individus qui font le moins varier l'inertie intrac1asse. En d'autres termes, on cherche obtenir chaque pas un minimum local de l'inertie intraclasse ou un maximum de l'inertie interclasse. L'indice de dissimilarit entre deux classes (ou niveau d'agrgation de ces deux classes) est alors gal la perte d'inertie interclasse rsultant de leur regroupement. Calculons cette perte d'inertie. Soit gA et gl! les centres de gravit de deux classes et gMI le centre de gravit de leur runion. Ona:

PA et PB sont les poids des deux classes (fig. 11.10).

11- Mthodes de classification

259

9AB
FIGURE

9a

11.10

L'inertie interclasse tant la moyenne des carrs des distances des centres de classe au centre de gravit total, la variation d'inertie est gale :
PAd"!(gA' g)

+ PBd"!(g/J' g)

- (PA

+ pl1)d 1(gAl1'
PA

g)

. . . cu ~] , qUI Un ca1 1 e ementmre montre que cette vanatlOn vaut PA PB d'l( gr\, g[J) ( ' est done

+ Pl1

positive). Si l'on pose : Cette mthode rentre dans le cadre de la formule de Lance et Williams gnralise car:
((A, B) ~ C) = (PA

+ pd(A, C) + (Pu + pd(B, C) PA + Pu + Pc

- Pc(A, B)

on peut donc utiliser l'algorithme gnraL On notera que la somme des niveaux d'agrgation des diffrents nuds de l'arbre est gale l'inertie totale du nuage puisque la somme des pertes d'inertie est gale l'inertie totale. Cette mthode est donc complmentaire de l'analyse en composantes princpales et repose sur un critre d'optmisation assez naturel. Elle constitue notre avis la mthode de classification hirarchique de rfrence sur donnes euclidiennes. Tl ne faut pas oublier cependant que le choix de la mtrique dans l'espace des individus conditionne galement les rsultats.

Il.3.4

Classification de donnes qualitatives

Lorsque les 11 individus classer sont dcrits par des variables qualitatives, divers cas se prsentent. Pour les donnes de prsence-absence, on utilisera un des indices de dissimlarit prsents au paragraphe 11. 1.1.2. Pour des donnes du type P variables qualitatives 111!, m"! ... , mp modalits, on utilisera la reprsentation disjonctive complte :
001 . [ 0 lOOI'...'1 001 ] lOOO X

260

11_Mthodes de c:lassification

La distance du X:! entre lignes du tableau possde alors des proprits intressantes: d (i, i') =

2: !!..(Xii - XO)2
) Il.)

P
Il 2:- (xij xr)) xi) tant
) Il.)

L'indice de similarit associ tP est alors le produit scalaire du X2 :

gal 0 ou 1. On voit que la similarit dpend non seulement du nombre de modalits possdes en commun par i et i' mais de leur frquence, ce qui revient dire que deux individus qui onl en commun une modalit rare sont plus proches que deux individus ayant en commun une modalit frquente: cette proprit semble assez naturelle. On utilisera alors la mthode de Ward (puisque la distance Xl est euclidienne) sur le tableau des distances. Une autre solution consiste effectuer une classification hirarchique sur le tableau des coordonnes des 11 individus aprs analyse des correspondances multiples de X. Il faut prendre garde ici que ces deux approches ne seront quivalentes qu' la condition d'utiliser tous les facteurs de l'ACM (soit

2: mi
i=1

Jl

p). En effet, une classification effectue sur un trop petit

nombre de facteurs peut tre fallacieuse car elle peut laisser de ct certaines particularits du nuage de points, Par ailleurs, il ne faut pas oublier de conserver la normalisation -{X. de chaque axe car ceux-ci ont des importances diffrentes. Ces remarques sont valables galement pour des classifications effectues sur des composantes principales. La classification hirarchique des lignes ou des colonnes d'un tableau de contingence s'effectuera avec la mthode de Ward et la distance du X2 entre 1ignes (ou entre colonnes). Cette mthode revient regrouper les catgories d'une variable qualitative de la faon suivante: chaque tape, on runit les deux catgories (en sommant les effectifs) qui font diminuer le moins possible le <.pl puisque l'inertie totale est ici X2/n = q/-.

1 1.3.5

Considrations algorithmiques

.. . 'b ' 1 etape un tabl eau d e ll(n - 1) d' gont lstances L , a1 . llme genera1 conSIste a al ayer a claque' 2 ou dissimilarits afin d'en rechercher l'lment de valeur minimale, runir les deux individus correspondant, mettre jour les distances aprs cette runion et li recommencer avec Il - 1 objets au lieu de Il.

La complexit d'lm tel algorithme est en 11 3 (ordre du nombre d'oprations effectuer) et on atteint rapidement les limites d'un ordinateur mme puissant pour quelques centaines d'observations. Diverses techniques ont l proposes pour acclrer les oprations et pouvoir traiter des ensembles plus vastes d'individus. La mthode des voisinages rductibles (M. Bruynhooghe) consiste n'effectuer les comparaisons de distances que pour celles qui sont infrieures un seuil fix. Il faut ensuite ractualiser ce seu 1 au fur et il mesure que la classHcation s'effectue. La mthode des voisins rciproques (Mac Quitty et 1. P. Benzecri) consiste runir simultanment plusieurs paires d'individus (les voisins rciproques) chaque lecture du tableau

11_Mchodes de dassificacion

261

des distances. la complexit de l'algorithme devient alors en Il'1. La recherche des voisns rciproques s'effectue alors en chane: on part d'un objet quelconque et on cherche son plus proche voisin, puis le plus proche voisin de celui-ci, etc., jusqu' aboutir un lment dont le plus pro~ che voisin est son prdcesseur dans la liste. On runit ces deux lments et on recommence partir du nud cr ou de ravant-dernier lment de la liste jusqu' cration de tous les nuds.

Il.4

MTHODES MIXTES POUR GRANDS ENSEMBLES

La dtermination du nombre de classes est relativement aise en classification hirarchique en tudiant le dendrogramme et en s'aidant de l'histogramme des indices de niveau. La coupure de l'arbre en k classes ne fournit cependant pas la partition optimale en k classes de l'ensemble en mison de la contrainte d'embotement des partitions issues d'une hirarchie. Mais cette coupure fournit une excellente initialisation pour un algorithme de partitionnement de type nues dynamiques. De cette faon on peut rsoudre pratiquement le problme pineux du choix du nombre de classes d'une partition. Cependant les mthodes de classification hirarchique ne sont pas utilisables lorsque le nombre d'individus dac;;ser est trop lev (suprieur plusieurs milliers), alors que les mthodes de partitionnement ne connaissent pas ce genre de limites et sont trs rapides. Le principe des mthodes mixtes, galement apeles hybrides, tire parti des avantages des deux techniques. Concrtement, on procde de la faon suivante en trois tapes: l. 2. 3. Recherche d'une partition en un grand nombre K de classes (par exemple 100) avec une mthode de type nues dynamiques Regroupement hirarchique des K classes partir de leurs centres de gravit et dtermination d'une coupure en k classes Consolidation: amlioration de la partition en II. classes par une mthode de type nues dynamiques

Il.5

CLASSIFICATION DE VARIABLES

La plupart des mthodes exposes prcdemment ont t conues pour classer des individus. Lorsque )' on veut faire des regroupements de variables, il convient de prendre certaines prcautions car la notion de distance entre deux variables pose souvent de dlicats problmes dus la nature des variables.

Il.5.1

Variables numriques

Pour des variables numriques, le coeHicient de corrlation linaire constitue l'indice naturel et 1 - r est alors un indice de dissimilarit qui est en plus une distance euclidienne. On peut alors utiliser la mthode hirarchique de Ward et celle des nues dynamiques puisque l'on dispose d'une distance euclidienne. Une variante consiste utiliser les coordonnes des variables sur des axes factoriels. Mentionnons galement lu mthode divisive (ou descendante) disponible dans le logiciel SAS (procdure varclus) qui revient 11 dterminer les groupes de variables les plus unidimensionnels possible au sens o l'ACP de chaque groupe ne fournit qu'une seule

262

11_Mthodes de classification

dimension : une seule valeur propre suprieure 1. L'algorithme est sommairement le suivant: on part de l'ensemble des p variables et on effectue une Aep. Si il n'y a qu'une seule valeur propre suprieure l> on s'arrte. Sinon on classe les variables en deux groupes selon leurs proximits avec la premere ou la deuxime composante principale. On recommence alors la procdure dans chaque groupe.

1 1.5.2

Ltapproche de Lerman et l'algorithme de la vraisemblance du lien

Pour des variables qualitatives, un problme vient du fait que les mesures de liaison ne sont comparables que pour des nombres gaux de catgories, ou du degr de libert du couple. I. C. Lerman a propos de remplacer la valeur de l'indice de similarit entre variables de mme nature (corrlation, X~, etc.) par la probabilit de trouver une valeur infrieure dans le cadre de l'hypothse d'indpendance (appele <,( absence de lien}). Ainsi, au lieu de prendre r, on prendra P(R < r). L'avantage est incontestable pour les mesures de similarit entre variables qualitatives qui deviennent ds lors comparables indpendamment des nombres de catgories: un X-r gal 4 correspond une similarit de 0.6 alors qu'un Xfo gal 5 correspond une similarit de 0.12. L'algorithme de la vraisemblance du lien (AVL) consiste alors utiliser comme mesure de proximit entre deux groupes A et B de /Il et 1 variables respectivement, la probabilit associe la plus grande valeur observe de l'indice probabiliste de smilarit. Soit:
10 = sup s(x, y)
xEA .l'EH

o s(x, y)

= P(R <

r(x, y)) par exemple.

Dans l'hypothse d'absence de lien, on a : P(sup s(x, y)


xEII

<

t)

= tm

(voir chapitre 12, paragr. 12.1.3.2), d'o: P(sup


.l'ER

s(x, y)

<

t) = (1111)' =

!/Il1

xE ,t

On prendra donc comme indice de dissimilarit entre A et B : Ifjl/. On peut alors obtenir une classification hirarchique des variables.

1 1.6

EXEMPLES

Reprenons c-dessous les diffrents exemples dj tudis dans les chapitres prcdents, pour montrer la complmentarit entre les rntll0des factorielles et les mthodes de classification.

Il.6.1

Donnes voitures

Les donnes tant euclidiennes, on utilisera tout d'abord la mthode de Ward sur donnes rduites.

1l_Mthodes de classification

263

Le tableau suivant donne l'historique des regroupements. On vrifie que la somme des indices de niveau (ou somme des pertes d'inertie) est gale l'inertie totale. L'appellation an benjamin est sans signification el ne fait que dsigner les deux lments runis. On constate des sauts importants aprs le nud 34 quand on passe de 3 classes deux classes. Une coupure de l'arbre en 3 classes est alors naturelle.
DESCRIPTIOl:J DES NOEUDS J:..INE BEru EFF. NDl-!. POIDS INDICE HLSTOGH.tlNHS DES INiJLCES DE NIVEAU

19

1"\ 16
1)

20
21 2:3
23

7 5

-.
.00

O.Ol'i

J.DO
4 14 15
:!J II 19

le.
17
21

:1

.00

'2

.00 3.00
3.00 3.00 3.00

0.O::!'i32 0.03061 0.03581 0 04593 06556


0.07693 o .08 1178 0.11771 0.12 1185 0.17 159
{J.

25 J6 27

8
'2

28 23
30

:::5
2J
'}

10
,~

4.00 5.00
2

31

28 26 29

13 1

'2.00 .00
.00 11.00 13.00 18.00

**"'****

0.23849
0.36099
0.5~~497

24
32

J3
35
sOtn'IE DES

6 11 13

.06604
.79117 .00000

34

31

18

INDICES DE NIVEAU

RENAULT-30- TS DATSUN-200L OPEL-REKORD-L TAUNUS-2000-GL AUDI-100-L PRINCESS-1800-HL PEUGEOT-504 MAZDA-929S FIAT-132-1600GLS ALFETIA-1.66 LANCIA-BETA- i 300 SIMCA-1307 -GLS RANC HO RENAULT-16-TL LADA-1300 CITROEN-GS-CLUB TOYOT A-COROLLA ALFASUD-TI-1350

FIGURE 11.1 1

264

11_Mthodes de classification

La coupure en 3 classes semble optimale car aucune amlioration passage d'une mthode de centres mobiles:

n~est

obtenue aprs

CONSOLID.i\TION DE LA PI\RTITION i\UTOUR DES CENTHES DE CLASSES J REALISEE PAR 10 l'l'EB.liTIONS A CENTRES HOBILES ; PHOGRESSIOH DE L'INERTIE INTER-CLI".SSES ITERA'1'ION 1. TO'l'ALE . INTER QUorl'IEN?

o
1

6.00000 6.00000 6.00000

3.85720
3.35720

3.85720

0.64287 0.64287 0.6/1287

ARRET APRES L'ITERATION 2 L' ACCF.OISSm-!ENT DE L'INERTIE IN'rER-CLf..SSES PAR RJ\PPORT AL' ITEH..A.TION PRECEDENTE N' EST QUE DE 0.000 %.

La figure suivante donne dans le plan 1-2 la visualisation des 3 classes.

FIGURE

11. Il

Ces 3 classes correspondent pour l'essentiel la taille des individus

1 1.6.2

Vacances

Reprenons maintenant le tableau de contingence tudi en 9.3 avec une AFC. La distance du khi-deux entre profils-lignes ou protils-colonnes tant une disatnce euclidienne, il est ici possible d'effectuer deux classifications, l'une sur les lignes, l'autre sur les colonnes du tableau de contingence.

, 1.6.2.1
HUt,!.

Classification des professions


BEHJ

AINE

EFF.
:;

poros
50:::7 .00 1375.00 5162.00 5'\19.00 9511. 00 1<1930. 1.8532.00

INDICE

HISTOGR.!\li[!.!E DES INDICES DE NIVEJ\U

10

..,

fi

0.00239 0.00274

12 13
1,1 15

'}

12

10 8 11 13

0.00473
0.00587 0.01107
O.031~5

k,**,
**,~.k'~**

tr*"1I'**>Jrk*".f'r~**""**'ft'*
,,,.*~**+~**~*k,,.****w*kk*~**k****~*****~,,.~**** ~*".~k****k~k*~f'r**wk*"'***f'r***k*p**~*~~k~.*w**

0.04930

SOI.jHE DES iNDICES

rE HIVSAU

11liliiii Mthodes de classification

265

Retraits Ouvriers Employs Autres inactifs Cadres el professions intellecluelles suprieures Professions intermdiaires Artisans, commerants, chers d'entreprise Agriculteurs
FIGURE

11.13

Il.6.2.2
NUIl.

Classification des modes d"hbergement


BENJ
EFF.
2
2

AINE
J -1

POIDS
3479.00

INDICE

HIS'l'OGHAMHE DES IlmrCES DE NIVEAU

10
11

693G.OO
1j364 00 1903.00

12
14

0.00025 0.00276 0.00650


0.OO67~

7fit'w,l,'I't"*1t.lr..lr'f't

15
16 17

7 11 10

5
5

14 16

15 12

8839.00 5329.00 7 HJ68.00 9 18532.00

2 .:1

***ir**f/;)y***

0.OOB64
0.00%9

*** .. *~*ltl'!*-.;***
*"*k*.,.,.***,******~

0.01974 0.05291 0.10734

** r

****.* ** *.

**~*It**~*****.*'f't*1t**~*~*'I't"N***~*~***~*k**~~***

SOHHE DES INDICES DE NIVE1\U

On vrifie dans les deux cas que la somme des indices de niveau est bien gale au phideux de Pearson. On constate que 3 modalits.

r on

pourrait regrouper aussi bien ]es lignes que les colonnes en

RPPA VILLAGEV CARAVANE TENTE LOCATION


AJ

RSPA RSEC HOTEL


FIGURE

11.14

266

11_Mthodes de classification

11.6.3

Races canines

Les donnes du chapitre 10 concernant 27 races canines ont t soumises une classification ascendante hirarchique selon la mthode de Ward sur les 10 composantes de l'analyse des correspondances multiples. On trouve ci-aprs la liste de fonnation des nuds et le dendrogramme (fig. 1 L 15) et tableau 11.2. Il est clair qu'une coupure est effectuer au-dessus du nud n 50 (coude dans le diagramme des indices de niveau) et que l'on distingue nettement quatre classes homognes, ces classes sont ici voisines de celles obtenues par la mthode des centres mobiles.

,----------------.53

eeaucer.m
Collay
10

Seller
Pointer

25
23

CLASSE 1

Beloer al.
Dobmmann Levrlor Fox.hound Epngnoul F Bleu Gnsc. DOrlun
Mas!i/!

12
20 16

15 III 13 21
24

51

52

BullMn5IJIf SI B~mar CtlCker Epa[Jnoul8 Boxer Lnbmdor DalmallOl1


Fox Terrier

TOHo-Neuve 27

14 4 H) 11
17

Canlcho Tockol 26 47

50

r------;~9

Bulldarl

44
43

Bassel
Chil\unhua Plikinais II

22 1102523312201615161321 fi 24 27!l

29

1<1"

19 1117 7265 2 8 22

FIGURE

11.15

11_ Mthodes de classification

267

TABLEAU

1 1.2
DESCP.!:P'1'10l1
liOElJDS

CLASST'lCAl'IOH ASCI::lm."-.1iTE HIERAPCHIOUE :


l'lUH.

!\INE
1.9

BElI,T
Il

Er':,.

TiOlDS

IODICE 0.00000 0.00000 0.00000


0.01:::~6

III.:?l'C!GRi\lINE DES HlDICES DE !HIJ2AU

:::.00
~,()(l

J2
30

26

.00

J::
33

12
16
2i

.,
:::0
2

~.OO

(JO

(l.Ol:::;!,

~.OO
~.O[)

O.Ol::::i!;
O.Ol~36

35

::8
21 32 18

JG
38 39
40
~~

13
7.5

.00 2.00 2.00


3.00

0.016 1;B a.0175;)


O.Ol9Gil

34 35
:::9

III

12
113
4:j
I~ :J 46 47

17

37
,13

3.00 4.00 . 00 3.00 .00


5.00 5.00 5.00 7.00 7.00 00 15.00 .00 .00

O.020GO O.OJOJ6 0.03119 O.OJ251

n.
0.03297 0.04074 0.04698
{}. lJll9J9
O

30

:10

':1
j.}
,j :;

4fJ

49 50
51 5:::

38
46
~9

10

0.07512 0.0789B 0.D8497

50

o .::::n80
0.:::757
li. '13314

47
51
INDTCES

12

5.2
SQl-U1E

n::s

llTVE;!.U

'" .l.6ii6G7

268

11_Mthodes de classification

Reprsentation des individus et des centres de gravit des classes dans le premier plan factoriel Facteur 2

0.8

~~\~~U/dsET
CLASSE-1/-l BULLDOG
TECKEL FOXTERRIER

MASTIFF

CLAS 1:2/-1 SAINTBERNARD BU!J::."'MSTIFF DOGUE ALLEMAND

OA

o .......... ,............................................................1'........ .... .... .... 7............


:

CANiHE COCKER

l
j

1GRAND BLEU DE GASCOOf'


CLASS

FOXiHOUND

LEVRIER

14

DOBEAMANN

l
\

BEAUCERON

:..k"
;

!EPAGNEUL FRANCAIS
CO~EV

syrrER
BERGER ALLEMAND

-0.8

CLAS~314
BOXER

DAL~ATIEN

LABRADOR

EPAGNEUL BRETON

0.4

o.a
Facteur 1

FIGURE 11.16

TROISIME PARTIE

1 Statistique infrentielle

Distributions des caractristiques


d'un chantillon

Le problme central de l'infrence statistique est rappelons-le, le suivant : disposant d'observations sur un chantillon de taille n on dsire en dduire les proprits de la population dont il est issu. Ainsi on cherchera estimer, par exemple, la moyenne III de ]a population partir de la moyenne x d'un chantillon. Ceci n'est possible que si l'chantillon a t tir selon des rgles rigoureuses destines en a.ssurer la reprsentativit }) (voir chapitre 20). Le mode de tirage le plus simple et aussi le plus important est l'chantillonnage alatoire simple correspondant des tirages quiprobables et indpendants les uns des autres. Dans ces conditions les observations deviennent des variables alatoires ainsi que les rsums numriques usuels: il convient donc d'en chercher les lois de probabilit avant de tenter d'extrapoler la population .

.. Exemple : On prlve au hasard 11 ampoules lectriques dans une production et on mesure leurs dures de fonctionnement. Si les caractristiques de fabrication n' ont pas vari une ampoule l'autre, les diffrences entre les Xi peuvent tre considres comme des tluctuations de nature alatoire. _
Cette dernire remarque justifie l'hypothse fondan1entale de la thorie de r chantillonnage: les valeurs observes Xi sont des ralisations d'une mme variable alatoire X, appele variable parente. Dans notre exemple, ceci revient postuler l'existence d'une variable abstraite, la dure de vie d'une ampoule de type donn, fabrique dans des conditions donnes. On peut cependant introduire aussi le modle suivant: chaque individu; tir, on associe une variable alatoire Xi dont on observe une seule ralisation Xi (exemple: Xi est la dure de vie de l'ampoule nO i qui, une fois l'exprience faite, a pris la valeur Xi)' L'hypothse fonnule plus haut revient alors dire que les Xi sont des variables alatoires ayant toutes la mme distribution, celle de X. Pour des raisons de commodit, on supposera gnralement les Xi mutuellement indpendantes (dans certains cas, l'indpendance deux deux sera suffisante). On a donc la double conception suivante, qui est la buse de la statistique mathmatique: les valeurs observes (Xl, X2' , xH ) constituent 11 ralisations indpendantes d'une variable alatoire X ou encore, une ralisation unique du n-uple (Xl' X 2, .. , XII) o les Xi sont 11 varables alatoires indpendantes et de mme loi.

272

12 I11\III Distributions des caractristiques d'un chantillon

Par extension, nous appellerons dsormais chantillon Je il-upIe de variables alatoires (X), X 2, , X,I)' La thorie de l'chantillonnage se propose d'tudier les proprits du n-uple (X" Xl, .. " X;l) et des caractristiques le rsumant, encore appeles statistiques, pru1ir de la distribution suppose connue de la variable parente X, et d'tudier en particulier ce qui se passe lorsque la tal1e de l'chantillon est leve. Il est d'usage de rsumer les Il valeurs d'un chantillon XI' X2' .. , X'I par quelques caractristiques simples telles que moyenne, plus grande valeur, etc. Ces caractristiques sont elles-mmes des ralisations de variables alatoires issues de XI' X,2, ... , X'I'
DFINITION

L
12.1

Une statistique T est une variable alatoire fOllction mesurable de X" X::., .. " XII' T f(X}l X::" ... , X,J,

Une statistique peut tre valeurs dans [f,g ou ~f1 ; dans le cas de !FR", on parlera de statis- . tique vectorielle. Les premiers paragraphes de ce chapitre sont consacrs au cas des chantllons d'une variable alatoire relle. On donnera ensuite quelques rsultats concernant les chantillons de vecteurs alatoires.

FONCTION DE RPARTITION D'UN CHANTILLON, STATISTIQUES D'ORDRE ET QUANTI lES


Fonction de rpartition empirique d'un chantillon
F,~I:(X)

12.1.1
x.

Dsignons par

la proportion des

11

variables XI' X2, ... ,

XII

qui sont infrieures

F,~I;(X) est donc une variable alatoire pour tout X qui dtnit ainsi une fonction alatoire appele foncton de rpartition empirique de l'chantillon, dont les ralisations sont des fonctions en escalier de sauts gaux J /n (fig. 12.1).

FIGURE

12.1

12- Distributions des caractristiques d'un chantillon

273

Si les

Xi

sont ordonns par valeurs croissantes:


Fl~!:{X)
F~l:(X)

0
=- -

six

<

XI

si

Xi-I

::s; x

<

Xj

F~!:(x)

= l

12.1.2

Convergence de F;-(x) vers F(x)

Ces trois thormes sont fondamentaux et justifient l'usage des chantillons en statistique.
THORME

1
ps

POlir tout x, 011 a F,1:(x) ~ F(x).

_ Dmonstration : A x fix, soit Y le nombre alatoire de valeurs infrieures x, qui est une somme de variables de Bernoulli de paramtre F(.r). D'aprs ce qui prcde F,~}:(x) qui n'est autre que Y/Il converge presque srement vers la probabilit F(x). _
THORME

(GLIVENKO-CANTELLI)

La

cml\'el~f?ellce de Fl~l; vers F est presque srement WI~r0I111e, c'est--dire que:

DII

sup IF,~I'(X)
x

F(x) 1 ~

_ Dmonstration: voir Renyi, chapitre 7, p. 378.


THORME

(KOLMOGOROV)
+:x::

lim P({,;Dn
Il ........

<

y)

K(y) =

.:c

~ (- 1)kexp ( - 2f!y2)
k;-cc

Ce thorme signifie que la distribution asymptotique de la variable alatoire Dn est connue et ne dpend pas de la variable de dpart X, et permet de calculer des lmites pour les valeurs de DII" La loi exacte de la variable Dn a t tabule (table A 1.14 du recueil).

12.1.3
x]>

chantillons ordonns et lois des valeurs extrmes

, x" un Il-chantillon d'une variable alatoire X. Les ralisations peuvent tre rordonnes en YI' )'2' . . . , )'n o YI < Y2 < ... < )'n' les Yi constituent une permutation particulire des Xi- Les Yi sont des ralisations du n-uple de variables alatoires (YI' Y2' ... , l'Il) qui constitue l'chantillon ordonn de X. Soit F(x) la fonction de rpartition de X de densit f(x) et Hl. et h" les fonctions de rpartition et densi l de Yk -

Soit X], X 2,
X2' , XII

274

12_ Distributions des caractristiques d'un chantillon

12.1.3.1
On a PO"I

Loi de Y,

= inf XI
1/

<

y)

1 - P(Y I > y) et P(inf Xi> y)


HI(y) = 1

rIP(Xj > y) donc:


1=1

[1 - F(y)f' - F(y)]/!-l.f(y)

Il le)')

= n[I

12.1.3.2

Lo; de Yn

= sup XI
11

P(Y'I

<

y) = rI P(Xi
i=1

<

y)

H/I(Y) = [F(y)J'

hile,,)

nfF(y)]!I-lf(y)

Ces deux lois servent en particulier pour la dtection des valeurs aberrantes chantillon: valeurs ( troP petites ou trop ) grandes.
lllIIllII l1l

dans un

Exemple: On sait que pour une loi LG(m ; cr) il y a une probabilit 1.35%0 de dpasser

+ 3cr. Sur un chantillon de 100 observations la probabilit qu'il yen ait au moins une qui dpasse 111 + 3cr monte l - (0.99865)JIlo = 0.126. Si inversement on cherche quelle est la
valeur que YI! a une probabilit L35%0 de dpasser on trouve: F(y/!) 100 environ III + 4.3cr.
(0.99865)1//1 soit pour

Il

12.1.3.3

Loi de l'tendue W
W
Yll - YI

La loi du couple (Y], YlI ) sobtient en crivant:


P(Y,

<

YI)

n (Y

II

<

)'11)) = P(YII

<

.l'II) - PY/!

<

YIl)

n (YI> YI))

(F(YII))" - (F(YII) - F(YI))"

d'o la densit du couple YI 1'/1 en drivant deux fOls:


h(Yld'lI) =
11(11 -

1)(F(Yll) - F(YI))J1- 1.f(y,,).f(YI)


~ (Y], Hl)

Avec le changement de variables (YI! Y,I ) de W:

on obtient la fonction de rpartition

G(u = (Il[F(X

Jp.

w) - F(x)]/I-lf(x)dx

et sa densit:

g(w)

1l(1l -

1) ( [F(x

J~

III) -

F(X)]/I-lf(x)f(x

w)dx

On trouve alors:

E(W)
-

Jf1

r(l -

(F(x))1/ - (l

F(x))/!)dx

en intgrant par parties E(Y,T )

E(Y 1 ).

12_Distributons des caractristiques d'un chantillon

275

'2.' .3.4

Loi de Yh

Appelons Rn(x) le nombre de rptitions de l'vnement X < x en n expriences indpendantes, qui suit donc une loi binomiale:

L'vnement Yk < x peut tre obtenu de plusieurs manires, soit que les k premires valeurs de X soient infrieures x et elles seules, soit qu'il y en ail k + 1, etc.
Il

Donc:

P(Yk < x)

2:C:/[F(x)J[l - F(X)]II-i
j=k

L'vnement x < Yk < X + dx se ralise si un des Xj est compris entre x et x + dx, si (k - 1)xi sont infrieurs x et si les 11 - k restant sont suprieurs x. Les probabilits respectives de ces diffrents vnements sont f(x)dx, [F(x)Y- 1 , [1 - F(x)]/I-k. Il y a
Il

manires de raliser le premier vnement el C~=\ manires de raliser les deux autres (C~= ~ faons de choisir les Xi infrieurs x, les autres tant alors suprieurs) :

F(Yt ) suit donc une IO bta l de paramtres k et

11 -

1.

12.1.3.5

Rsultats asymptotiques pour les extrmes

L'tude du comportement de YI et l'Il lorsque 12 ~ 00 est r objet de la thorie des valeurs extrmes dont nous donnons ci-dessous quelques rsultats. Nous nous bornerons tudier l'II puisque YI = -sup( -XI! -X:!, ... , - X1J Remarquons que si n
~
00 :

(F(y)yr ~

0
1

si F(y)

< 1

(F(y))'1

si F(y) = 1

ce qui est sans intrt. Il convient plutt de rechercher s'il existe des coefticients an et hl! tels que G/I.1';/ + h'l tende vers une limite non dgnre, par une opration semblable au centrage~rduction dans le thorme central-limite.

Nil valeurs XI. X2,

La mthode est la suivante: soit G(y) la loi limite de all J'1I + hl!' Puisque la plus grande des , XNII est aussi la plus grande des N maxima suivants: sup(X1, X2, , XII) ; sup(XIl + 1, , X2J1 ) ; ; sUP(X<N-l}lI ; ... XNII ) on doit avoir:

On dmontre alors que les seules solutions de cette quation fonctionnelle sont les suivantes pour X non born : type l : G(y) = exp( -exp( -y)) loi de Gumbel obtenue si 1 - F(x) tend vers 0 comme exp( -x) quand x ~ 00 ; type II : G(y) = exp( -il) ; y > 0 loi de Weibull (ou de Frchet) si 1 - F(x) tend quand x ~ co (voir chapitre 2, paragr. 2.3.8 et 2.3.9). vers 0 comme

276

12_ Distributions des caractristiques d'un chantillon

Ceci permet en pratique de pouvoir faire les approximations suivantes si


H,,(y)

Il

est trs grand:

exp( -ex p (

-(y a 1;))

ou

X exp ( - ( - b

a)a)

12.1.3.6
F(x) =

Distributions asymptotiques des quanti/es

Si F est continue, rappelons que le quantile d'ordre p not qp est la valeur de x telle que p_ Le quantle empirique d'un n-chantillon Q" est gal YI1l1'1+ 1 o [np] est la partie entire de np suppos non entier. On dmontre (voir Fourgeaud-Fuchs, 1972) que si
Il ~
':X; :

D'o en particulier pour la mdiane:

{,;(Q,12

qll2) -->

LO(ql/, ; 2f(~Ii')

12.2

DISTRIBUTIONS D'CHANTILLONNAGE DE CERTAINS MOMENTS

12.2.1

tude de la statistique X

DFINITION

La statistique X ml moyenne empirique de l'chantillon est:


1
/1

X = - LXi
11 i= 1

12.2.1.1

Proprits lmentaires

Soit m et cr l'esprance et l'cart-type de la variable parente; on a alors:

_ Dmonstration :
1
E(X) = ni:::; 1

2: E(X
l

Il

i)

1 = -ml!
11

111
2

V(X)

=2
Il

(/1 Xi) 2:
i= 1

-:;

1 2:1V(XJ = -:;110-2 = l1-i= 11Il

0-

11

d'aprs l' indpendance des Xi-

12_Distributions des caractristiques d'un chantillon

277

Si I-L3 et I-L-I sont les moments centrs d'ordre 3 et 4 de X on a : et


1)

On en dduit:

o 'YI et 'Y2 sont les coefficients Lorsque


Il ~:::c,

asymtrie et d'aplatissement de X.

V(X) -3> 0, il s'ensuit que X converge en moyenne quadratique vers

m puisque E[(X - m)2] -3> O.

Ce dernier rsultat est une forme des lois des grands nombres que nous allons noncer sous un aspect plus gnral. On voit!ie plus que si 11 -3> x, 'Y,(X) -3> totique de X .

et 'l'2(X) -3> 3, ce qui traduit la normalit asymp_

12.2.1.2

Lois des grands nombres

Elles sont de deux types: lois faibles mettant en jeu la convergence en probabilit et lois fortes relatives la convergence presque sre, Nous considrons ici des suites de variables alatoires XI> Xl, .. " Xli non ncessairement de mme loi.

Loi faible des grands nombres


Soit XI' X 2, , XI! indpendantes d'esprance 1111. 11l2, , 11l '1 finies et de variance crT, cr~ .. " cr~ tinies, Il l Il 1 /1 Si - L111j -3> III et si crl-3> 0, alors XLXi est tel que:

2:

lli;1

/li=1

Loi forte des grands nombres


1 If Soit Xl, X::!" , X'I indpendantes telles que - Lmj-3> m et
lli=1

i=1

2: -+ est convergente ;
'"

cr~

alors:
-

X-3>m

[15

(Pour la dmonstraton,

ci Reny, chapitre 7).

278

12IIIIIIII Distributions des caractristiques d'un chantillon

Application: Cas des chanti110ns : on voiL aisment que


convergente est ralise puisque:

, X~ 111 car la condition 2: ~:


~ ~

1 l-

et ]' on sait que la srie

1 2: 7 converge. r

Distribution
Le thorme central-limite tabli au chapitre 2 peut s'crre :
X
m ::.f
-)0

- -

cr/..hz

ULG(O, 1)

Il suffit en effet de poser: Xl

+ Xz + ... + XII

= IlX.

Ce rsultat est d'une importance capitale en statistique.

12.2.1.3

Application: loi d'un pourcentage

On prlve ndpen~ammenL et avec remise 11 individus d'une population spare en deux sous-populations A et A de proportions p et 1 - fJ (pices dfectueuses ou correctes dans une production industrielle par exemple). Soit K le nombre d'individus de la sous-population A obtenus dans J'chantillon. On sait que K suit une loi binomiale @(n ; p). Notons F

K/n la frquence empirique de la catgorie fi.

F est la moyenne arithmtique de n variables de Bernoulli de paramtre p indpendantes.

On a donc:

E(F) V(F)

=p = pO 11

p)

. . et S1 Il est gran d F = LO( p : -~~ en raIson d u th' eoreme centra1-l'ImIte. La convergence de F vers p, connue sous le nom de thorme de De Moivre-Laplace, est une des premires applications de la loi des grands nombres. Ce rsultat a inspir la thorie frquentiste des probablts (voir chapitre]).

~ fP(1=-p))

Application numrique: Comme pour la loi binomiale l'approximation gaussienne de F est valable si np et n( 1 - p) sont tous deux suprieurs 5.
Ainsi pour un chantillon de 400 pices issues d'une fabrication o 10 % sont dfectueuses, on peut s'attendre trouver dans 95 % des cas un pourcentage de dfectueux dans l'chantillon

. "' /0.10 X 0.90 compns entre 10 % l.96 400 '

'i

SOIt

9.7 % < F < 10.3%.

12- Distributions des caractristiques d'un chantillon

279

12.2.2

tude de la statistique 52

DFINITION

La statistique S1 Olt variance empirique d'chantillon est: 1 S2 = (Xi - Xf

2:

/1

l1i=1

12.2.2.1

Proprits
1 = - 2: x r -

(II ) (Xf _
i;;;;J
IIIIIIII

_ Dmonstration : Il suffit de dvelopper.

.. Convergence presque sre de 52 vers u 1


D'aprs les lois des grands nombres:

1 2: p~ - (II Xr) ~ E(X


Il
i""'J

et :

x<! ~ [E(X)F
~

donc:

ps

E(X-) - [E(X)]-

"

0--

Dcomposition de S2
Partons de X j
On a alors:
Il

Il

III

= Xi
1I1Y~'

+ X-m.

2: (Xi i=J

2: (Xi

Il

xf + 2: (X - 111)'2 + 2(X
II

m)

2: (X;
i= 1

11

)()

;=1

Comme

2: (Xi - X) = 0; on trouve:
;=J

1
n

Il

2:(Xi
i=1

xf + (X mf

Biais de S1
THORME

E(S-) =

"

--0-Il
2

n - 1 ,

Ce thorme montre que E(S2)

* ,On dit que S2 est une statistique biaise pour cr

280
_ Dmonstration :
E(S2)

12_ Distributions des caractristiques d'un chantillon

==-

1
1

Il

2. E(X i
Il

1Il)2 - E(X - m)2


-

11 i=1

2:V(X i )
1

V(X)

=-

Il

2.(T2

Il

11i=1

Le biais vaut

cr /n et tend donc vers Q.


2

Varance de S2

Un calcul dont la longueur est la seule difticult montre que:


V(S2) = --[(11 3
11

11-]

1)f.1.; - (n - 3)cr"]

el

si

Il

--,)0.

oc :

La variance S'!. tant biaise et ayant donc tendance il sous-estimer (T-, on utilise frquemment la variance corrige dont l'esprance vaut exactement (T2 :
S*1 =
Il

11 -

1 E(S*'!.) = cr:!.
II -

--2:U( - xi1

1/

Cependant. l'cart-type corrig S* reste biais pour cr car :

E(~)
mais est asymptotiquement sans biais.

=1=

~ E(S*:!.)

Il n'existe pas d'expression gnrale donnant E(S*) pour toute distribution. On verra plus loin une formule exacte dans le cas o les Xi suivent des lois normales.

12.2.2.2

Thorme limite pour 52


- - c r2
---===--11
!f
--,)0.

n - 1

U E LO(Q, t)

ce qui peut

5' crire

avec l'approximation prcdente:

:' _cr', {,; .!. U E LG(O, 1)


f.1.;

cr

12.2.2.3

Corrlation entre X et 52

Cherchons cov(X, S2) :


-, Il 1 ,)] cov(X, S-) = E [ (X - 111) ( " \ - -,-,-(TS-

12 _ Distributions des caractristiques d'un chantillon

281

Nous pouvons supposer sans nuire la gnralit que 111 = 0, car on sait que la covariance est insensible un changement par translation sur un des tennes : cov(X, 52)

E(XS2)

E(X5!.) =

E[(! X (~ XJ Xl)] n
i)

llj=1

= 1E[(2:X)(D/~)]
11,

E(X 3 )

Il

\E[2:22 X XJ] j
i

E(X 3 )
3

= 11- E(2: XT) ~ i

11

~ E(2:X~)
i
Il

car E(X; XJ) = 0 pour i =F j cause de l'indpendance :


--.,-f.L3

n-

Avec la formule tablie prcdemment pour V(S:''), on trouve que:

rr~

/-L.I

11 -

3 rr..t n- 1

el n'est donc nul que si f.LJ est nul, ce qui est le cas des distributions symtriques. Il faut se garder de passer de la non corrlation l'indpendance et nous verrons dans un paragraphe suivant que X et S"l ne sont indpendants que si X suit une loi de Laplace-Gauss.

12.2.3

Cas des chantillons gaussiens

On suppose maintenant que X E LG(m, cr) :

12.2.3.1

Loi de X

X combinaison linaire de variables de Laplace-Gauss est aussi de Laplace-Gauss et

XE LG("'. ::n)
Il s'agt ici d'une loi exacte.

12.2.3.2

Loi de 52 et indpendance entre X et S2

D'aprs la dcomposition de S2 on peut crire:


Il

L(Xj
;=1

m)2 =

2: (X; i= 1

Il

X)!.

+ n(X

m?

282

12IIIIIIII Distributions des caractristiques d'un chantillon

Divisons par cr l de chaque ct:

(Xi - Ill):!
cr

-== 1

= IlS,,2 + cr-

(X - 1Il)2
cr;-..Jn

Nous sommes dans les conditions d'application du thorme de Cochran. Le premier membre est une somme de 11 carrs de variables centres rduites et suit donc un X~. Le deuxime membre est constitu de la somme de deux formes quadratiques sur ces 2 " . 111)2 lIS varIables de rang 1 pour - y de rang 11 1 pour en effet X est h aux Xi et ('on cr;~11 cr

(X

---r :

a la relation

2: (Xi =l

Il

X)

= O.

On en dduit les deux rsultats suivants:


THORME 1

l
THORME

I1S 2

suif une loi de X~-I

L
, X

Xel S2 sont indpendants

On peut de plus dmontrer la rciproque du thorme 2 : si Xet S2 sont indpendants alors X est LG (Ill, cr), il s'agit donc d'une proprit caractristique.

Application: Puisque - - " V i l cr

/11 _

TlS 2 LG(O, 1) et -.., cr-

E X~-l

"l

on aura:

X 111_1 ---"VII
cr

x - m_,--;
---"Vil - l

o Tn - I est une variable de Student

Il

1 degrs de libert.

Ce rsultat est extrmement utile car il ne dpend pas de cr et servira donc chaque fois que cr est inconnu.

_ Exemple: On prlve 25 pices dans une production industrielle. Une tude pralable a montr que Je diamtre de ces pices suivait une loi gaussienne LG (10; 2). Entre quelles valeurs a-t-on 90 chances sur 100 de trouver le diamtre moyen de ces 25 pices et leur cart-type?

XLG(IO;~)
avec une probabilit 0.90 on trouvera

10

L64_r;:;-;: < X < 10


'J25

+ 1.64r;:;-;:

9.34 < X < 10.66 car pour la variable centre-rduite U: P( - 1.64 < U <

soit 'J25 1.64) = 0.9.

12&- Distributions des caractristiques d'un chantillon

283

Comme

115"2

"1 X~ - 1 on

1 . se reporte aux ta bl es d l 01 d u X2.t. E n prenant conventIOnne1 e la ' -

lement des risques d'erreur symtriques on trouve: 13.848

< - - < 36.415 (fig.l2.2)


4

255 2

FIGURE

12.2
'J

soit: d'o 1.49 5

< 5 < ~~36.4(5 < 2.41.

12.2.3.3

Esprance et variance des principales caractristiques d'un chantillon gaussien


II

Le tableau 12.1 rcapitule les rsultats:


I/TlL(Xi - X)3 '"\11 = --'-..:...---TABLEAU

'""12 = - - - - - -

12.1

Statistique

Esprance
11/

Variance

x
Il -

l , --cr
Il

11

5*
R
'YI

(1

=0
=3

6
n

=11
'Ti

24

..,

{T-

Mdiane

111

11

284

12_ Distributions des caractristiques d'un chantillon

Un calcul d'intgrale permet de trouver la valeur de E(S*) :

que l'on exprime souvent sous la forme E(S*) = C.icr, o c..\ tend vers 1 quand n augmente (table AiS). S* est donc asymptotiquement sans biais pour cr. On en dduit aisment la variance V(S*)

= E(S*2)

- (E(s*)f = cr 2 - (C.)cr)2

= cr 2( 1

d)

Pour r tendue R, les calculs ne sont pas aiss: les coefficients usuellement nots dl et d 3 qui permettent de calculer E(R) = d 2cr et VeR) (d3(Jf figurent dans la table AI8. On notera que quand Il augmente, d;. tend vers l'infini, car la loi nonnale a pour support l'ensemble des nombres rels.

12.2.4

Application aux cartes de contrle

Il s'agit d'une des plus importantes applications industrielles directes de la thorie de l'chantillonnage.
Introduites par W.A. Shewhart ds 1931, les cartes de contrle permettent de suivre au cours du temps la moyenne el la dispersion d'un procd de fabriacation afin de dtecter des carts significatifs (drglages ou drives) par rapport aux valeurs nominales ou consignes respecter. En effet, tout procd est soumis des variations, que r on modlise souvent par une loi normale: par exemple le diamtre de pices mcaniques suit une loi N(m, cr). Soit mu et (Jo les valeurs nominales. On prl~ve intervalles rguliers des chantillons de n pices. La carte de Shewhart (X ; S) est un double graphique o l'on reporte les valeurs successives de la moyenne et de l'cart-type corrig de chaque chantillon. La ligEe centrale correspond l'esprance de la statistique si le procd est bien rgl: E(X) = 1110 E(S*) C.I(JO' Les limites de contrle sonl conventionnellement 3 cart-types de la valeur centrale soit:

Pour Il :::5 5 la limile infrieure de contrle pour S est mise zro, pour viter une valeur ngative. La probabilit de sortir des limites de contrle tant trs faible lorsque le procd est bien rgl, on interviendra ds que l'une des deux statistiques sort des limites. La figure suivante illustre une carte de contrle pour un procd o nI/) = 24 et (J'o = 2 avec des chantillons de taille 5. Des interventions auraient du avoir lieu aux instants 7, 9 et 20, car la moyenne tait sortie des limites.

12_Distributions des caractristiques d'un chantillon

285

33 31
c
QJ

LCS=26.68 CTR=24.00 LCI=21.32

29

c ~

27

:2: 25

23
21~~~~~~~~~~~~~~

15 10 chantillon

20

25

4[ ___- -_____________________
LCS=3.93 CTR=1.88 LCI=O.OO

10

15
FIGURE

20

25

12.3

Il existe bien d'autres cartes de contrle,

(:f. L. Jaupi, 2002.

12.3

DISTRIBUTION DU CENTRE DE GRAVIT ET DE LA MATRICE OEVARIANCE D'UN CHANTILLON GAUSSIEN p-DIMENSIONNEL

SoiL un chantillon de taille 11 de la loi NI'(p. ;~) (c'est--dire un tableau de donnes 11 lignes et p colonnes), il suffit alors d'appliquer les rsultats du chapitre 4 pour obtenir que:

{,;g

N,,( {,; f'- ; };)

SOil

g - N"

(IL ;;;};)
1) degrs de libert:

La matrice de variance V suit alors une loi de Wishart (11

IlV --

~)(n -

1 ;~)

V et g sont des slaListiques indpendantes.

286

12_ Distributions des caractristiques d'un chantillon

La distance de g f.L au sens de Mahalanobis est :


(g -

f.L)'

2:- I (g

- f.L)

et on a :

n(g - f.L)' :L-1Cg

f.L) - X~

Le rsultat suivant est cependant plus utile car il ne fat intervenir que la matrice V observe et non la matrice 2: thorique:
(n

l)(g

J.t)' V-1(g - J.t) = TJ,(1l - 1)

soit:

il tend la formule unidimensionnelle du T de Student.

12.4

LA MTHODE DELTA ET LES STATISTIQUES ASYMPTOTIQUEMENT NORMALES

Soi t Tune statistique telle que si

Il

--> oc

T --> LG ( e ;

IT~)) el 9 une foncti on drivable. Alors

, . . , ( 91(f))C(J)) g(T) est egalement une statistIque asymptotIquement normale et T ~ LG g(6); -{;; .

En effet d'aprs la formule des accroissements finis: g(T) - g(6) = (T - 6)g'(8) + E Oll E est iC une variable alatoire qui tend vers 0 lorsque T tend vers 6, donc quand
Il
~

cc,

La distribution asymptotique de g(T) - g(8) est donc celle de g'(O)(T - 0) et on a V(g(T # (g'(8))2 V(T) d'o le rsultat annonc. Ce rsultat est particulirement utile lorsque l'on veut obtenir une variance asymptotique indpendante de fl: il suHitde rsoudre l'quation diftrentielle g'(6)<r(6) c. En voici trois applications:

12.4.1

Stabilisation de la variance d'un pourcentage

On a vu que F ~ LG ( p;

~p(l 11-

Pl) d" : ou
'

g(F)

~ LO(9(P); ~p(1

_;hz

- P)g/(P)

12- Distributions des caractristiques d'un chantillon

287

Si g'(p)

il vient g( p)

2c Arc sin

-{p +

K. En prenant c = I/2 et

K = 0 on en dduil que:

Arc sin{F -> LG( Arc sinfJ;;

2~)

12.4.2

Stabilisation de la variance d'une loi de Poisson

Soil X fi}(). On sait que X - ' ? LG( ; -{.) d'o:

12.4.3

Valeurs propres d'une matrice de variance

Soit un Il*chantillon d'une 101 normale p-dimensionnelle NI,(V-. 1':) et V* = matrice de variance corrige de J'chantillon. Si
;

--v
Il

Il

la

et

a montr que ~(li -

'i dsignent les ;~I!It! valeurs propres de 1': el de V* respectivement, T. W. Anderson


j)

converge vers une loi normale LG(O ;

i-{2).
i ;

On en dduit que In li a pour distribution approche une LO(ln permet d'crire: 0.95

~11-1 ), ce qui 2

p(ln

i -

1.96~ ,,-1 < ln 2

'i

< ln

1.96~ n-l ) 2

d'o:

lieXP(-1.96~11-1 ) < i < l;ex p( 1.96~11-) ) (cf ch 7, 7.3.2) 2 2


Gnralisation au cas multidimensionnel

12.4.4

SiX -> NI' ( ,.. ;

~) et si y

<p( X) avec <p appli cation de n;l" dans n;l" di ffren tiabl e alors :

o il. est la matrice des drives partielles de <fi au point f.l. Ce rsultat est souvent utilis pour calculer des intervalles de confiance asymptotiques pour des paramtres multidimensionnels, le nom de mthode delta provient de l'usage des drives.

L'estimation

13.1

GNRALITS

L'estimation consiste donner des valeurs approches aux paramtres d'une population (m ; rr, etc.) l'aide d'un chantillon de 11 observations issues de cette population. On supposera vrifie l'hypothse d'chantillonnage alatoire simple.

13.1.1

Exemples lmentaires
2

Les lois des grands nombres justifient l'usage de respectivement: on sail que X 111 et S1 ~ rr vnement est une estimation de sa probabilit p.

x et de :;;2 comme estimations de 11l et rr! De mme, la frquence empirique f d'un


,p respectivement.

Les variables alatoires X, S'2, F sont appeles alors estimateurs de m,

Cependant le mme paramtre peut tre estim l'aide d'estimateurs diiTrents : pour une distribution symtrique la mdiane de l'chantillon est galement une estimaton de m. Afin de choisir entre plusieurs estimateurs possibles d'un mme paramtre il faut dfinir les qualils exiges d'un estimateur.

13. 1.2

Qualits d'un estimateur

Soit e le paramtre estimer et Tun estimateur, c'est--dire une fonction des Xi valeurs dans un domaine acceptable pour e.
Il ~

La premire qualit d'un estimateur est d'tre convergent. Il est souhaitable que si JJ T ~ e. C'est le cas des estimateurs prsents au paragraphe prcdent. Deux estimateurs convergents ne convergent cependant pas ncessairement la mme vitesse, cec est li, pour une taille d'chantillon donne, la notion de prcision d'un estimateur. Un estimateur est une variable alatoire. Supposons connue sa loi de probabilit pour une valeur donne de e. La tgure 13.1 illustre alors les deux composantes de l'erreur d'estimation. L'erreur d'estimation T - e qui est une variable alatoire se dcompose de faon lmentaire en T E(T) + E(T) - e ou E(T) est l'esprance de l'estimateur.

T - E(T) reprsente les fluctuations alatoires de T autour de sa valeur moyenne tandis que E(T) - e est assimilable une erreur systmatique due au fait que T varie autour de sa valeur centrale E(T) et non autour de e.

290

13111i1111L'estimation

Biais
FIGURE

13.1

La quantit E(T) (} s'appelle le biais. Il est donc souhaitable d'utiliser des estimateurs sans biais, tels que E(T) = 8. Ainsi est sans biais pour m, mais S1 est biais pour cr:'.

Il est donc souvent prfrable d'utiliser S*2

= -- I S2 pour estimer cr 2 Il

11

On sait cependant que S* n'est pas un estimateur sans biais de cr.


On mesure gnralement la prcision d'un estimateur T par l'erreur quadratique

moyenne:
ET - 8f)

On peut crire :
E[(T

8)21

= EHT - E(T) + E(T) + 2E[(T - E(T)(E(T)


+

0)2]
- 8)1

= E[(T -

E(T)f]

+ E[(E(T)

Of]

Comme E(T) - fl est une constante et que E[T - E(T)]


1

= 0 il vient:
Op
1

E[(T - 0)2] = V(T)

lE(T) -

De deux estimateurs sans biais, le plus prcis est donc celui de variance minimale. 1 Il Montrons ainsi que si 111 est connu l'estimateur T = (Xi - 111)2 est meilleur que S*:. :

2:

lli==1

En effet:

V(T)
V(T)

1 = "2 V(/J :L(X


Il
j;!

j -

mf- ) =
[E(X -

1
11

V[(X - mf!]
"l ,

1 = - [E(X n

m)

-1

1 111)-1-1 = - [t-L-t
Il

rr 4]

et :

V(S*2) = V(S*2) =

- - ) "l V(S1) =
Il

-Il -

Il-Il

)"l

! [J.L-t 11

Il - 3 - - c r -1] Il 1

donc V(T)

<

V(S*1).

13_L'estimaton

291

13.1.3

Recherche du meilleur estimateur d'un paramtre

On ne peut rsoudre d'une faon gnrale le problme de la recherche du meilleur estimateur d'un paramtre sans faire d'hypothses sur le phnomne chantillonn. En effet la variance d'un estimateur ne peut en gnra] se calculer que si l'on connat la loi de T qui dpend de celle des Xi. Le modle utilis en thorie classique de l'estimation est alors le suivant: on observe un chantillon d'une variable X dont on connat la loi de probabilit l'exception de la valeur numrique d'un ou de plusieurs paramtres (par exemple: X suit une loi de Poisson 0'l(fJ) de paramtre e inconnu). En d'autres termes la variable X est dfinie par une famille paramtre de lois f(x ; 8) o / a une expression analytique connue. Cependant la thorie de l'estimation ne permet pas de rsoudre le problme de la recherche d'estimateurs d'erreur quadratique minimale. On se contentera de rechercher pour une famille de loi donne/(x; 8) l'estimateur sans biais de e de variance minimale. II reste toutefois possible dans certains cas particuliers de trouver des estimateurs biaiss plus prcis que le meilleur estimateur sans biais. La recherche d'estimateurs sans biais de variance minimale est intimement lie l'existence de slatistiques exhaustives.

13.2

l'EXHAUSTIVIT

Dans un problme statistique o tigure un paramtre e inconnu, un chantillon apporte une certaine information sur ce paramtre (information qui serait diffrente pour un autre paramtre avec le mme chantillon). Lorsque l'on rsume cet chantillon par une statistique, il s'agit de ne pas perdre cette information; une statistique qui conserve l'information sera qualifie d'exhaustive.

II convient de donner un sens prcis la notion d'information: une premire approche consiSle remarquer qu'une variable alatoire T ne peut nous renseigner sur la valeur d'un paramtre que dans la mesure o sa loi de probabilit dpend de ce paramtre; si la variable T est une statistique relative l'chantillon (X" Xl' ... , XJl) et que la loi conditionnelle de (XI> X"2~ ... , XII) T fix ne dpend plus du paramtre e, on peut dire alors, qu'une fois Tconnu, nous n'obtenons plus d'autre information de l'chantillon concernant fi et donc que T porte taule l'information disponible sur f1. Une deuxime approche consiste dfinir mathmatiquement une quantit d'information et chercher dans quelles circonstances cette quantit se conserve lorsque les donnes sont rsumes par une statistique.

13.2.1

Dfinition d'une statistique exhaustive

Soit un n-chantiHon d'une variable alatoire X. On notera L(x" X1' . , x" ; 8) soit la densit de (X!, Xl ... , XII) si X est absolument continue. soit la probabilit conjointe P(X) = XI n ... n XIl XII) si X est discrte.
L(x; 6) considr comme fonction de 8 seul est appel ( vraisemblance de 8 (voir plus loin).

Soit T une statistique fonction de XI' X,!, ... , XII de loi g(r ; 8) (densit dans le cas continu,

peT = t) dans le cas discret).

292

13. L'estimation

DFINITION

Tsera dite exhaustive si l'Oll a L(x, e) = g(l, e)lz(x) (principe defactorisatioll) e11 d'autres tenues si la densit conditionnelle de l'chamilloll est indpendante du"paramtre.
Ceci veut dire qu'une fois T connu, aucune valeur de l'chantillon ni aucune autre statistique ne nous apportera de renseignements supplmentaires sur O.

_ Exemples:
Loi normale, m connu (J'inconnu :

Posons T =

2: (Xi 1

/1

mf-. On sait que T/cr'2 suit une loi de X~. La densit de Test

alors:

g(t, cr)

d'o:

r(1l/2)
[(X, a) = g(1, cr)
[

n
Il

llll

2: (Xi - mf
i""l

Il

]11/:'-1

g(1, a)h(x)

T = 2:(Xi
=I

mf" est donc exhaustif pour a 2,

Loi de Poisson. inconnu:


Il

11 exp( - ) -,-,1 = exp ( -n)--' '/' 11-'


/1

Xi

"5'x~
r

i==1

/1

Xi-

i=1

s=

X[

+ X2 + ... + Xn est ex1mustive : S suit une loi 2P(Il), d'o


s!

(l1Y g(s: ) = exp(-n)--et:

[
9

s!
lI,ITIX!

Le principe de factorisation nous donne donc un moyen de reconnatre si une statistique est exhaustive, mais ne permet pas de la construire ou mme de savoir s'il en existe une.

13-L'esCmation

293

13.2.2

Lois permettant une statistique exhaustive

Le thorme suivant rpond aux deux proccupations prcdentes:


THORME DE DARMOrs

Soit une variable alatoire X dont le domaine de dfinition Ile dpend pas de 8. Vne cOlldition ncessaire et st~flsante pour que l'chantillon (Xl' X]., ... , XI!) admette une statistique exltazlstl'e est que la forme de la dellsit soit: f(x. 8)

exp[a(x)Cl(a)

+ b(x) +

~(8):I

(famille expone1ltielle)

Si la densit est de cette forme et ,i de plus l'application x 1 ~ contmlnent dUfrentiable pour tout i. alors T particulire.

2: a(x j) est bijective et


1=1

If

2: a(X
;;1

Il

j)

est LIlle statistique exlulllsth'e

_ Dmonstration :
Condition ncessaire: T

= <.p(X 1, X::!, ... , X1J est telle que: = g(l, 8) "(x) = II f(xj, a)
1
1/

L(x, 8)

Ona:

Posons:
\j~,

k(~, a) =

a ln ,'(t, a)
. ':,.

aa

eE lR il existe un point x de

avec

Xi

~x}

Tl. En ce point on a :

ak(~, a)ja~

a<.p(X)j[)Xi d<.p(X)j ilx}

ak(Tl,8)jaTl

ce qui est indpendant de H ~ ceci n' est possible que si :


ilk(x, H) ilx
u(x)1'(8) a(x)\'(O)

d'o en intgrant par rapport x : k(x, 0) lnf(x, e) a(x)ClC8) + 13(0) + b(x).

+ w(O), et en

intgrant par rapport e :

Condition suffisante: L(x, 8) = exp [ n(O),t,O(X,)

,t,b(X,) +

11

13

(0)].

Posons 1

2:a(x i) et effectuons le changement de variable :

294

13_L'estimation

lgitime si l'application est bijective

Xl

" 2:a(xJ :
i=\

car Je jacobien de la transformation se rduit aIl ih l - Pour obtenir la densit g(t, B) de t, iJ ' . fl1l1l~ f aut " Inlegrer L' par rapport il x::' X3' . . . , Xli SOIt dans U\i. 1 :

il Y a donc

bi~n

factorisation de L(x, B).

Ce thorme est un outil trs puissant dans la recherche des statistiques exhaustives et l'on remarque que la plupart des lois usuelles, lois de POsson, de Gauss, lois 'Y sont de la forme exponentielle.
_ Exemple: X suit une loi 'Y de paramtre inconnu:

f{x, B)

f{H) exp( -x)x

IJ

Inf(x, El) = -x

(e - 1) Inx - ln f(e)

La statistique exhaustive est ~I ln Xi = ln

Il

(11

~ il] Xij-

On peut remarquer que toute fonction injective d'une statistique exhaustive est encore exhaustive, ce qui indique que dans )' exemple prcdent la moyenne gomtrique des observations est exhaustive pour e. Une statistique exhaustive T, qui est foncton de toute statistique exhaustive, est dite exhaustive minimale. Remarquons cependant que si le domaine de dfinition de X dpend de e, le thorme de Darmois ne s'applique pas, ce qui n'empche pas de trouver dans certains cas des stalistiques exhaustives. Ainsi si X suit une loi uniforme sur [0 ; H], T sup Xi est exhaustive pour

e.

En effet:

L(x ; fl) = ( 1 )"

et

g(t ~ H)

car peT

<

t) =

(!.-)11 il s'ensuit que!::.. = ~I est indpendant de e.


e
9
nt"

13_L'est:imat:ion

295

_ Autres exemples de statistiques exhaustives: le lecteur pourra vrifier les rsultats


suivants titre d'exercice:
loi de Bernoulli de paramtre
11

p inconnu: T

2:Xi est exhaustif pour p ;


i=1

loi de Laplace-Gauss: N(III ; cr) :


Il

si cr est connu, T = si m est cqnnu, T

:LXi est exhaustif pour m ;


i=1

2: (Xi

Il

m)2 est exhaustif pour

si

/II

el cr sonl tous

d::~ inconnus, le couple (t,x" t,(X; - X)' ) ou (x, S') est


~exp( -~ )
:T

exhaustif pour le couple (m, cr). loi exponentielle de densit

,x; est exhaustif pour e.

13.2.3

l'information de Fisher
sllr

DFINITION

011 appelle quantit d'iI~fonnatioll de Fisher 11/(0) apporte par lUI ll-cllCl1ltilloll paramtre e la quantit suival1te positive Olt nlllle (si elle existe) :

le

Note: L(X, 0) peut tre considre comme une variable alatoire, car fonction de variable
alatoire:
II

L(X" X 2, , X n ; 0)
THORME

IIf(X i ; 0)
i=1

Si le domaine de dfinitio1f de X Ile dpend pas de


- E (--iJe:!

e a/ors:

Pln

L)

si cette quantit existe

- Dmonstration: L tant une densit L,L(X, e)dx

1.

En drivant les deux membres par rapport e et en remarquant que:


aL(x,

ae

e) =

L x.

e a ln L(x, 0) ( .) ae

296

13aL'estimation

il vient:

i
( rJ2 ln L(x, 8)

aln L(x, 0)

~.. .'

ao

L(x, O)dx = 0

ce qui prouve que la variable alatoire Drivons une deuxime fois:

a ln L(X, 0) est centre et que 11/(fJ) = V (ri ln - L) -.

ae

ao

J~"
en utilisant
~l

ao

O)dx

cl ln L(x, e) aL(x. 0)

ao

ao

dx = 0

nouveau la remarque sur

ilL(x,O) . . , il Vient:

ao

' L(x, i (a ln aA th):!L(x,O)d . aoJ ---,-..,--Ldx +


i):!ln

0)

L(x,

[~'J

G~n

ce qui dmontre la proposition.

Remarque: L'utilisation de l'hypothse du domaine indpendant de 0 intervient lors de la drivation sous le signe

J.

Un exemple de variable alatoire domaine non indpendant de 0 est fourni par X de densit exp( -(x - e)) si x ~ e ~ 0 sinon.
PROPRIT DE ' n(6}

Additivit. Si le domaine de dfinition ne dpend pas de

e on a :

En effet les oprnteurs esprance et drive seconde sont linaires. Ceci veut dire que chaque observation a la mme importance, ce qui n'est pas le cas pour la loi uniforme sur rO, 8] o la plus grande observation est la plus intressante. .. Prcison. SOt X une variable alatoire de Laplace-Gauss N(O, rr) o rr est connu. On a 11(0) 1frr:!; l'information apporte par une observation sur la moyenne est d'autant plus grande que la dispersion est petite . Dgradation de l'information. Montrons que l'information porte par une statistique est infrieure ou gale celle apporte par l'chantillon. Soit T de densit g(1, 0) la statistique que l'on substitue l'chantillon, on a :
L(x,O)

g(l, 0)1t (x, Olt)

131i11!11L'estimation

297

o h(x, Olt) est la densit conditionnelle de l'chantillon. On a donc, en prenant l'esprance des drives secondes:

le dernier terme est la quantit d'information conditionnelle 111 /1'(0) (ou information supplmentaire) ; elle est postive ou nulle, donc:
11'((3) ::; 1/1(0)

on voit donc que si T est exhaustive 11"(0) domaine de X est indpendant de e.

= liO)

et que la rciproque est vraie si le

Remarque: On a suppos le domaine indpendant de


1'1(0)

IlO)

a ln h)2] [( - - + 2E ao

[a dO 9adB h]
ln ln - .---.-

car sinon on aurait d crire:

et on n'aurait pas pu conclure une diminution de l'information cause du signe inconnu du dernier terme.
11'(0)

Ce dernier tenne peut laisser supposer, s'il est ngatif et grand en valeur absolue, que > l,/U)) ; jusqu' prsent aucun exemple d'augmentation de j'information n'a t dcouvert mais le problme reste entier.

13.2.4

Gnralisation plusieurs dimensions 6 paramtre vectoriel E~.I"

On consultera Fourgeaud, p. 216, pour un traitement complet. En rsum, on a, si le domaine ne dpend pas de 6 : La matrice de l'information ill a pour terme gnral :
(f,_ .

= cov[a Inf(X, 0). a Inf(X, 8)]

rfl.j

ao.'
1

lO.
J

c'est une matrice symtrique dfinie positive.

Sail Tl' T 2, , T un systme de s statistiques fonctionnellement indpendantes; la notion de dgradation de l'information se gnralise comme suit:

On appelle systme exhaustif un systme de s statistiques fonctionnellement indpendantes, tel que :


L(.y l , X~ .... ,
XI/;

6)

g(tl!

t'2'"''

t~;

6)11 (x},

.1:'2, ... ,

xu)

et l'on a J'/I(O) -

JiT/' 'l':' ... ,-,;(6)

= 0 si et seulement si le systme (Tl' T2 . . . , TJ est exhaustif.

298

13_L'estimation

THORME DE DARMOIS

Ulle condition ncessaire et suffisallte pour qu'ull ll-clwntil/oll admette 1111 systme rsl/m exhaustif est que:
s

lnf(x. 0)
/1

Lalx)ai(O)
j;1

h(x)

+ 13(0)
llIl

en particulier:

T; = La;(Xj )
j=!

l, 2, ... , s est

systme ex/wl/stri'

13.3
13~3.1

L'ESTIMATION SANS BIAIS DEVARIANCE MINIMALE

Les rsultats thoriques

On dispose pour rsoudre ce problme d'une suite de quatre thormes qui montrent en dfinitive que l'estimateur de variance minimale est li l'existence d'une statistique exhaustive.
THORME

1 UNICIT
Wl

l
lIIIIIIiI

S'il existe slrement.

estimateur de

e sans biais, de

l'ariance minimale, il est lIniqlle presque

Dmonstration: Raisonnons par l'absurde et supposons qu'il existe deux estimateurs sans biais TI et T'2. de e de variance minimale V.
Soit:
E(T I )

T) est sans biais car:

E(T) =

+
2

E(T2 )

=--

+
2

et : o p est le coefficient de corrlation linaire entre TI et T:!. Puisque V(T1)


V(T3 ) = V(T:!)

V il vent

~ (l + p). Si p <

1 on a V(T3 )

<

V ce qui est impossible, donc p = 1. C'est--dire V(T:!) il vient

Tl - E(Td = (T2 - E(T2 ) avec > O. Comme V(T,) E(Td = E(T]J = 0 on a Tl (ps).
THORME

= 1 et

pUsque _

2 : RAO-BLACKWELL

Soit T Wl estimateur qllelconljue sans biais de 0 et U lI1le statistiqlle exhaustive pour O. Alors T* = E(T 1 U) est Ull estimateur salis biais de e au moins aussi bail qlle T.

13_L'estmation

299

_ Dmonstration : T* est un estimateur de e. Cette proposition est non triviale car il faut montrer que T* dpend seulement des Xi et non de B.
Puisque U est exhaustive, la densit conditionnelle de l'chantlIon sachant U ne dpend pas de 6 et E(T 1 U) = L.,IL(X,6 1 u)dx ne dpend donc pas de 6 mais des -' seuls. e T* est sans biais. D' aprs le thorme de l'esprance totale:

E(T*)

= E[E(T 1 Un
V(E(T 1 U)} V(T*)

E(T)

T* est au moins aussi bon que T. D'aprs le thorme de la variance totale:


V(T) V(T)

E(V(T 1 U)

+ E(V(T 1 U)
2;:

Comme E( V(T 1 U est positif ou nul on a V(T)

V(T*).

De plus si E(V(TI U)) = 0 c'est que presque srement T=f(U), il y a relation fonctionnelle entre Tet U. Ce thorme fournit une mthode pour amliorer un estmateur sans biais donn.
THORME
lIlIII

S'il existe /Ille statistique exlwllstl'e U, alors l'estimateur T sans biais de 6 de l'lIrallce mhlimale (unique d'aprs le thorme 1) ne dpend que de U.
C'est un corollaire du thorme 2. On ne peut amliorer T par la mthode de Rao-Blackwell puisque T est de variance minimale. Donc V(T*) = V(T) et T = f( U). Cependant, comme il peut exister plusieurs estimateurs sans biais de e fonction de U, on n'est pas sr que j'estimateur T* obtenu par la mthode de Rao-81ackwell soit le meilleur, il faut alors introduire la notion de statistique complte.
DFINITION

si E[h(U)]

On dit qll'ulle statistique U est complte pour zme.tmille de lois de probabilitsf(x, 8) = O\l6=::;.1z = Ops.

On montre en particulier que la statistique exhaustive des familles exponentielles est complte. /1 Ainsi par exemple pour une loi de Poisson 0J() o est inconnu S = ~Xj' est complte.
i=1

En effet:

E[h(S).I =

s=o

2: Iz(s) exp( -J/)-I


s.
:.:: 2: lz(s) (IlY
.>""0

(Il )"

= exp( -n)

s!

300

13111!1l1L'estimation

La srie
lI(s) = 0
THORME

L - - : ' ne
.s=O

;: : Iz(s )I1 J

s!

peut tre nulle 'd. que si elle est nulle terme terme donc si

'ds

N.

4 : LEHMANN-SCHEFF

Si T* estllll estimatellr SllllS billis de e dpendant d'Lille statistique exhai/stive c01nplte U alors T* est l'unique estimateur sans biais de variallce minimale de e. EH particulier si 1'011 dispose dj de T estmateur sans biais de e, T* = E(T 1 U).
En effet l'estimateur de variance minimale est unique et dpend de U, d'autre part U tant complte il n'existe qu'un seul estimateur sans biais dpendant de U (soit TI = f(V) et T2 = g( V) E(T,) - E(T2 ) 0 'de=!>f 9 ps) l'estimateur obtenu est donc ncessuirement le meilleur. En conclusion si "on dispose d'un estimateur sans biais fonction dune statistique exhaustive complte, c'est le meilleur estimateur possible.

13.3.2

Exemple

Le nombre de demandes hebdomadaires d'un certain produit est une variable X qui suit une loi de Poisson f1>(.) o . est inconnu. On cherche valuer la probabilit que X soit nul. On note XI> Xl' ... , XII les observations de X pendant Il semaines. Le paramtre estimer est exp (- .) P(X = 0). Une premire mthode consiste . compter le nombre de fois et estimer P(X = 0) par la frquence K/lI. On a bien sr: exp( - .)(1 exp( - )
f(

o r on a observ X

------"exp~(._) = exp( -2.) ( Tl

_1)

K/Il est sans biais, convergent, mais ne tient pas compte du fat que X suit une loi de Poisson. 11 ne peut donc tre optimal, ce qui se vrifie en remarquant que K/11 n'est pas une fonction

de S

Il

Xi qui est une statistique exhaustive complte pour ..


X)

X est l'estimateur de variance minimale de ., mais exp( L'estimateur sans biais de variance minimale T de exp K/ll par l'application du thorme de Rao-Blackwell : Introduisons les variables de Bernoulli: YJ , Y2' ... , Y siX j 0 si Xi> 1
ll :

est biais pour exp ( - .).

.) peut tre obtenu en amliorant

d'o P(Yi = L) = exp(-) d'o P(Yj 0) = 1 - exp( - )

13- L'estimation

301

On a: Or:

T= E[Y1/S
=

E[~I sJ = ~ E[K/S] n
Il

EIT,/S]
s)

sJ = P(Y I

= l/S = s)

= P(X 1 = OIS =

D'aprs la formule de Bayes:

P(X I

= OIS

s) = -------~P(S s)

P(S

= s/X 1 = O)P(X, = 0)

S suit une loi de Poisson 2P(ll). La loi de S, sachant que XI


fJIll -

0, est une loi de Poisson

1)) car alors S/(X l

= 0)

X'}.

+ X3 + ... + Xw

[exp( -(n - 1))l


D'o:

n s!

1))S

' exp( - )

P(X,

OIS = s)

[exp( -n)] - sI

(IlY

_(Il

-Il

l).\' -_ ( 1
~)
l\nX

~)Il.r
11

Donc:

Un calcul laiss au ;oin du lecteur montre que VtT) = exp( -2) (ex p(;) donc bien V(n

1) ; on a

< V (-;;)

car :

V(T)

= exp( -2) [~
Il

v(li) = "
13.3.3

exp( -2)

[~
n

); +-+ ... +-+ ... ]

2n

k!n

Ingalit de Frchet.. Darmos-Cramer-Rao (FDCR)

Le rsultat suivant nous indique que la variance d'un estimateur ne peut tre infrieure une certane borne, qui dpend de la quantit d'information de Fisher apporte par l'chantillon sur le paramtre e.

Si le domaine de dfinition de X ne dpend pas de biais de e :


V(1') 2 : -

e, on a pour tout estimateur T sans

InCe)

302

1311i111111L'estimation

et si T est un estimateur sans biais de

/zee) :

_ Dmonstration : Considrons:
ln cov T - T ln L) ( , aao L) =E(a - ae

a ln L puisque - - est centre. Donc:


ae
cov ( T,

a ln ae

ae " Jt--Ldx =
-

a ln L

Jt aL dx
ao
h'(e)

de

dJ tLdx = -de E(T) d


VCT)

D'autre part l'ingalit de Schwarz donne:

a InL)]:! [ cov ( T, as ::5


c'est--dire:

v (a

InL) ae

c.q.f.d.

La question se pose de savoir si l'on peut atteindre la borne minimale de la variance; un tel estimateur sera qualiti d'efficace. L'efficacit n'est donc dfinie que dans les conditions de rgularit suivantes qui sont celles de FDCR:

a)

Le domaine de dfinition Eo est indpendant de -

e.

b)

aL

ae

eXIste et est contmue par rapport a

Cl

u.

c)
d)

1,/8) est finie.


-, T -

aL

aL

ae

ae sont intgrables par rapport e.

Dire que T est efficace c'est dire que sous ces conditions:

T est donc un estimateur sans biais de variance minimale de l1(e).

13_L'estimation

303

On a alors le rsultat suivant:


THORME SUR L'EFFICACIT

.. La borne de Cramer-Rao ne peut tre atteinte que si la loi de X est de j'orme exponel1tielle :

Inf(x,S) = a(x)a(8)
car Test 1lcessairemellt
exhaust~f pOlil'

+ b(x) + f3(O)
O .

Si la loi de X est bien de lafonlle pl'cdeme, il n'existe ( ulle transfo17l1ationlinaire prs) qu'ulle seule fonction lr(9) du paramtre qui puisse tre estime eiJcaceme11l : c'est MEl) = - - - , L'estmateur de I1(S) est alors:
W(B) al(S)

La l'arance minimale est:


1

\CT)

(W(S)
a/(O)
::=

-lla'(9) dO

/i'(f}) na'(f})

_ Dmonstration:
ct

T est exhaustif si T est efficace de I1(S).

Comme Eu ne dpend pas de El on a toujours:

Une consquence de FDCR est que:


V(T)~--

[I1'(S)]1 11'(0)

Si T est efficace on a :

donc: donc lie)


{T(EI). T est donc exhaustive.

D'aprs le thorme de Dannois on a alors:


Inf(x, 9) = a(x)a(O)

f3(9)

+ b(x)

304
1 /1 Si T est efficace pour /z(0) et si - ~ l1(X;) est exhaustif alors:
ll i =1

13_L'estimation

h(6)

W(8)
a'(8)

et

=-

2: a(X

1/

i)

lI i =[

L'ingalit de FDCR tant une ingalit de Schwarz, l'galit n'est ralise que s'il y a colinarit pour presque tout e, c'est--dire:

-- =
a8
Il

a ln L

{S)[T - h(8)1

Or. si L

IIexp(a(xi)a(8)
i=J

13(8)
Il

b(Xi)) on doit avoir:

ln L = a(8)

2: [/(Xi)
i=l

Il

+ "13(0) +

~b(Xi)
;=1

et:

JlnL --

ae

Il

a'(8)2:a(x;)
i= 1

1113'(8)

= lIa'(O)

[1
=

- 2:a(xJ
j=

Il

W + -,Il

(O)]
1

Il

a (0)

a ln L . En identifiant les deux expressions de - - on obtient:


as
T

=-

1 '1

2: a (X;)

et

/z(0)

_weB)
a/(e)

Il i= 1

h(O) et T sont donc uniques par construction une transformation affine prs.

La rciproque est alors immdiate: Si la loi est de la famille exponentielle, la statistique exhaustive T

=-

2: a(X;) est efficace


=

ri

13'(8)
pour - - - . a'(S) Calcul de la variance V(T) :

11

D e 1nC 8)

'VT ' = Ir a '(0 )- ( ) et

VT ) (

[h'(S)f = - - - on d'd' e Ult:

InC 8 )

h'(S) V(T) = -1 1 - , - 1 n a (8)


1 h'(O) On peut montrer que V(r) = - -,li a (8)

Le thorme qui vient d'tre dmontr montre qu'on ne peut estimer efficacement qu'une seule fonction h{ 8) qui peul ne pas tre intressante.

13_L'estimation

305

.. Exemple 1. Esti mation du paramtre 0 d'une loi -Vo :

Inl(.\, 8) = (0
Si l'on prend T =
J
Il

1)ln x - x - ln fCO) comme estimuteur, on voit que l'on estime effi-

i~1 ln Xi

Il

= ln

(II

D )1/11
Xi III

cacement 1i(0)

= dO ln Cf( e)).

cl

.. Exemple 2. Dans une loi N(m, cr), si

est connu cr 2 est le seul paramtre que l'on

peut estimer efficacement et ceci par T = 1

.
~~., .

Il

2: (Xi - mY!.. L'estimaleur


Il

il
2

st sans biais pour cr, de variance minimale car T est exhaustive, mais n'est pas efficace au

sens de 1a b orne cle FDCR .

s, .
1/11

est mconnu

1"

estlmaleur

~ '\12

r(y )
r(~)

est sans laIs et

b' .

de variance minimale pour 0'. En pratique on utilisent S* biais (voir 12.2.3).

~~

11 -

S qui est trs lgrement _

Remarque: Si X ne suit pas une loi N(m, cr) on ne peut donner d'expression universelle d'un estimateur sans biais de cr.
La recherche de statistiques exhaustives peut ne pas aboutir. on possde cependant une mthode d'obtention de bons estimateurs.

13.4

LA MTHODE DU MAXIMUM DE VRAISEMBLANCE (MV)


XII

Cette mthode consiste, tant donn un chantillon de valeurs XI' '\2, . . . , comme estimaton de f) la valeur de 0 qui rend maximale la vraisemblance:

prendre

En pratique on prend comme estimation de f) une solution de l'quation dite "quation de la vraisemblance".

ao

ln L(X; 0) = 0,

Intuitivement, puisque L reprsente une densit de probabilit, cela revient supposer que l'vnement qui s'est produit tait le plus probable ).

306

13_L'estimation

Les justifications mathmatiques sont les suivantes:


PROPRIT

S'il existe une statistique exhaustive U, alors l'estimateur du MV en dpend. () ln L , 0 revIent rsoudre

En effet L(x, 0) = g(u, O)It(x) et rsoudre

aB =

aln 9 aB =

0 donc

o = f(u),
Si est sans biais, ce qui n'est pas toujours ralis, sera la meilleure estimation possible de 0 si les conditions des thormes prcdents sont ralises.
PROPRIT

2.

INVARIANCE FONCTIONNELLE

Si

est l'estimateur du MV de 0, f()

est l'estmateur du MV de f(8),

Ldmonstralion est lmentaire si f est bijective, plus dlicate dans le cas gnral. S'il n'existe pas de statistique exhaustive U on a les proprits asymptotiques suivantes.
PROPRIT

3 (ADMise)

l
A

Il existe une suite de valeurs 6 racines de l'quation de la vraisemblance qui converge 11 presque srement vers 0 si ~ 00, De plus 3N tel que 11 > N entrane que n ralise effectivement un maximum pour L.
4 (ADMise)

PROPRIT

il" ~ e -'!." N(O,


~Il/(O)

1)

On peut donc affirmer, avec certaines rserves, qu'asymptotiquement V( 81/)


que 811 est asymptotIquement efficace.

1 - - , donc 111 (8)

Remarques: L'quation de la vraisemblance n'a pas ncessairement une racine unique. De plus cette mthode n'est valable utilement que pour de grands chantillons, cause de ses proprits asymptotiques, s'il n'existe pas de statistique exhaustive U.
liliiii

Exemple: Estimation du paramtre de la loi de \Veibull standard:


F(x) = exp( .lB)

fCx

~ e)

= Bxll-1exp( -x")

Le domaine de dfinition ne dpend pas de B, mais la loi n'est pas de la forme de Darmois, cause du terme en x H Appliquons la mthode du maximum de vraisemblance:
L(x;

e) = o"I1 x~l-lexp( - 2: X~l )


i=1 1

Il

Il

13_L'estimation

307

ln L(x ; 8)
ri ln L

11

ln
Il

e + (a /1

l)

L ln Xi - :Lxl'
i'=l i=l
/1

Il

Il

-- - - +
aS El

:Llnxi - :L xplnxi
i=l 1

est donc solution de l'quation: = ____ __ 11

2: (x~\ i=t

1/

1)ln Xi

Cette quation non linaire ne peut se rsoudre que numriquement par approximations suc_ cessives et on ne peut donc pas obtenir de forme explicite pour l'estimateur de e.

Extension plusieurs paramtres 9" 9 2J , 9 p :


La mthode consiste alors rsoudre le systme d'quations simulLanes :

aInL =
as)

j = 1,2, .... p

Les proprits de convergence et d'invariance fonctionnelle s'tendent sans difficult et on a galement la proprit de normalit asymptotique suivante ( l , 2, . a, quand Il tend vers l'intini, une distribution qui tend vers une loi gaussienne il p dimensions de vecteur esprance Sb S}, ... , el' et dont la matrice de variance est l'inverse de la matrice d'infomlation de Fisher.

,e,,)

Plus prcisment si le doma[~~elnd~ d]tnitiOn ne dpend pas des paramtres estimer:

'L-! a pour terme gnral - E - - .


aS i aa)

13.5

L'ESTIMATION PAR INTERVAllES (lES FOURCHETTES D'UNE ESTIMATION)

Il est souvent plus raliste et plus intressant de fournir un renseignement du type a < plutt que d'crire schement = c. Fournir un tel intervalle [a, estimation ensembliste.

e< b
a ou

bl

s'appelle donner une estimation par nterval1e de

13.5.1

Principe

La mthode des intervalles de confiance est la suivante: Soit Tun estimateur de B~ (on prendra videmment le meilleur estimateur possible), dont on connait la loi de probabilit pour chaque valeur de a. tant donn une valeur en de S, on dtermine un intervalle de probabilit de niveau 1 pour T, c'est--dire deux bornes t 1 et t2 telles que :
P(t 1
CL

<

<

t 21

e = eo) = 1 -

308

13_l'estimation

Ces bornes dpendent videmment de 00 , On choisit dans la plupart des cas un intervalle de probabilit risques symtriques /2 et Ci/2. On adopte alors la rgle de dcision suivante: soit t la valeur observe de T: si t E (1" f;.] on conserve 6(J comme valeur possible de 6 ; si f ~ ft" 12] on limine 80 , On rpte cette opration pour toutes les valeurs de

e.

On peut traduire graphiquement celte mthode dans un plan (6; (fig. 13.2).

n o l'on trace f,(8) tie)

e
FIGURE

13.2

On lit donc selon une verticale les intervalles de probabilit et, selon l'horizontale issue de f, l'intervalle de confiance [a, bl de niveau 1 - Ci (coefficient de confiance).

[a, b] est un intervalle alatoire car il dpend de t.

Si l'on augmente l - . on augmente la longueur de l'intervalle de probabilit, donc les courbes s'cartent. Si Il augmente, comme T est suppos convergent, V(T) diminue, donc [lb t;.] diminue et les courbes se rapprochent de la premire bissectrice.

13_L'estimation

309

13.5.2
13.5.2.1

Esprance d'une variable normale


(J'est connu

Xest le meilleur estimateur de 111 et Xsuit une loi LG (III. :tn ).


L'intervalle de probabilit de X l Ci

est:

d'o l'intervalle de confiance:

si 1 -

ct =

0.95 on a 110./1

1.96.

13.5.2.2

(J'est inconnu

On utilise le fat gue T libert.

--s- 'Ill

X -

1/1 _ r----;

l suit une loi de Student il (JI - 1) degrs de

L'intervalle de probabilit pour 1 est:

-t a/ 2 <
d'o l'intervalle de confiance:

x - m _r----; --s- 'In - 1 <

t{l/:!

X-

s
[(1./2-===

<

III

<.x + tnn._~
< .x +
t u/ :' _ r

Vil - 1

ou bien:

<

s*

111

'Ill

Le thorme central-limite a pour consquence que les intervalles prcdents sont valables pour estimer III d'une loi quelconque que 11 est assez grand.

13.5.3
13.5.3.1
T
Il

Variance d'une loi normale


m est connu
'1 ") nT 1 (Xi - 11/)- est le mel' 1 1 ' cur estimateur de <r et -:;- suit un X~ comme somme de (r

= -1 ~ L.J
Il i=1

carrs de LG(O, 1") indpendantes.

310

13_L'estimation

Soit /.:1 et k:. les bornes de l'intervalle de probabilit d'un X~ (fig. 13.3) :

P ( kt < nT < k:. ) = 1 -

Ci

L'interval1e de confiance est:

13.5.3.2

m est inconnu

'"1 1 On utli1se S - = -

JI i=

2: (Xi Il

X)- et on

..,

Sal t

nS!., . que - , SUl t Xn -" SOlt II et


(T-

/2

les bornes de

l'intervalle de probabilit:

On a alors:

_ Exemple:

Il

= 30; !p- = 12; 1 - a = 0.90; 8.46

<

(T2

< 20.33 d'o 2.9l <

(T

< 4.51._

Note importante: Ces formules ne sont valables que si x suit une loi nonnale.

13.5.4

Intervalle de confiance pour une proportion p

tant donn une population infinie (ou finie si le tirage s'effectue avec remise) o une proportion p des individus possde un certain caractre, il s'agit de trouver un intervalle de confiance pour p partir de J, proportion trouve dans un chantillon de taille 11. On sait que I~f suit une loi binomiale @ (n, p) ; si loi binomiale ou l'abaque (voir Table A3. bis).
Il

est faible on utilisera les tables de la

13_L'estimation

311

Si Il est grand on sait que nF - N(np ; ~llp(1 - p)) donc que:

L'intervalle de probabilit symtrique est:


p

Uu/"l

(l-P) ~ < F< P+


Il

t1(l/2

~(l-P)
Il

Posons

llu/"l

= k pour simplifier les notatons.

Les bornes de l'intervalle de probabilit sont donnes par :

y=p/i. ~p(l - pl
Il
"J k~p(1 - p) (y - p)- = - - - - : . -

soit:

JZ

ou:

y-

"1

+ p-

,(

1+

k -

k'2p 2py - - = 0
n

J1

quation d'une ellipse passant par l'origine et le point O. 1), points pour lesquels elle a une langenle verticale (fig. 13.4).
y

FIGURE

13.4

Les parties de l'ellipse extrieure au carr unit sont sans sign fication ; elles correspondent aux zones o 1'approximation normale n'est pas valable. tant donn une valeur f observe, l'intervalle de confiance s'obtient en rsolvant en
p l'quation :

k' .e + p'2( 1 + -;;1) -

2pf

-p=O
Tl

k:'

312

13_L.'estimation

ou :

p2 1 + -;; - p -;;

k2)

(k2 + ~r) + .f- = 0

Rsolvons-la compltement:

(2/+ -k2)
d'o:
p
11

formule encombrante mais dont on peut trouver une approximation en considrant que 11 est grand et en faisant un dveloppement limit au premier ordre en 0/11) ; le premier terme

k:! 2f+
_ _ __ Il _ /

+ 0 (~), le second se rduit en simplifiant par 11"!.


Ir

I(~

+ 4fnk'2 - 4(-nk2
4(11

+ e-)2

ce radical est quivalent au suivant (en crivant que chaque terme est quivalent celui du plus haut degr en 11) :

_ _ _ = I(,/f(l
-~

- f)
Il

donc, on a si n est grand, l'expression approche suivante pour l'intervalle de confiance :

_ Exemple:

Il

= 400

;f= 36 % ; 1 -

= 0.95. On a 0.31 < p < OA1.

Application: Dtermination de la taille d'un chantillon en fonction de la prcision souhaite.


Supposons que t'on dsre connatre p avec une incertitude ilp pour un niveau de confiance donn 1 - Ci risques symtriques. La formule prcdente nous indique que:

ilp soit:

"l.t/2

-V{O - J)
Il

Il

(lt a i"!.)2 f(1

- f)

(ilp)2

1311!1i1111L'estimation

313

Sifest inconnu on obtient une majoration de pour un sondage). D'o la relation:

11

en posantf

1/2 (eus le plus dfavorable

Dans le cas

d~un

intervalle 95 %,

lI{Y12

= 1.96 # 2, ce qui donne la formule approche:

11 lI1ax

1 {ilpf

on a les valeurs approches suivantes de

11 :

~
!J.p
0.01 0.02 0.05

0.90 6760

0.95 9600 2400 380

0.98 13530 3380 540

1 700
270

Remarque: Les formules prcdentes sont souvent abusivement utilises (en particulier dans les mdias) pour expliquer les marges d'erreur des sondages d'opinion. On ne peut en ralit pas les appliquer aux sondages d'opinion, sauf la rigueur pour donner une borne suprieure de l'erreur d'chantillonnage: en effet, les sondages d'opinion ne sont pas effectus selon la mthode du tirage alaLoire simple quiprobable dans la totalit de la population, mais selon des techniques bien plus complexes (stratification, quotas etc. cl chapitre 20) qui conduisent diminuer la marge d'erreur du sondage simple en utilisant des informations auxiliaires. Signalons enfin que ces calculs de variance ne servent qu' calculer l'erreur de au tirage alatoire des observations; l'chantillonnage n'est qu'une des sources d'erreur, pas toujours la plus importante, laquelle s'ajoute bien d'autres types d'erreurs : non-rponse ou refus. dissimulation, incomprhension des questions etc.

13.5.5

Intervalle de confiance pour le paramtre d'une loi de Poisson

Soil x la moyenne d'un l1-chantillon d'une variable ::P(h). Comme on sait que P(X ::.s k) = P(X~a.+ 1) pour h risques symtriques de niveau 1 -

> 2h), on en dduit l'intervalle de confiance


:

o Xz.; u est le quantile d ~ ordre

d'un X:! c degrs de libert.

314

13_L'estimation

Il

IIIIIIExemple:11

l5;nx= ~x
i=\

20; = O.L

- - :5 x.:5--

26.5 3D

58.1 30

soit 0.88 :5 X. :5 1.94

Pour les grandes valeurs de 11, lorsque 2nx dpasse les possibilits des tables de X2, on utilisera une des approximations normales de la loi du X2. Si l'on utilise l'approximation de Wilson et Hilferty, qui est de loin la plus prcise, on a :

__ 1

9nx

)3

S(x + ~)( 3-1llx + 1 + 1 li


11

9(nx

))3

13.5.6

Ellip~ode de conf.i~nc:e pOiJr la moyenne d'une loi de Gauss multidimensionnelle

On a vu au chapitre 12 paragr. 12.3 que le centre de gravit d'un Il-chantillon suivant une loi N/,(fJ. ; ~) tait tel que si ~ est connu:

ou si ~ est inconnu :
(II - p) (g _ fJ.)'V-1 (g

fJ.)

= F(p ; II

p)

On peut donc en dduire des zones de confiance ellipsodales de ..... uutour de g dtines par :
1 (g

- I1YV- (g - Il)

:0;

~ F1-a(p ; Il -

p)

Pour p = 2 on a des zones eUiptiques duns le plan. Lorsque Il est trs grand; toujours pour 2, l'ellipse 95 % a pour quation approximative:

Les rsultats prcdents s'appliquent en particulier pour les estimateurs du maximum de vraisemblance car ils sont asymptoliquement normaux. La tigure suivante donne l'ellipse de confiance 95 % pour la position simultane des moyennes de deux variables dans un chanti110n de 24 observations (prix et superficie d'apparlements parisiens*). La forme elliptique est ici trs accentue car le coefficient de corrlation entre les deux variables est lev r = 0.9733
Les donnes sont prsentes au chapit 16, 16.4,1.

13.L'estimation

315

800 ~--------~----------~--------~--------~~~~----~

600

------------. ---f---------------. ----------. ----- ----------------r.---------------1


1

)(

400

-- . . ------ -:-:--------; ------------------------------ ---r---- --- ------1 1 1

~_

-~---t

200

...: ... . ------- ----. . . ---.. . . ------ . -------.. ,. . - ---.. . . --r--------.


1

: :
-----------~:
1

------_-------.

'.
20

: :
1
1

: :
1 1
1

o ~--------~.----------~------------------~'--------~
60

100

140

180

220

Superficie
FIGURE

13.5

Ellipse de confiance 95 90

13.6 13.6.1

INTERVAllES DE PRDICTION ET DE TOLRANCE


Prvision d'une valeur d'une loi normale

Lorsque m et er sont connus, J'intervalle de probabilit 0.95 il risques symtriques pour une valeur isole est 111 1.96er. Supposons maintenant que III soit inconnu et estim par la moyenne d'un n-chantil1~n x. Soit X une nouvelle observation, indpendante des 11 prcdentes. L'cart entre X et X suit alors une IO nonnale :

N( 0; rr~ 1 + ~) car V(X - Xl

er2

..J... -

. .
Il

On en dduit l'intervalle de prvision pour une valeur future

1.96cr'" 1 -~

W;, +

S~S*~ @ f+,l
X-X X-X
Il

Lorsque cr est aussi inconnu, en appliquant la mthode de Student, on trouve aisment que
= T,I-I d'ou 1'IIltervalle

'-'

ts

--. 11-1

11+1

n-l

L'intervalle prcdent est une estmation de l'intervalle TH 1.96cr. On voit aisment qu'il est plus large et converge vers lui lorsque 11 augmente indfiniment. On l'appelle intervalle de tolrance sans niveau de contiance, car il existe aussi des intervalles de tolrance avec niveau de confiance 1 - Ct, tels que l'intervalle 111 1.96rr soit contenu avec une probabilit 1 - Cl dans l'intervalle de tolrance. Les intervalles de tolrance avec

316

1311111111 L'estimatiol'l

niveau de confiance sont plus larges que les intervalles de tolrance sans niveau de confiance. Les formules sont plus complexes et nous renvoyons le lecteur intress l'ouvrage de Hahn & Meeker (1991).

13.6.2

Ellipsode de tolrance pour une distribution normale Npl. ; 2;)

De manire similaire, l'ellipsode d'quation (x - J.L)' ~-I (x J.L) k, o k est le frac tile de niveau 1 Ci d'un X7" est un domaine de probabilit 1 Ci pour x.

Si J.L est estim par g, centre de gravit d'un nuage de

Il

ralisations indpendantes de X.

alors x

g suit une loi

NI'( 0; l:( [ + ~) ). Si l'on estime de plus l: pur la la matrice de variance


g)'y-I (x -

du nuage Y, en appliquant les formules du chapitre prcdent, on trouve que:

g)=

( Il Il

I)J)

- - F(n~, Il
Il

Il

+1

.- ,0)

ce qui donne l'quation de l'ellipsode de tolrance en remplaant la variable de Fisher par son tractile. En reprenant les donnes des 24 appartements parisiens, on trouve l'ellipse de tolrance suivante avec p 2. On distingue clairement l'existence de deux points atypiques.

950~--~----------------------------------------------~

750

..

550

350

..
150

.. .

: :G1

. ".
o
20 40 60

80 100 Superiicie

120

140

160

180

200

FIGURE

13.6

Ellipse de tolrance il 95 %

Les ellipses de tolrance sont trs utHes en analyse discriminante.

13l1i1111L'estmation

317

13.7

ESTIMATION BAYSIENNE

Le point de vue baysien ne fat pas de distinction de nature entre paramtres et observations : ce sont des variables alatoires. Le problme de )' estimation est alors rsolu (en thorie du moins) de faon simple et lgante: il suffit de calculer la distribution CI posteriori des paramtres sachant les observations.

13.7.1

Prsentation

Soit un n-chantlIon d varables indpendantes et identiquement distribues telles que leurs densits conditionneIJes xJe soientf(xi : 8). Si ron note comme d'habitude L(x ; 0)

= il f(x
i= 1

Il

j ;

8), la vraisemblance (ici conditionnelle),

la loi conjointe des observations et du paramtre (Xl' X::., ... , XII' 8) est L(x ; O)g(O) o g(8) est la densit a priori de O. La 1 01
Cl

"d . postenort u parametre est g( 01x) =

L(x;8)g(S)

f(x)

. El e est donc proportIOnnelle

au produit de la vraisemblance par la densit a priori. On peut donc en dduire des rgions probables pour e, analogues baysiens des rgons de confiance classiques, mais aussi des estimations ponctuelles : il suftt de calculer un paramtre de tendance centrale de la loi CI posteriori, le plus souvent l'esprance, mais aussi le mode ou la mdiane.

13.7.2

Estimation baysienne de la moyenne p.. d'une loi normale de variance connue

On suppose ici que la loi de XI fL est une N(fL ; cr) et que la loi a priori de fL est une N(fLo ; ,.). Un calcul simple montre que la loi Cl pOSTeriori de I-L/X)! X=,-, ... , XII est une loi nonnale

d, "esprance E(fL1x) =

cr='-J.Lo
11

+ 'j2X

et de vanance V(I-L 1 x)

Il

- +,.='Il

L'esprance a posteriori de I-L est donc une moyenne pondre de l'esprance a priori et de la moyenne empirique des observations. Si l'on introduit le concept de prcision qui est l'inverse de la variance, la prcision rique est Tb =
ri
(l

pl~iori est 111 = ~, la prcision de la moyenne empi'j-

On VOlt alors que E(fL x) =

111/-Ln 111

+ 1l,X et --1- = 1 ll:!

V(I-L x)

111

+ 112' La preCISion de l'estlma-

, . .

teur baysien est donc la somme de la prcision de l'estimation Cl priori et de celle de la moyenne empirique, r estimateur baysien est alors la moyenne des deux estimations (a pror; et empirique) pondres par les prcisions. Si 1'informaLion il priori sur le

318

13_L'escimation

paramtre est trs prcise, les observations ne la modifient gure. Si la prcis~n ri tend vers zro, ou si 11 tend vers l'intini, on retrouve l'estimateur classique X.

Cl

prio.

13.7.3

Estimation baysienne d'une proportion p

Illustrons ce cas par un exemple issu du contrle de qualit: on est amen fI estimer la probabilit p qu'une marchandise soit dfectueuse partir de l'observation du nombre de marchandises dfectueuses X dans un lot de Il marchandises. Pour une va]eur donne de p, X suit une loi binomiale @(n ; p). L'ensemble des valeurs possibles de p peut tre probabilis si des expriences antrieures ont permis d'tudier les variations de p. Tout se passe donc comme si p tait une ralisation d'une variable TI valeurs dans [0 ; 1] que l'on supposera de densit g(p) (loi Cl priori). On a donc le modle suivant: la loi conditionnelle de X/TI = p est une g}J(n ; p) et la loi marginale de 7r de densit g(p). On cherche en gnral dduire p de la valeur de X. Il faut donc pour cela trouver la loi de probabilit a posteriori de '1T.ou loi de TI/X x. La formule de Bayes donne:

l(p /

x _ . _ P(X = x/7i
.1 -

J:) -

p)g(p) P(X = x)

soit :

f(p/X = x)

(1 P'~(1 Jo

p)"-.f g(p)dp

on pourra alors estimer p en choisissant la valeur la plus probable a posteriori ou la valeur moyenne a posteriori.

Si

'TT

suit une IO bta de paramtre a et b on a :


g(p)

r(a+b)

11-1

r(a)r(b) p

( - p)/J-l

d'o:

donc la lO de TI/X = x est une loi bta de paramtres a

+ x et Il + b - x.

L'esprance

Cl

posteriori vaut alors

a+x b . a+ +11
(l

Tout se passe donc comme si l'on avait effectu men li dfectueux.

+ b expriences suplmentaires ayant

Le choix des paramtres a et b de la loi bta se fat en gnral partir de considrations sur la valeur la plus probable a priori et son incertitude. Si l'on choisit II = b 1 ce qui correspond une distribution uniforme de TI sur [0 ; l] (toutes les valeurs de p sont li priori quiprobables) on trouve comme estimation de p

13_L'estimation

319

, soit x + 1 (esperance

11+

Cl

. . . posterwrl') SOtt x / Il ( de ou valeur de p correspon d ant au maXlmo

mum de g(p/x)). Remarquons que la loi marginale de X peut s'obtenir aisment:

- C,\
/1

f(x + l)f(n - x fCn + 2)

1)

Il! .t!Cn - x)! - ---- xl(n x)1 (Il + l)!

P(X = x)
Il

+1

La loi de X est alors la loi discrte unifom1e sur [0 ; l ; .. , ; Ill.

13.7.4

Gnralisation

Les deux cas prcdents se rsolvaient simplement car les lois Cl priori et conditionnelles permettaient de trouver la loi Cl posferori dans la mme famille que la loi a priori: les lois a priori et conditionnelles sont dtes ( conjugues )1, Cette facilit mathmatique disparat si l'on travallle avec des lois quelconques et les calculs des distributions a poslen'ori deviennent impossibles mener analytiquement. Il faul alors recourir des techniques spcifiques de simulation pour obtenir de bonnes approximations des lois il posteriori (C. Robert, 2001). On peut considrer la statistique baysienne comme un raffinement de la statistique paramtrique et lui appliquer les mmes critiques sur le caractre plus ou moins raliste des modles. De plus le choix de la distribution Cl priori peut donner lieu des divergences entre spcialistes et reste fatalement subjectif (voir la discussion sur la nature des probabilits au chapitre 1). Il n'en reste pas moins que cette approche est la seule qui permette d'incorporer de l'information pralable et se rvle trs utile dans des cas limites comme des essais de fiabilit o on ne constate que trs peu de dfaillances (voire mme aucune) sur 11 essais: les estimations classiques du taux de dfaillance sont alors impossibles ou trs imprcises,

13.8

NOTIONS SUR l'ESTIMATION ROBUSTE

La thorie classique de l'estimation permet de dterminer les estimateurs optimaux pour une famille de lois de probabilit dfine l'avance. Ces estimateurs dpendent en gnral fortement de la loi hypothtique: s celle-ci n'est pas correcte, les estimateurs ne le seront pas. On peut donc chercher des classes d'estimateurs relativement insensibles des modifications des lois'a priori: c'est un premier type de robustesse, Un deuxime type de robustesse concerne l'insensibilit des valeurs aberrantes }) : la moyenne arithmtique est sans doute le meilleur estimateur de l'esprance pour une vaste classe de lois mais elle est trs sensible aux grandes valeurs. L'attention des thoriciens et des praticiens a donc t attire sur la recherche d'estimateurs robustes en particulier pour la valeur centraIe d'une distribution.

320

On se proccupera ici d'estimer la valeur centrale l1l d'une distribution symtrique. 1 Il La moyenne arithmtique x = est trs sensible aux valeurs extrmes: on {"\hl~,,>.,..1_.. "'' ,''

2:Xi

Hi='

un estimateur robuste de nI en liminant les valeurs extrmes. On appelle ainsi mCIVf'lnnl> tronque d'ordre Ct la moyenne arithmtique obtenue en liminant les Cln plus grandes et petites valeurs (une valeur gnralement recommande est Cl = 15 %). La mdiane est le cas extrme d'une moyenne tronque
(Cl

= 50 %) et est trs robuste.

Au lieu d'liminer les Clll plus grandes et plus petites valeurs, on peut les rendre toutes gales aux dernires valeurs prises en compte: c'est la "winsorization". Une autre approche est cene des M-estimateurs introduits par P. Huber : on cherche ici IL qui minimise une fonction du type:

i=l

p(~) S

o s est un estimateur robuste de la dispersion ce qui revient annuler

*=p'.

\I/(X
i=l

f.L) o

On retrouve la moyenne arithmtique avec p(x) = x2 , la mdiane avec p(x) = Ixl. Les estimateurs du maximum de vraisemblance sont des cas partculiers de NI-estimateurs avec: p(x) -lnf(x) et lIJ(x) =

j'ex)

Remarquons que le NI-estimateur f.L peut s'crire comme une moyenne pondre des observations :
Il

2:HJ;Xi

f.L=-'l--

i=l

2:w;
i= 1

Wi

dpend des donnes

ll'i

Pour la moyenne arithmtique Pour la mdiane tIJ(x)

x t!J(x)

= x.

1 si x> 0 et t!J(x) =

l si x

< O.

On obtiendra toute une famlle d'estimateur en utilisant diverses formes de \11 :


'I/(x) = x

(1 - X:)2 c-k {
x

pour

lx 1::5 C
k k

(Tukey)

si x <-k

lV(X) =

si Ixl <
si x >

(Huber)

+k

Ces estimateurs sont obtenus par un processus de calcul itratif.

13_ L'estimation

321

L' estmation robuste de dispersion s est prise gnralement gale la mdiane des carts absolus la mdiane.

1.5

-1.5

FoncHon de Huber
FIGURE

Fonction de Tukey

13.7

Dans l'exemple du chapitre 5, la variable (~ taux de taxe d'habitation a une moyenne arithmtique de 17.7707, mais prsentait quelques valeurs extrmes. Les estimations robustes sont: Moyenne tronque 5 % : Estimateur de Huber avec k = 1.339 : Estimateur de Tukey avec c = 4.685 : 17.6182 17.8149 17.6872

13.9

ESTIMATION DE DENSIT

La densit f(x) d'une variable continue donne une information visuelle importante sur la rpmttion des valeurs. Nous prsentons ci-dessous les lments de la thorie de l'estimation de la densit en l'absence de tout mod1e paramtrique: on parle d'estimation fonctionnelle ou non-paramtrique. On supposera que f(x) est une fonction continue. La plupart des dmonstrations seront omises au profit d'une prsentation pratique. Le lecteur intress se reportera aux ouvrages de M. Delecrox et B. Slvemlan cits en bibliographie.

13.9.1

Gnralits

Pour tout point x on cherche une fonction des observations (XI> Xl' ) iJx) possdant les proprits d'une estimation de la densit inconnue f(x). Il semble lgitime de souhaiter que:

.f~(x) soit une densit (positive, d'intgrale gale il 1)

.tlr:) soit convergent .ilr:) soit sans biais


Un rsultat d'apparence paradoxale est que la proprit d'tre sans biais est impossible satisfaire: il n'existe pas d'estimateur sans biais en tout point x de ]a densit.

322
Pour la convergence, on se proccupera non seulement de la convergence en tout point mais aussi de la convergence uniforme atin de borner l'erreur d'estimation maximale suplj~l(x) - f(x) 1.
x

L'erreur quadratique moyenne intgre (MISE en anglais) est souvent utilise pour mesurer l'cart quand Il est fini entre l'estimateur et la densit inconnue:

13.9.2

De l'histogramme la fentre mobile

Considrons des histogrammes classes d'gales amplitudes h. L'histogramme est l' estimateur de la densit le plus lmentaire. Pour qu'il soit convergent, il faut faire tendre la largeur de classe vers a quand 11 tend vers l'infini, mais il ne faut pas que Il tende vers zro trop vite pour que l'effectif par classe puisse quand mme tendre vers l'infini et assurer la convergence au point x. 11 faut que 1111 ~ 00 ce qui peut tre assur par Il = _ ~.
'1/1

Mais en pratique 11 est fini et l'histogramme souffre de dfauts vidents: il est discontinu, et constitue donc une approximation rustique d'une fonction continue. De plus par construction, tous les ponts d'un intervalle ont la mme densit estime, ce qui n'est pas raliste. Une premire amlioration due Rosenblatt est la mthode de la fentre mobile ); : on construit autour de chaque x une classe de longueur h centre sur x: I.x - 11/2 ~ x + h/2] et on fait ensuite varer x. L'estimation en x esl i,(x) tombant dans la classe. --:.. o Il, est le nombre d'observations I1h Tl r

Cet estimateur reste cependant discontinu, car n,t' varie de plus ou moins une unit chaque fois gue x correspond une des valeurs Xi de l'chantillon. L'exemple suivant montre le rsultat pour les donnes dj tudies au chapitre 5 :

0.12 0.1
~

0.08 0.06 0.04 0.02

eii
Cl
ID

c:

Taux de taxe d'habitation


FIGURE

13.8

13_L'estimation

323

13.9.3

La mthode du noyau (Parzen)

Remarquons que l'estimateur de la fentre mobile peut s'crire : ll(X) =

~ K(X - Xi)
nh
1

o le

noyau)} K est la fonction indicatrice de l'intervalle [-1/2 ; 1/2].


K(u) = 1 SI - - S LI S -

K(u)

0 sinon
Xi

ilt) est donc une moyenne arithmtique de fonctions donnant chaque observation poids l/h si elle appartient l'intervalle centr sur x.

un

C'est parce que K est discontinue que ir(x) l'est. Pour obtenir une estimation continue, on prendra une fonction noyau K(lI) continue ; on la choisira de plus paire par raison de symtrie, dcroissante quand li s'loigne de zro. ir(x) est alors une moyenne de fonctions donnant chaque observation Xi un poids d'autant plus petit que 1 Xi X 1 est grand. Si K est une densit alors h(x) le sera galement. Les noyaux les plus couramment utiliss sont: le noyau triangulaire K(u)

1-

lui

si

-lSusl
-(l-Ir)

le noyau parabolique d'Epanechnikov K(lI)

"1

si
S

lsu

15 . , "l ' . l 1 blwelg1t de Tu k K(a) = 16 (1 - Ir)e oey


le noyau sinusodal K(u) le noyau gaussien K(li)

si

1 S li
Il

=:

cos (

i Il)
--lr

si

-1 oS

oS

-1 exp -

ili

(1 ,)
2

Les noyaux support born ncessitent moins de calculs que le noyau gaussien. La constante de lissage h dtermine la rgularit de /'I(X), Comme pour la largeur des classes d'un histogramme un Il trop grand lisse trop et un lz trop petit conduit une estimation trs chaotique alors que le choix du noyau n'est pas crucia1. Ainsi pour les mmes donnes que prcdemment on trouve les estimations suivantes pour le noyau sinusodal avec trois largeurs de fentre 10 %, 20 % et 30 % de }' tendue de X) :
0.12 0.1
'(ij
(]J

0.1 0.08
~ [il 0.06

0.06 0.05 0.04 0.03 0.02 0.01 10


FIGURE

0.08 0.06 0,04 0.02 10 20 30 40

c:

c:

"in
c:
(]J

(]J

0.04 0.02 20 30 40

10

20

30

40

13.9

324

13111111L'estimation

Le choix de la valeur optimale de Il a fuit l'objel d'une abondante littrature. Outre le choix subjectif par inspection visuelle (les logiciels permettent souvent de faire varier lz en continu avec un curseur). mentionnons: la rgle gaussienne Iz = cr 1'4/ (31l)] 1/5 . D.9min 1.34] la rgle de Sllverman Il = -------'-::-------Il

la validation croise gnralise o on cherche en quelque sorte une estmation du maximum de vraisemblance mais en enlevant Xi pour l'estimation en Xi maxlli ;~I(X;).
" i=1
/1

4 11
14.1

Les tests statistiques

INTRODUCTION

14.1.1

les faiseurs de pluie

Des relevs effectus pendant de nombreuses annes ont permis d'tablir que le niveau naturel des pluies dans la Beauce en miHimtres par an suit Llne loi de Laplace-Gauss LG(600, 100). Des entrepreneurs, surnomms faiseurs de pluie, prtendaient pouvoir augmenter de 50 mm le niveau moyen de pluie, ceci par insmination des nuages au moyen d'iodure cl' argent. Leur procd fut mis l'essai entre 1951 et 1959 et on releva les hauteurs de pluies suivantes: Anne mm 1951 510 1952 614 1953 780

1954
512

ts955
501

1956 534

1957 603

1958 788

1959 650

Que pouvait-on en conclure? Deux hypothses s'affrontaient: ou bien l'insmination tait sans effet, ou bien elle augmentait rellement le niveau moyen de pluie de 50 mm. Ces hypothses pouvaient se fOImaliser comme suit, si de X variable alatoire gale au nveau annuel de pluie:
III

dsigne l'esprance mathmatique

Ho: m { Hl: 111

= 600 mm
650mm

Les agriculteurs hsisant opter pour le procd forcment onreux des faiseurs de pluie tenaient pour l'hypothse Ho et il fallait donc que l'exprience pUsse les convaincre ~ c'est--dire que les faits observs contredisent nettement la validit de l'hypothse Ho dite hypothse nulle (Hl s'appelle l'hypothse alternative). Les agriculteurs n'taient donc dcids abandonner Ho qu'en prsence de faits exprimentaux traduisant une ventualit improbable compte tenu de HoIls choisirent ( 0.05 comme niveau de probabilit, c'est--dire qu'ils taient prts accepter HI si le rsultat obtenu faisait partie d'une ventualit improbable qui n'avait que 5 chances sur 100 de se produire. Autrement dit, ils admettaient implicitement que

326

14_ Les tests statistiques

des vnements rares ne sauraent se produire sans remettre en cause le bien-fond de l'hypothse de dpart Hn ; ce faisant, ils assumaient le risque de se tromper dans 5 cas sur 100, cas o prcisment les vnements rares arrivent quand mme. _Comment dcider? Puisqu'il s'agit de tester la valeur m il est naturel de s'intresser X moyenne des observations qui nous apporte le plus de renseignements sur m. X est la variable de dcision . Si Ho est vraie, comme l'exprience a port sur Laplace-Gauss LG( 600, : ) . En principe, de grandes valeurs de X sont improbables et on prendra comme rgle de dci~ sion la suivante: Si X est trop grand, c'est--dire si X est suprieur un seuil k qui n'a que 5 chances sur 100 d'tre dpass, on optera pour HI avec une probabilit 0.05 de se tromper. Si X < k on conservera Ho faute de preuves suffisantes. Il est facile de calculer k grce aux tables et on trouve : 100 k = 600 + -3- 1.64
11

9 ans, X dOt suivre une loi de

655

(fig. 14.1)

600
FIGURE

14.1

La rgle de dcision est donc la suivante: si !S. > 655 mm, repousser Ho et accepter HI ; si X < 655 mm, conserver Ho. L'ensemble d'vnements {X> 655} s'appelle la rgion critique ou rgion de rejet de Ho. L'ensemble complmentaire {X < 655} s'appelle la rgion d'acceptation de Ho. Or, les donnes releves indiquent que = 610.2 mm. La conclusion tait donc de conserver Ho ; c'est--dire que l'insmination tait sans effet notable sur le niveau des pluies: les valeurs observes pouvaient donc tre dues au hasard en l'absence de toute influence de l'iodure d'argent. Cependant, rien ne dit que conserver Ho mette l'abri de se tromper: en effet, les faiseurs de pluie ont peut-tre raison, mais on ne s'en est pas aperu. Il y avait deux manires de se tromper: croire les faiseurs de pluie, alors qu'ils n'taient pour rien dans le rsultat obtenu (probabilit cr 0.05); ne pas croire les faiseurs de pluie, alors que leur mthode est bonne et que seul le hasard (malencontreux pour eux), d au faible nombre d'observations, a donn des rsultats insuffisants pour convaincre les agricul teurs.

14_Les tests statistiques

327

, . 100) Supposons que les fmseurs de plUie ont raison, alors - LG ( 650, 3 ' 0 n commet XE
une erreur chaque fois que X prend une valeur infrieure probabilit:

a 655 mm, c'est~-dire avec une


13 = 0.56

ce qui est considrable.

s'appelle le risque de premire espce; fJ s'appelle le risque de deuxime espce. On aura au cours de cet exemple Je rle particulier jou par Ho : si la forme de la rgion critique > k est indique par la nature de HI (650 plus grand que 600) la valeur de k ne dpend que de Ho. Les deux hypothses ne jouent pas des rles symtriques, k est dtermin par Ho et a. ;

13 est dtermin par la considration supplmentaire de HI'

14. 1.2

Les grandes catgories de tests

On peut classer les tests selon leur objet (ajustement, indpendance, de moyenne, de variance, etc.), ainsi qu'il est fait dans la suite du livre ou selon leurs proprits mathmatiques: on parIe ainsi de tests paramtriques ou non, de tests robustes, de tests libres. Un lest est dit paramtrique si son objet est de tester certaine hypothse relative un ou plusieurs paramtres d'une variable alatoire de loi spcifie ou non: le paragraphe 14.2 en donne des exemples. Dans la plupart des cas, ces tests sont bnss sur la loi normale et supposent donc explicitement l'existence d'une variable alatoire de rfrence X suivant une loi LO. La question se pose alors de savoir si les rsultats restent encore valables lorsque X n'est pas normale: si les rsultats sont valables on dit que le test en question est robuste. La robustesse d'un test par rapport un certain modle est donc la qunlit de rester relativement insensible certaines modifications du modle : on constatera que les tests de moyenne ou de non corrlation sont robustes. Une catgorie particulirement intressante de tests robusles est la classe des tests libres (en anglais distribution free) : il s'agit de Lests valables quelle que soit la loi de la variable ala~ toire tudie, donc valables en particulier lorsque l'on ignore tout de cette loi (cas trs frquent en pratique) ; on peut dire qu'il s'agit de tests robustes par rapport la loi de probabilit. Exemple: les tests d'ajustement du X2 Ces tests sont bien souvent des tests non paramtriques mais pas ncessairement (tests de moyenne). Pour les tests paramtriques on distingue gnralement hypothses simples et hypothses composites:

une hypothse simple est du type H : 9 = eC) o eo esL une valeur isole du paramtre ; une hypothse composite est du type H : 9 E A o A est une partie de ~ non rduite un lment.
La plupart ds hypothses composites se ramnent aux cas: 9

> 90 ou 9 < 90 ou 9 =f:: eo-

En fait, on construira les rgions critiques en utilisant la valeur eo seule. Lorsque l'hypothse alternative est composite, la puissance du test est variable et on parle de fonction puissance 1 13(9).

328

141111B1Les tests statistiques

14.2

THORIE CLASSIQUE DES TESTS

Un test est un mcanisme qui permet de trancher entre deux hypothses au vu des rsultats d'un chantillon. Soient Ho et HI ces deux hypothses, dont une et une seule est vraie. La dcision aboutira choisir Ho ou Hf. Il y a donc 4 cas possibles schmatiss dans le tableau 14.1 avec les probabilits correspondantes:

TABLEAU

14.1

Dcision

~
Ho
Hl

Ho
1 -a.
a.

Hl

~
l-~

14.2.1
a. et
~

Risques et probabilits d'erreur


sont les probabilits d'erreur de premire et deuxime espce:

a. probabilit de choisir Hl alors que Ho est vraie: ~ probabilit de conserver Ho alors que Hl est vraie.
Ces erreurs correspondent des risques diffrents en pratique; ainsi dans l'exemple des faiseurs de pluie le risque de premire espce consiste acheter un procd d'insmination inefficace; le risque de deuxime espce laisser perdre une occasion d'augmenter le niveau de pluie et peut-tre de rcoltes plus abondantes. Dans la pratique des tests slatistiques, il est de rgle de se fixer a. comme donn (les valeurs courantes sont par exemple 0.05, 0.01 ou 0.1) de prfrence en fonction du risque de premire espce couru, ce qui fait jouer Ho un rle prminent. Le choix de Ho est dict par des motifs assez variables: pUsqu'on ne veut pas abandonner trop souvent Ho, Ho doit tre une hypothse solidement tablie et qui n'a pas t contredite jusqu' prsent par l'exprience; Ho est une hypothse laquelle on tient particulirement pour des raisons qui peuvent tre subjectives; Ho correspond une hypothse de prudence; exemple: test de l'innocuit d'un vaccin; il est prudent de partir d'une hypothse dfavorable au nouveau produit; Hu est la seule hypothse facile fOlmuJer ; exemple: tesler m = m() contre 111 1110; il est vident que seule Ho : 111 = m() permettra d'effectuer des calculs.

'*

a. tant fix, ~ sera dtermin comme rsultat d'un calcul (ceci n'est possible que si l'on connat les lois de probabilits sous Hl)'
Cependant iJ faut savoir que ~ varie en sens contraire de a.. Si l'on veut diminuer a. risque d'erreur de premire espce, on augmente 1 a. probabilit d'accepter Ho. si Ho est vraie ~ mais surtout on est conduit une rgle de dcision plus stricte qui aboutit n'abandonner Ho que dans des cas rarissimes donc conserver Ho bien souvent tort.

14_Les tests statistiques

329

A force de ne pas vouloir abandonner Ho on finiL par la garder presque tout le temps, donc on augmente [3.

[3 est la probabilit d'opter pour HI en ayant raison. 1


test JJ.

J3 s'appelle (( puissance du

a tant fix, il importe de choisir une variable de dcision: variable qui doit apporter le maximum d'informations sur le problme pos et dont la loi sera diffrente selon que Ho ou Hl est vraie (sinon elle ne servirait rien). Il faut que sa loi soit entirement connue au moins si Ho est vraie.

La rgion critique West l'ensemble des valeurs de la variable de dcision qui conduisent carter Ho au profit de H" La forme de la critique est dtermine
par la nature de HI, sa dtermination exacte se fait en crivant que:
p(WIHo)

La rgion d'acceptation est son complmemaire W et l'on a donc: et La construction d'un test n'est rien d'autre que la dtermination de la rgion critique, cette dtermination se faisant sans connatre le rsultat de l'exprience, donc a priori. La dmarche d'un test est la suivante (pour rsumer) : 1) 2) 3) 4) 5) 6) 7) Choix de Ho el HI_ Dtermination de la variable de dcision. Allure de la rgion critique en fonction de HI' Calcul de la rgion critique en fonction de ct. Calcul ventuel de la puissance 1 - [3. Calcul de la valeur exprimentale de la variable de dcision. Conclusion: rejet ou acceptation de Ho-

14.2.2

Choix de la variable de dcision et de la rgion critique optimales: la mthode de Neyman et Pearson

La faon de choisir la variable de dcision n'a pas encore t lucide dans les paragraphes prcdents o nous nous sommes contents de formaliser l'intuition. Le choix de la meilleure variable de dcision il t rsolu thoriquement par les statisticiens J.Neyman et E.S.Pemson dans une srie d'articles clbres pams de 1933 1938. Mais que veut dire meilleure variable rgion critique optimale?
,

ou plutl ainsi que nous l'utiliserons dsormais,

NOLIS cherchons la rgion critique optimale c'est-~l-dire un domaine de [R'I parmi l'ensemble de toutes les ralisations possibles de l'chantillon (X" Xl' ... , XII) dont la forme dfinira ensuite une variable statistique.

Il s'agit de maximiser la puissance 1 - J3 ceci pour une valeur donne de de premire espce.

fi'

risque

Nous allons tout d'abord envisager le test entre deux hypothses paramtriques simples puis nous gnraliserons d'autres types d'hypothses.

330

14_ Les tests statistiques

Soit X une variable alatoire de densitf(x, 8) o 8 est un paramtre rel inconnu; L(x, 8) dsignera en abrg la densit de l'chantillon.

Il s'agit de tester:

Ho: 8 { HI: 8

= 80 = 81

Supposons a connu. Soit HI une rgion de ~" telle que:

1.
Il s'agit de maximiser: Nous pouvons crire :

L(x, O())dx

= P(WIHo} =
p(WI Hl)

Il'

l - [3

1
Il'

L(x, 8 1)dx

THORME DE NEYMAN ET PEARSON

l
lIIIlI

La rgion critique optimale est d4finie par l'e11semble des points de ~Il tels que:

Dmonstration

.. S'il existe une constante k e" telle que l'ensemble HI des points de ~,r o :
1 ---=- > (I

L(x ; 8 ) L(x ; Sn)

soit de probabilit a sous Ho : P( WIHo) de 1 - [3.

= a,

alors cette rgion HI ralise le maximum

En effet soit HI' une autre rgion de ~Il telle que p(HI'IHo}

= a; W'

diffre alors de Wpar

. ,L(x;8 1) <k. a (fi19. 14')) L" Integrale : ~ cl es pomts ou .~.


L(x; 80 )

1
IV

L(x; 8 1) L(x ; 8 )dx o L(x ; 00)

FIGURE

14.2

14_Les tests statistiques

331

diffre de l'intgrale: pour les parties non communes W et W' . Wet W' ayant sous Ho mme mesure a, l'ensemble (W - '\V') des points de W n'appartenant pas W' a mme mesure sous Ho que l'ensemble (W I - W) des points de lV' n'appartenant pas W. L'intgrale:

est alors strictement suprieure :

f f

W-W'

L(x ~ 8,) ---'-L(x: 0o)dx L(x ~ 00)

L(x; 8 ,) --..;..-L(x; So)dx W'-IV L(x ~ 80 )

comme intgrale, prise par rapport la mesure L(x ; 8o)dx sur un ensemble de mme mesure, d'une fonction strictement suprieure; le thorme de la moyenne indique en effet:

JIV'-w L(x ; S()

L(x;

L(x ; 8 )dx = L(;: ; 8 1) P(W' - W IHo) o L(~ ; 80)

avec

fE W'

- W

JII'-W' L(x ; 8

L(x ; 8 1) L(x ; 8 )dx = o


0)

L(~ ; 8n)

L(~ : 8,) P(W

avec ~E W - W'

ce qui dmontre le point a) car:

Montrons que cetle constante ka existe.


SoitA(K) la rgion de ~II o L(x, 8 1) > KL(x, 00) et considrons P(A(K) 1Ho) qui est une fonction continue monotone de K, si X est densit continue. Comme L(x, 8,) est toujours positif, car c'est une densit, on a p(A(O)IHo) = 1. D'autre part si K ~ cc, avec une densit borne on a P(A(K) 1Hn) ~ O. II existe donc une valeur intermdiaire ktt telle que P(A(k[l = . _

14.2.3

tude de 1 -

Il : puissance du
.

test

Nous allons montrer que 1 - 13 >

Un tel test est dit sans biais:

P(WIH,)

> p(WIHo}

puisque: d'o:

L(x, 8 ,} > k(l L(x, 80 )

f.
:

L(x, 8\)dx > k ..

IV

f.

L(x,Oo)dx

li'

Si ka est> 1 la proposition est triviale ; si kt! est < i nous allons montrer, ce qui est
quivalent, que 13 < 1 et

332
L(x, fll) West tel que - - L(x, 00)

14_Les tests statistiques

< ka' donc:

ce qui dmontre la proposition.

Convergence du test: On peut dmontrer que si

Il ~ cr.;"

13 ~

1.

Remarque: Comme P(A(K)) est une fonction monotone de K, on voit que si a. diminue, ku augmente; donc diminuer le risque de premire espce Ci fait augmenter le risque de
deuxime espce

131 - f3 = p(L(X, 1) >


L(x, 90 )

ka

HI) est une fonction dcroissante de k.

14.2.4

Tests et statistiques exhaustives

La considration d'une statistique exhaustive simplifie considrablement la pratique du test car alors la rgion critique en dpend exclusivement.

S'il existe une statistique exhaustive T pour 0, de densit 9U,


L(x, 9) = 9(1, fl)lt(x)

(i), on a :

Le test de Neyman et Pearson se rduit alors :

14.2.5

Exemple
contre

Test de la moyenne d'une loi de Laplace-Gauss, d'cart-type cr connu:

Ho : LG(m 0' (f)


La statistique exhaustive pour /Il est x el :
g(x,11I) =

HI : LG(m" cr)

(f'"

.'V-;;
Le rapport des denSits
. g("i,1I1
g(x, mo)

1 exp(1 (xcr- Ill):!) (2; -2 /..[;;

donne:
Il

g(x,m

g("i,11lo)

exp ( --,-., [(x :2 cr11l0)-

" g("i, ml) ,.". Ecnre que _ > kil est eqmvalent a ecnre que (x g(x, 1110)

. .,

(x -

111 1

f >

k~ soit:

14- Les tests statistiques

333
k~~. k~'.

Si ml> mo il est quivalent d'crire.x > Si


ml

<

n10

il est quivalent d'crire .x <

Ce rsultat vident l'intuition ~e si 1111 > m, on rejettera Ho si X est trop grand. On trouve la constante k en crivant P(X > k 1 Ho) = . En reprsentant sur un mme graphique les densits de X dans Ho et dans HI on a la figure 14.3.

FIGURE

14.3

14.2.6
14.2.6.1
&III

Tests entre hypothses composites


Test d'une hypothse simple contre une hypothse composite
T -) e

Exemples:

{e

III

La fonction puissance
L'hypothse HI tant compose d'un ensemble de valeurs de e, pour chaque valeur particulire de e on peut calculer 1 (3(6), d'o une fonction, dite fonction puissance, dcrivant les variations de 1 - j3 selon les valeurs de e dans Hl' La figure 14.4 montre la fonction puissance du test Ho : correspondant l'exemple introductif.

= 600 contre HI

111

> 600

0.9 0.9
o

:t al 0.6
'p[ 0.5

0.7

DA

a. 0.3

0.2
0.1
Or---~=-~--.---~---r---r--~---.-

550

575

600

625

650

675

700

725

750

Moyenne
FIGURE

14.4

Fonclion puissance. Test unilatml Ho

= 600.

Note: la courbe donnant j3 en fonction du paramlre est appele courbe d'efficacit.

334

14 _ Les tests statistiques

ID

Tests UPP

Un test est dit unifoffilment le plus puissant (UPP) si, quelle que soit la valeur de 8 appartenant l'hypothse allernative, sa puissance 1 - f3(8) est suprieure la puissance de tout autre test.
II1II Exemple: Dans le test Ho : /Il = 1110 contre HI: 111 = 111 1 > 1110, on a pu remarquer que la rgion critique ne dpend pas explicitement de 1111 et donc que celte rgion critique est la mme pour n'importe quel 1111 > nlo. Le test prcdent est donc UPP pour Ho : 111 = 1110 contre H 1 : III > 1110'

n est vident cependant qu'il n'existe pas de test VPP pour Ho: 111 = 1110 contre H 1 : l1l 1= 1110 car, s'il en existait un il devrait tre VPP pour les deux sous-hypothses H; : 111 > 11lo et H;': 11/ < 11l(). Or les tests de Ho contre HI et Ho contre H'1' sont prcisment VPP et diffrents l'un de l'autre. _
14.2.6.2

Test entre deux hypothses composites

Si Ho est elle-mme composite, a dpend de exiger aCe) :5 a donn.

e selon les valeurs de e E


ou 8 2: 82
:5

Ho, et l'on devra

L'existence de tests UPP pour les cas suivants:

Ho: 8 < 80 { H] : 8 2: 8 0

JHo : e
et

lHI: 8

:5 el
1

< 8

82

est assure par le thorme de Lehmann que nous ne dmontrerons pas.

, .. ee theoreme suppose 1" eXIstence d' une statIstique G te Ile que 1e rapport L(x;; 8 ) est une L(x 8
1)

fonction monotone croissante de G si SI > 82 (thorme dit du rapport de vraisemblance monotone )). De telles statistiques sont fournies par les statistiques exhaustives des lois de forme exponentielle. D'autre part il n'existe pas de tests VPP pour les cas Ho : 8] :5 8 :5 82 contre H 1 : 8 > 82 ou 8 < 8] et a fortiori: Ho : 8 = Bo contre HI : 8 =1= 80 , Dans les cas o il n'existe pas de tests UPP, on cherchera s'il existe de bons tests parm une classe plus restreinte, celle des tests sans biais par exemple. Ainsi pour le test prcdent il existe un test UPP sans bias s'il existe une statistique G(x) rpondant la condition de Lehmann et la rgion critique est: ou G(x) > Cl G(x) < CI

14.2.6.3

Test du rapport des vraisemblances maximales

Ce test est fort utile l o les mthodes prcdentes ont chou:

Test de Ho
8

= 8n contre H 1 : 8 =1=

80 o 8 peut tre un paramtre vectoriel de dimension p.

Posons: on a donc 0 :5 :5 1.

L(x, 80)

sup L(x, 8) o

14-Les tests statistiques

335

est intuitivement une statistique convenable pour un test car plus . est grand, plus l'hypotbse Ho est vraisemblable (principe du maximum de vraisemblance). Cela revient remplacer 0 par son estimation par la mthode du maximum de vraisemblance.

La rgion critique du lest sera:

<K

THORME

1
.

La distribution de -21n

est asymptotiquement celle d'lm X~ dans l'hypothse Ho

_ Dmonstration: Nous la ferons pour p


A

1. On a, en dveloppant en srie de Taylor:


A

ln L(x, 00 )

ln L(x, 8) = (O{) - O)-In L(x, 8)

ao

+
ou 8*
E

l 2(0 0

ri 0) ae21n L(x, 8*)


A

[8 o ].

Comme S est l'estimateur du MV on a -ln L(x, S) = 0, d'o: ilO

-2 ln

= -(So

- S)--.., ln L(x. S*)

a ae-

Dans l'hypothse Ho: 8 = 80 , on sait que l'estimation du MV converge presque srement vers 80 ; donc 0* ~ On et lorsque Il ~ 'J.) :
-----11 ~ cc,

a2 1n L(x ; 0*)

if! 1nf(x;; 8) _ 1 ~ a2 Inf(xi; 8) -1l-,L...i HJ2 n Hf!

Lorsque

la loi des grands nombres nous indique que:

;; 2:
Donc: On a alors:

1 a2 1nf(x;; e)
ae i

~E

[a:!.ln f ]
a8 2

= 11(0)

- - - - - ~ 11/ 1(8)

a2 ln L(x ; 0*) ao

:::: l'ICO)

Note: Le domaine de dfinition doit tre indpendant du paramtre.


THORME

2
la suite des tests est cOll\'ergente, c'est-cl-dire que la pUlssallce l

Si Il

~ ,

f3 ~

Test entre deux hypothses composites.


\. A n f ormera l\.
::::;:

1) E

sup L(x, 8) !fn bt' , 'd L( _ 0) e t on OIen t l mernes proprIetes que prece emrnent. es A . . , sup x,

Belli

336

14111111111Les tests statistiques

14.2.7

Niveau de signification, risques, vraisemblance et approche baysienne

Dans la thorie classique que nous venons d'exposer, issue des travaux de J. Neyman et E.S. Pearson, un test se prsente sous forme d'une rgle de dcision binaire fonnule a prori, c'est--dire avant d'avoir failles observations, et intangible ds que le rsque a a t fix. Les donnes recueillies ne peuvent modifier cette et ne sont utilises qu'a posteriori: on est, ou on n'est pas, dans la rgion critique. Cette manire de procder interdit toute manipulation des rsultats et garantit l'objectivit de la dcision: elle convient bien dans des problmes de rglementation ou de normalisation. Il y a cependant quelques inconvnients: Seule une partie de l'information est utilise. On aboutit parfois des conclusions paradoxales: Ainsi si on rejette Ho avec Cl 5 %, avec les mmes observations on la rejettera a fortiori si }' on avait choisi a 20 %. Quel est alors le risque de la rejeter tort: 5 ou 20 % ? Ce genre de questions perturbe bon droit le praticien. Une pratique courante, utilise notamment dans les logiciels, consiste alors calculer le niveau de signification, appel ~< p-value }) en anglais: c'est la probabilit de dpassement de la valeur observe de la variable de dcision sous Hn. Ainsi dans l'exemple des faiseurs 0.38. de pluie, le niveau de signification est p(X > 610.2/ Ho) Cela veut dire que pour tout a<O.38 on conserve Ho. Cette valeur leve est donc en faveur de l'hypothse nulle: les donnes la confortent. Inversement plus le niveau de significaton est faible, plus les donnes sont en faveur de l'hypothse alternative et du rejet de Ho. La dmarche classique de Neyman-Pearson revient simplement comparer le niveau de signification avec le risque Cl, mais on a ici une information plus prcise. On aimerait pouvoir dire que Ho est plus probable que HI' Il faut se garder de telles expressions, dnues de sens dans un contexte non-baysien. Par contre on peut parler de la vraisemblance de chacune des deux hypothses (du moins quand elles sont simples) Lo et LI' Il faut noter ici que le test de Neyman-Pearson ne consiste pas se prononcer en faveur de l'hypothse la plus vraisemblable puisque la constante k(l du rapport des vraisemblances n'est pas gale 1 : il faut que HI soit k(l fois plus vraisemblable que Ho, et kt! est gnrale ment plus grand que 1, ce qui traduit le rait que Ho est privilgie. Dans r exemple des faiseurs de pluie, il est facile de calculer ku qui vaut (f. 14.2.5) :
w

eXP(-~[(655 2.10

650f

(655 - 600f!J)

exp(1.35) = 3.857

Pour rejeter Hn, il aurait fallu que HI soit prs de 4 fois plus vraisemblable que Ho. Dans un contexte baysien on peut parler de probabilits a posteriori (c'est dire une fois connues les observations) si on s'est donn des probabilits Cl priori sur les tats de la nature.

Il faut donc ici se donner TIo et TIl notre infom1ation pralable.

=1

TI!),

probabilits

Cl

priori de Ho et Hl qui quantifient

14_Les tests statistiques

337

Si x dsigne le vecteur des observations:

P(Ho/x)

= -----7oLo(x) + 7 I L,(x)

On peut remplacer les vraisemblances par les densits de la varable de dcision T, si Test une statistique exhaustive. La rgle baysienne consiste choisir l'hypothse la plus probable li posteriori, donc celle qui a une probabilit suprieure 0.5, On vrifie alors que le test de Neyman-Pearson est en fait un test baysien avec une probabilit Cl priori implicite que l'on peuL calculer aisment (1 - 7o)LI(x) L 1(x) en combinant P(H1/x) = . > 0.5 et - - > k 7oL()(x) + (l - 7o)L1(x) Lo(x) Ce qui donne:
7o = 1

+k
'iio

Pour l'exemple des faiseurs de pluie, on trouve que une fois que Ho est favorise.

0,79 ce qui montre bien encore

Lorsque les probabilits Cl priori sont connues, on dfinit le facleur de Bayes qui est le rapport des odds ratos ) des deux hypothses:

B = P(Ho/x)/ P(HI/x)
7O/'ii1

On peut interprter B comme mesurant la variation du rapport des chances en faveur de

Ho contre H[? de la prise en compte des donnes.


Pour des hypothses simples, on trouve facilement que B est gal au rapport des vraisem bl ances B
Lo{x) / . ct - - , ce qUi. reconci'J' le pOInt e vue b ' . et 1 pomt d l ' le ayeslen e . e vue c asslque, L1(x) car B ne dpend pas des probabilits li prori.

14.3
14.3.1

TESTS PORTANT SUR UN PARAMTRE


Moyenne d'une loi LG(m, 0")
(J

14.3.1. 1

connu

Le test repose sur la variable de dcision X. Ainsi pour Ho : par


111

= nlo contre Hl : m =

111 1

avec

1111

>

l11(),

la rgion critique est dfinie

X>

K. k se dtermine en considrant que

X slIitlIne LG(m ;;,;) :

1110) P(X> k 1 mo) = PU> -----;=- =

(k -

rr/'JJl

Pour un exemple on se reportera l'introduction de ce chapitre.

338

1411111i11Les tests statistiques

14.3.1.2

0'

inconnu

La variable de dcision est la variable de Student :

s
Ainsi pour Ho : nt = mn contre HI:
11l =1=

111n la rgion critique est dfinie par:

TII _ I
_ Exemple: Ho : m

=X

nln~
JI -

30 contre HI : m > 30

Un chantillon de 15 observations a donn . 37.2 - 30_r:-. On en ddmt t = ~ 14 6.2 La valeur critique

37.2 et s = 6.2.

4.35. _

= 0.05

(test unilatral) pour un T'4 est 1.761 : on rejette Hn.

Remarque sur les tests de moyenne: Si la variable parente ne suit pas une loi de Gauss, les tests prcdents s'appliquent encore ds que Il est assez grand (n > 30 environ) en raison du thorme central-limite.

14.3.2
14.3.2.1

Variance d'une loi de LG(m, (J')


m connu

La variable de dcision est D Ainsi pour Ho: a

- 2: (Xi - mf
Jl=1

Il

ao contre HI : a

= al avec al >

ao la rgion critique est dfinie par

:2 (X,
Il

m)1

> k et K est dtermin en considrant que


P(D > k)

12D

suit un X~ :

Jli=1

p(x~ > Tl: ~ ao)

14.3.2.2

m inconnu
-

. L a vana bl e d e d' . . est S" = -1 ~(Xi eCISlOn ~


lli=!

-X)'l' est te Il e que I1S - qUI

2 SUit

un

., X~-

,.

Ainsi pour Ho : a = cro contre Hl : cr S2 > k et k est dtermin par :


P(S-

cr, avec cri > ao la rgion critique est dfinie par

,>

k) = P X~-l

( ') > a J1k)

Ci

14aLes tests stiltistiques

339

II1II

Exemple: Ho : CT

3 contre Hl : cr > 3
soit
S2

Avec 20 observations on a trouv s = La valeur critique d'un X19 pour


Ct

12.25.

= 0.05 est 30.144 d'o:

30.144 X 9

20

13.56

La valeur constate s"2 tant infrieure, on ne peut donc rejeter Ho au seuil choisi de 0.05. _

Remarque sur les tests de varance : Les tests prcdents utilisant la loi du X"2 ne sont valables que dans le cas o X sUt une loi de Gauss.

14.3.3

Test de la valeur thorique p d'un pourcentage pour un grand chantillon

On utilise la frquence empirique F qui suit approximativement une loi:

LG(p; ~P(l,~ P))


Ho : P = Po contre HI : P

'* Po. La rgion critique est:


1F

- Po 1 >

lI a /2

(l - Po) Po--Il

_ Exemple: Sur un chantillon de 200 individus d'une commune, 45 % sont favorables l'implantation d'un centre commercial. Ceci contredit-il l'hypothse qu'un habitant sur deux y est t~1Vorable ?
Ho: P = 0.5 {
avec
Ct

HI: P

'* 0.5
W=

0.05

li

1.96 d'o la rgion critique: 1.96

IF - 0.51 >
Comme

~(O.5)'

200 '

SOIt

IIF - 0.51 > 0.07}

If -

0.501 = 0.05, on ne peut rejeter Ho au seuil Ct = 0.05.

Si 11 est trop petit pour que l'on puisse appliquer la loi de Laplace-Gauss, on utilisera l'abaque elliptique (table A.3 bis). lIlIilIII

14.4
14.4.1

TESTS DE COMPARAISON DtCHANTlllONS


Tests de Fisher-Snedecor et de Student pour chantillons indpendants

tant donn deux chantillons de taille III et n:!~ peut-on admettre qu'ils ont t prlevs dans une mme population relativement la variable tudie, ces deux chantillons ayant t prlevs indpendamment l'un de J'autre?

340

14_Les tests statistiques

_ Exemples:
Les rsultats scolaires des tilles et des garons sont-ils comparables? Les demandes de deux produits A et B chantillonnes sur un an sont-elles comparables? _ Mathmatiquement le problme se formalise de la manire suivante: on observe sur le premier chantillon les ralisations d'une variable alatoire XI de fonction de rpartition FICx) et sur le deuxime chantillon les ralisations d'une variable alatoire X2 de fonction de rpartition Flx) on veut tester:

Ho: FlY) = F1(x) { HI : FI(x) ':f: F:.(x)


Le choix de Ho est dict par des considrations pratiques car FI(x) pour obtenir une rgion critique.

'* F

2(x)

est trop vague

Dans la pratique on se contentera de vrifier l'galit des esprances et des variances de XI et X~; en disposant de x1 et et ST et si moyennes et variances empiriques des deux chantillons si les lois de XI et Xl sont gaussiennes.

14.4.1.1

Cas de deux chantillons gaussiens Xl et X 2 E LG(rn2' (Tl)

LG(rnh

(TI)

Les hypothses deviennent alors:

Le test va consister tester d'abord les variances et si elles ne sont pas significativement diffrentes tester ensuite les esprances en admettant 0'1 = cr:.:.
l1li

Test des variances de Fisher-Snedecor


En appliquant les rsultats de la thorie de l'chantillonnage:
-..,- E Xnl

Il,ST
01
0"1

.,

Dans l'hypothse Ho : 0'1 =

et l'on a :
111 S T

111 -

Fil

1 ;lIl-1

n2S~

Si

On peut interprter F comme le rapport des deux estimateurs de crI et cr~ respectivement. = :.:, ce rapport ne doit pas diffrer significativement de 1. F sera la variable de dcision. En pratique on met toujours au numrateur la plus grande des deux quantits:
0'1

et
111 11 2 -

et la rgion critique est de la forme F > k avec k

> 1.

14_Les tests statistiques

341

Si les deux chantillons ont mme taille

111

Il}

= 11, le calcul se simplifie et :

Si le test de Fisher-Snedecor aboutit la conclusion esprances.


_ Exemple:
ni = 25,

(TI

(T:!,

on passe au test des

sr = 0.05,
x
0.07 25
12

0.07,

(Y

= 0.05

. . 13 Il faut penlluter les Indlces 1 et 2 car


La rgion critique est F> 2.18. On accepte l'hypothse
(TI

> ---24

0.09

(T:!.

Test des esprances de Student


Supposons dsormais
(J]

On a : et

(T2

(T.

d'o:

el:
cr tant inconnu on utilise la loi de Student. Par dfinition de la variable de Student :

Il

]Si + 112S~

(T2(11[

+ "2 -

2)

Ce qui se simplifie en liminant (J

Dans l'hypothse Ho,

1111

1H2

et la rgion critique est de la forme:

ITI > k.

342

14_Les tests statistiques

On aura vu au passage que seule l'hypothse Ho d'galit des moyennes et des variances permet d'obtenir des rgions critiques, car on limine prcisment les valeurs communes de ces moyennes et variances. De plus l'ordre: test de variances, puis test de moyennes, semble indispensable, car le test de Studenl suppose explicitement rrl rr2'

14.4.1.2

Comparaison de moyennes en cas de variances ingales

Lorsque les effectifs des deux chantillons sont levs (suprieurs chacun 20), la formule prcdente reste encore approximativement valable. Pour de petits chantllons, l'approximation d'Aspin-Welch est souvent utilise dans les logiciels: elle consiste remplacer le degr de libert III + Il! - 2, par une valeur infrieure 111 obtenue par les formules suivantes:

nI = ----::--------::III Il::! -

avec c =

--~----

111 -

Il::! -

14.4.1.3

Cas d'chantillons non gaussiens


rr-

Le test de variance F n'est plus valable car nS.. :. ne suit pas une loi de X2, mais on a le rsultat suivant qui permel de tester 1111 =
111::!.

Pour Ill' 11']. assez grand (quelques dizaines d'observations) on peut quand mme tester les moyennes 1111 et 1112 en appliquant la formule de SLudent que (TI soit diffrent ou non de (TlOn dit que le test de Student est robuste ) car il rsiste bien un changement de la loi de XI el Xl'

14.4.2
14.4.2.1

Tests non paramtriques de comparaison de deux chantillons indpendants


Test de Smirnov

Ce test est analogue au lest de Kolmogorov et repose sur le rsultat suivant.


1I(

SOt F;;~(x) et F:i;(x) les fonctions de rpartition empiriques de deux chantillons de taille et 112 issues d'une mme loi, de fonction de rpartition F(x) ; alors:

F~,(x) 1 < ) --+ K(y)

14_Les tests statistiques

343

D'o le test: soit tester l'hypothse HoF(x) = G(x), contre HIF(x) ::f::. G(x), en disposant de deux chantillons de [aille 111 et 11:. de fonctions de rpartition empiriques F~:Jx) et G;:~(x), on forme la diffrence des deux et on en prend le sup et on rejette Ho si sup 1 F;\Jt) G'i:/x)1 est trop grand.

14.4.2.2

Test de Wilcoxon-Mann-Whitney

Soit (x), x:., ... , XII) et (Yb y:!, ... , JI/I) les deux chantillons. Ce test repose sur l'ide que s l'on mlange les deux sries de valeurs et qu'on ordonne le tout par valeurs croissantes on doit obtenir un mlange homogne. Pour cela les deux suites tant rordonnes, on compte le nombre total de couples (Xi, Yi) o Xi a un rang grand que Yi (ou bien tels que Xi> Yi si X et Y sont quantitatives).
71111 ;

Soit U ce nombre (statistique de Mann~ Whitney). Il est facile de voir que U vare de 0 si U = 0 on a la situation suivante (mlange en deux phases) :

de mme si U

mu:

YI' y::?, .. ,.l'1II'

XI'X:!' " " X II

D'autre part si les deux distributions sont issues de la mme population:


E(U)

11111

et

V(U) =

---1-2-Il

llm(ll

111

1)

et asymptotiquement U est gaussien, l'approximation tant excellente ds que suprieurs ou gaux 8. Dans tous les cas on peut calculer la loi exacte de U.
. ' . Le test consIstera d one a rejeter Ho : F(x)

et m sont

G(x) si 1 U - mil

>

k.

Un autre mode de calcul plus rapide dans certain cas consiste fI calculer la somme des rangs des individus de l'un des deux groupes (le premer par exemple). Soit
W, .,
~\'

cette somme appele statistique de Wi1coxon. Il est facile de montrer que


n(n

= mu +

+ 1)
2

U sous l' hypothse nulle :


, n(u

E(Wx ) = - - - 2 - mn(n

1)

V(Wx) =

+ 111 +
12

1)

La rgion critique est alors dfinie si


Wx
1 -

Il

et
1

111

> 8 par:
nm(n

ll(n

+ 111 +
12

1)

>

+m +
12

1)

ll/2

344

14_Les tests statistiques

_ Exemple: On veut comparer les performances de deux groupes d'lves des tests d' habi let manuelle.
On choisit alatoirement 8 indvidus du premier groupe et 10 du deuxime. Les performances en minutes sont les suivantes: Groupel: Groupe 2: 22 25 31 13 14 20 1924282728 Il 23 16 21 18

17

26

On rordonne les 18 observations par ordre croissant. Les rsultats du premier groupe sont souligns: Observations: Il 13 14 16 17 18 Rangs : 1

12.
7

20 21 22 23 24 25 26 27 28 28 8

J!

9 10 11 12 13 14 15 16 17 18

La somme des rangs des individus du premier groupe est:

w,\, =
Si Ho tait vraie:

10

12

15

16

17

18 = 98

E(Wx ) =
Comme

8(8 + 10 + 1) 2 = 76 98

8 X 10(8

+
12

10

1)

126.7 = (l

76 . = 1.96, on peut rejeter Ho avec 11.25 rapidit des lves du groupe 2.

Cl

= 0.10 et conclure une plus grande


l1li

Remarque:
XI

= 24.13
27.36

et et

Xl = 19

ST

s~

= 22

Le test de Fisher-Snedecor de comparaison des variances donne: 27.36 X 8

f=---=
22 X 10 9

1.28

ce qui montre que cr) n'est pas significativement diffrent de cr} (FO.05 (7 ~ 9) Le test de Student de diffrence des moyennes donne:

3.29).

--;===============================" 16

24.13 - 19

J:-;

~ Ua + ~)(la x 22 + 8 x 27.36)

2.06

ce qui est suprieur au seuil 0.10 qui vaut 1.745. Le test de Student conduit donc la mme conclusion que le tesl de Wi1coxon. Cependant ici, rien ne justifiant l'hypothse de distributions gaussiennes et vu la petite taille des chantillons, seul le test de Wi1coxon est d'usage lgitime.

141l11i1Les tests statistiques

345

14.4.3

Test non paramtrique de comparaison de plusieurs chantillons dcrits par une variable qualitative: le test du X2

Les donnes se prsentent sous la forme du tableau 14.2 :

TABLEAU 14.2

Modalit

1
chanllllon 1 chantillon 2
Illl Tl2l

rvlodalit 2
1112

Modalit

Total

r
IIlr
112r
11J.

1122

1/2.

chantillon k Total

lJtJ

1//..2

IlAr 11.r

H/.::.
Il

11.1

Il.:.

ni}

est le nombre des individus de l'chantillon possdant la modalit j de la variable:


Il .

2: n ij
)=1
/.::

effectif de l'chantillon i ;

ll.j :2>lij = nombre total des individus possdantj;


=l

Il

2:Ll1ij "n...:;;:.;

l,

"Il "
"':;;:';.)

Il s'agt de tester Ho: les chantillons proviennent de la mme population }) contre HI :


les chantillons sont significativement diffrents .

Dans l'hypothse Ho on peut parler de probabilits PI' P:., ... , Pr de possder les modalits l, 2, ... , 1: Il s'agit alors de comparer les effectifs constats lIij aux effectifs esprs 11 i , Pl' qui ne doivent pas en diffrer beaucoup; on forme alors:

Dans l'hypothse H(h dij est une ralisation d'une variable Dij suivant un X2 dont nous allons chercher le nombre de degrs de libert.

dB porte sur kr termes,


Donc Dij est un X~r-k'

mais ces kr termes sont lis par II. relations qui indiquent que les

sommes de lignes sont constantes

2:11 ij = Lll i. Pl
j
j

11 .

346

on n'a besoin que de r - 1 relations car D'o une nouvelle mesure:

2: Pj =
j=l

1).

alors
D

Il, n .)2 ( n -......!..:.....


1)

Il

Il i.

".j

(,t _
l

Il

est un : X~r-k-(r-I)

Xlk-lJ(r-1)

si Ho est vraie.

On peut remarquer que si l'on utilise la frquence


dl =

112:2: (f;1 - ./;.f/i


j ./;.

fj

Le test consistera donc rejeter Hn si d constat est trop grand, comme pour un test habituel du X2

14.4.4

Test de comparaison de deux pourcentages (grands chantillons)

Dans deux chantillons de grandes tailles III et 1l2' on relve les pourcentages fi et 12 d'individus prsentant un certain caractre. Soit PI et P2 les probabilits correspondantes: il s'agit de savoir sil, etj2 sont significativement diffrents ou non, donc de tester:

Ho: PI = P'2 = P {HI :PI if::. P2


Si Ho est vraie'!1 etI2 sont des ralisations indpendantes de deux variables FI et F2 suivant les lois:

-)
donc: On rejettera Ho, si, avec
Cl

et

LO(O ; p(l _ p l
0.05 par exemple:

~1+
III

1)
112

I./i

121 >

1.96~p(1

pl ~

1
112

1
112

Lorsque p n'est pas connu on le remplace par son estimation


liliiii

fi

Tl If)

+ Il l f1

111+ 1l 2

Exemple:

sur 96 pices venant d'un fournisseur A, 12 sont dfectueuses; sur 55 pices venant d'un fournisseur B, ]5 sont dfectueuses.

14_Les tests statistiques

347

Les pourcentuges de pices dfectueuses sont-ils significativement diffrents?

.fi = 0.13

96 + 55
-2.28

12

+ 15

= 0.18

~P(1 - P)(~ +~)


III 111

On peut donc rejeter l'hypothse Hn : PI

Pl et conclure que P2

>

PI'

Le mme test aurait pu tre ralis de manire quivalente en utilisant le test du Xl de comparaison d'chantillons. Le calcul est d'ailleurs particulirement simple dans le cas du tableau quatre cases (voir chapitre 6 6.5.2.2) : Dfectueux Fournisseur A Fournisseur B 27 Non dfectueux

96
55

124
= 5.20

151

d- =

15

15 X 27 X 124 X 96 X 55

2 x 40

Avec un degr de Libert la valeur critique du Xl pour ex = 0.05 est 3.84; on rejette donc Ho. On aura remarqu que 5.20 = (2.28f car (la dmonstration est laisse au soin du lecteur) on a exactement:

t
,- =

~p(l - P)(~ + .2..)


11) 112.

fi - 1'-1

)1

1IIIIIIII

14.4.5

Comparaison des movennes de deux chantillons gaussiens indpendants p dimensions de mme matrice de variance

Considrons deux chantillons de III et III observatons issus respectivement de deux lois N/JLI ; :2:) et Np(fL2 ; };). On cherche alors tester:

On nolera g)o g:!, V b V 2, les centres de gravit et matrices de variance des deux chantillons, et on posera W
(

= 11 1VI + n.,V..,111+ 11 2

la matrice de variance intragroupe

---.....;-~
11\+112-

11 1

}1.,

West un estImateur sans

bIaIS

de 2: .

348

14_Les tests statistiques

14.4.5.1
Il)V)

Test de Hotelling
112V2

Np(O ;k( ~ + ~)) si Ho est vraie.


\1l! Il:.

est une matrice de Wishart Wp (ll\ +

112 -

k) et

gl

g2

une loi

On en dduit (chapitre 4, paragr. 4.5) :

si Ho est vraie d'o le test


En pratique on utilisera la relation entre Ti, et F qui donne:

On vrifiera que pour p = 1 on retrouve le carr de la variable de Student du test dcrit au paragraphe 14.5.1 de ce chapitre.

14.4.5.2

Distance de Mahalanobis

Le test prcdent est plus couramment prsent sous la torme suivante.


(JLI 1-l:.)'::E-1(JLI Soit 6.~ Le test revient donc poser: JL2) le carr de la distance de Ivlahalanobis entre I-ll et f.L2'

La distance de Mahalanobis estime Dp est teUe que:


ni

+
Il)

Il, 1 -

Cg,

112

obtenue en remplaant ~ par son estimation sans bias. Remarquons que ceci ne revient pas estimer sans biais k- I ct que:

E(D~)
Lorsque 6.~
0,
Il

1/ 1

+.

n "2

1I1+1l2-P-1

.~ u""2 + P
1/']. -

Il)

HIll:.

+. 11 2) >

!...l"

:2

/'l, +

D;' suit un T~(Il,


112

2) d'o le rsultat:

Tl 1 Il:! (Il [ Il"2 - P - l) ., -~~----'---~----D~ (11 1 + Il 2) p( Il 1 + Il:. - 2) 1

= F(p;

ni

lb
-

P - 1)

Cette expression est couramment applique en analyse discriminante (voir chapitre 18).

14_Les tests statistiques

349

14.4.6

Comparaison de moyennes d'chantillons apparis

Un mme chantillon d'individus est soumis deux mesures successives d'une mme variab1e.

14.4.6./

Le cas gaussien

.. Exemples: 15 copies sont soumises une double cOlTection ;


pa.<;jsage du mme test d'aptitude deux instants diffrents (problme de l'apprentissage). On veut tester l'hypothse que les deux sries de valeurs sont semblables. Soit XI la variable correspondant la premire srie et X2 l'autre. En fait on se contente de tester l'hypothse E(X)) = E(X2.) en posant le modle suivant:
XI X 2 LG(11l1
11l~,

cr)

(ce qui sous-entend que XI et X2 sont sparment gaussiens). Le test de Ho : ml = 1112 contre HI : nt J =f=. 1112 consiste former les diffrences Xii et faire un test de Student sur la moyenne des di car cr est en gnral inconnu:
1'1-1
Xi::!

= di

On rejettera Ho si 111 > k.

..
XI

N.B. : La diffrence avec le test de Student d'galit de deux moyennes tudi au paragraphe 14.1.1 provient du fait que les variables Xl et X2 ne peuvent ici tre supposes indpendantes: la variance de leur diffrence ne peut tre estime par la somme des variances.
.. Exemple : Considrons deux sries de mesures effectues sur les mmes individus deux instants diffrents
Individu

Xz

D =X, -X2

1
2

86
92

66 76
63

20

16
12 22

3 4 5 6
7

8 9 10
Les moyennes ont-elles vari? On trouve d

75 84 66 75 97 67
99

62 74 70 86 69 81
92

-8
5 11 -2

68

18 -24

=7

s*

14.56

7 ------c= = 1 5')

14.56/{O

.-

350

14 _ Les tests statistiques

On ne peut donc rejeter l'hypothse que les deux moyennes sont gales car la valeur critique d'un test bilatral 5 % vaut 2.269 pour un Tg. _ Le test prcdent suppose la normalit des deux variables. S1 ce n'est pas le cas, ou si cette hypothse ne peut tre prouve, il peut tre plus prudent, mais avec une puissance moindre, d'effectuer un test non paramtrique.

14.4.6.2

Test des signes

On compte le nombre K de diffrences positives. Sous l'hypothse nulle d'absence de diffrence entre moyennes, il y a une chance sur deux qu'une diffrence soit positive ou ngative; donc K suit une loi binomiale @(10 ; 0.5). Dans l'exemple il y a 7 diffrences positives. Or P(K < 8) = 0.9453. Avec un test bilatral 5 %, la conclusion reste alors la mme.

14.4.6.3

Le test de Wilcoxon pour donnes apparies

IJ~Bt bien plus puissant que le le.~de~sign(!s et doit lui tre prfr. Il teste en ralit hypothse alternative de distribution dcale.

On procde comme suit: on classe par ordre de valeurs absolues croissantes les diffrences:

Rang 1 2 3
4

-24 22 20
18
16

5
6

12
11

7 8 9 10

-8
5 -2

On calcule ensuite la somme des rangs des diffrences positives soit ici :

w.!

= 2

+3+4 +5 +6 +7+9 =

36

Sous l'hypothse nulle, on trouve aisment l'esprance et la variance de W+


2i ~ En effet W+ = 2.,; RjZi o {Zi _ 1 S,i. Xli - X
i""l

Zi -

o5100n

> 0 en ne tenant pas compte des

eXMaequo. Les Rj sont les rangs de toutes les diffrences et sont donc une permutation des entiers de 1 Il. Les Zi sont des variables de Bernoulli indpendantes:
E(Z,) = 1

1 1 V(Z.) = 2 1 4
11

W+ =

2: RiZ
j=[

141/1111Les tests statistiques

351

conditionnellement aux rangs:

~ ~i
J
-

!-' I=J

= ~ 12(12 +
') ') 1 n(n
4

1)

11(11

+
4

1)

2:rr V(Z;)
i=J

Il

1)(211 6

1)

11(11

1 )(2n

1)

24

Les rangs ayant disparus, l'esprance et la variance conditionnelle sont l'esprance et la variance totale. On peut montrer que W + peut tre approxim par une loi normale partir de
11

= 10.

On comparera donc la valeur trouve 36 une loi normale d'esprance 27.5 et de variance 96.25, ce qui donne une valeur centre rduite de 0.87. On ne rejette pas l'hypothse nulle.

14.4.7

Comparaison de variances d'chantillons apparis


Fisher~Snedecor

Les variables n'tant pas indpendantes, le test de On utilisera la proprit suivante:

ne peut tre appliqu.

Tester l'galit des variances revient donc tester si le coefficient de corrlation linaire entre la somme et la diffrence des deux variables est nul. Dans l'exemple prcdent on trouve r = 0.224 ce qui ne permet pas de rejeter l'hypothse d'galit des variances car le seuil 5 % bilatral pour 10 observations est 0.63 (cf. table A.9). Les cart-types corrigs taient respectivement 12.45 et 9.95

14.4.8

le test de Mc Nemar de comparaison de deux pourcentages pour un mme chantillon

On a vu en J 4.4.4 comment comparer des pourcentages sur deux chantillons indpendants. Qu'en est-il lorsqu'il s'agit des mmes individus? Par exemple, on interroge deux reprises, aprs une action, 600 clients d'une socit pour connatre leur taux de satisfaction. On commettrait une grave erreur en appliquant les fonnules des chantillons indpendants: il faut ici connatre pour chaque individu son tat aux deux enqutes, que l'on peut rsumer par le tableau de contingence 2 X 2 croisant les effectifs des deux variables. Prenons l'exemple suivant:

~
Satisfaits Non satisfaits

Satisfaits
200

Non satisfaits
50 270

80

La proportion de satisfaits est passe de 41.7 % 46.7 %. S'il s'agissait de deux chantlllons indpendants de 600 individus, cette diffrence ne serait pas juge significative.

352

14_les tests statistiqu

Mais pour tester la significativit de cette diffrence, il faut en ralit compare les effectifs des individus ayant chang d'avis.
En effet, avec des notations classiques, l'hypothse Ho est Pl. = PI.- Comme PI. = Pli etp.1 = Pli + P::'I Ho revient tester Pr2 = P'21

~
Satisfaits Non satisfaits

Satisfaits
Pli

Non satisfaits
Pl2

Pl.
P 2

P:!l P.I

P22

P.2

On effectue alors un classique test du khi-deux: sous l'hypothse nulle PI'! par (1112 + 1121)/2. La statistique de test est donc:
( 111") 1112

= Pli est

+ 1121)2 +
2
2

11

thl

11 12+ 1l 2J

Un calcul facile montre qu'elle est gale :


(Il
11 12

+ 1121

On comparera cette quantit un

Xy,

ou sa racine carre une variable

normale centre rduite.

80 ~
tive de la satisfaction.

80

- 50 = 2. 63 . 0 n cone l ' une augmentatIOn SlgOl ilca' "f ue a + 50

14.5

L'ANALYSE DE VARIANCE

L'analyse de variance recouvre un ensemble de technique de tests et d'estimation destins apprcier l'effet de variables qualitatives sur une variable numrique et revient dans le cas simple comparer plusieurs moyennes d'chantillons gaussiens. On utilisera ici un vocabulaire particulier: les variables qmtatives susceptibles d'influer sur la distribution de la variable numrique observe sont appeles facteurs de variabilit et leurs modalits niveaux . Lorsqu'il y a plusieurs facteurs, une combinaison de niveaux est un traitement }) (voir chapitre 21). Le domaine tant trs vaste on se contentera ici d'une brve prsentation du modle effets fixes un et deux facteurs (des complments seront donns au chapitre 17 sur le modle linaire

14_Les tests statistiques

353

14.5.1
14.5. 1. 1

Analyse de variance un facteur


Les

donnes et le modle
111' Il:!~ , Ilk

On dispose de k chantillons de taiUes respectives un niveau diftrent d'un facteur A. On pose n

correspondant chacun

2: l1i et on dresse le tableau 14.3.


i=1

On suppose que le facteur A influe uniquement sur les moyennes des distributions et non sur leur variance. II s'agit donc d'un test de confusion des k moyennes X"X2"'"

TABLEAU

14.3

Facteur

Al
ri 1

A2
ri :1

Ai
......................... .......................

Ak
........ ~ 4 ................ "

X
XIII

.,

.\2
x~~

Xi
' ,,
~

x! 1 .,

JI "

JI

Xk
X"i k
;k

." ............. """"""

..................

... ...................
Xi

. ...................

Moyennes

x[

Xl

LG(nzj; cr),

Si on considre chaque chant110n comme issu d'une variable alatoire Xi suivant une loi Je problme est donc de tester:

{Z:
On peut galement poser:

ml =

m2

= ... = ml
mj
o

nti::j::.

xl
ou encore facteur.

+ E{

E{ LG(Q ; cr)

xl =

f.L

Ci;

+ El o f.L reprsente une valeur moyenne et Cl i l'effet du niveau i du

Si Ho est rejete le problme se posera donc d'estimer lIli (ou f.L et les Ci).

14.5.1.2

Le test

1 Si X est la moyenne totale X

2: 2: X{ et en remarquant que:

kil,

11 i=1 j=1

il vient facilement:

formule qui n'est autre que celle de la variance totale dcompose en moyenne des variances et variance des moyennes.

354
1

14_Les tests

!:ilalC1StlQUf:I

Si on pose:

S-

"l

l '"' = -.J"12: (X~.


.;;;..J

11 i

S~ = n

2: J1,(X i
1

et:

on a donc

= S~

+ S~ formule d'analyse de variance


1
= -

>~"

s~ reprsente la variance due au facteur,

S'k la varance rsiduelle.


/l,

l Si on crit S~ = -

2: Hi Sr avec ST
~

'1

2:(X{

Xjf! en introduisant les dispersions


-

11 ;"" 1

Il i j=1

~. I1S~. '1 chaque echnntillon, on trouve que - " est une vanable de x- a Il

k degres de hberte car _ 1_1


~

' "

tl

Sf

est une variable

" et-" cr-

11 S R

,,~

S1

;;;1

L.J

cr:"

Dans l 'hypothse Ho et dans celle-ci seulement, les Xi sont des variables de mme loi, nS'! . ' "1 llS~ " dans ce cas SUIt un X~-1 et - 1 un xr-J car est alors la variance d'un Il-chantillon d'une LG(m, cr) et s1 est analogue la variance du k-chantillon des moyennes par les Il;,

a-

Xi pondres

L'quation d'analyse de variance n'est autre que la formule du thorme de Cochran, ce qui entrane que S~ et S~ sont des variables alatoires indpendantes, si Ho est vraie; on a en effet:

X~-I
Donc si Ho est vraie:

Xf-I

+ X~-k

s11k
S~/11
A

= F(k -

l'Il - k) '

S~/ li. - 1"S' '1 est supeneur a I l cntlque d' une van' . ~ a va eur ' . . '11 1 SR 11 k able de Fisher-Snedecor on conclut une infuence significative du facteur A.
, e d, ou 1 test: on f"orme 1 rapport e

Le carr moyen rsiduel est alors un estimateur sans biais de cr::.


_ Exemple: Reprenons l'exemple tudi aux chapitres 5 et 6 : les variations du taux de taxe d'habitation de 100 villes franaises et tudions 5' il existe des diffrences entre zones gographiques. La premire tape avait t de comparer les diagrammes en bote qui montraient des diffrences essentiellement entre le Nord et l'lle-de-France et les autres zones.

14_ Les tests statistiques

355

Le tableau suivant donne les moyennes el variances corriges par zone:


Gographique Centre Est Ile-de-France Nord Ouest: Sud-Est Sud-Ouest
Tota.l

Effecr.if

Hoyenne 18.1154 17.662 1l.76i16 25.9511 18.8964 .7694 20.511 17.7707

Variance 3.63619 4.38986 15.0492 50.4071 .59955 .63498 20.6971 30.5765

13 10 26 9 14 18 10
100

Le tableau d'analyse de la variance est alors:


Analyse de variance Source Inter-groupes Intra-groupes l'otal
(Con:.)

Somme des carrs 1706.58 1320. 3027.07

Odl
6

Carr moyen 284.43 14.1988

Pr.oba. 0.0000

20.03

93 99

On rejette donc l'hypothse d'galit des 7 moyennes car la valeur de la statistique de test _ F est trs leve et la probabilit qu'un F 6 : 9:1 dpasse 20 est pratiquement nulle.

14.5.1.3

L'est;mation des effets

Il est clair que les 111i sont estimables par les moyennes .x i mais que les (Yi ne le sont pas: il y a indtermination puisque mi = f.L + ai peut s'obtenir d'une infinit de manires. On pose gnralement la contrainte suivante d'effet moyen nul:

2: n
j=1

i(Y;

= 0 d'o:

,l=x

/4.5.1.4

Comparaisons multiples de moyennes

Le rejet de Ho ne signifie pas que tous les mi sont diffrent..; entre eux, et on cherche souvent tester l'galit 0 des diffrences /Hi - 1Ilj (appeles contrastes). Diverses mthodes existent. Un rsultat d Scheff montre que pour tout contraste J'vnement:

m; -

1/1 j -

Sir

~ 1 +.!c::o; x; /li
(Y

Jij

::0; 1/1; -

III J

S:

Jlj

~J +
IIi

J
Ilj

a lieu avec une probabilit]

donne par :
S2 )

P( F/;_I " I I - k :k :- - : ; , l

t - cr

356

14 _ Les tests

!>Lal:rStll:]Up,

O &2

est le carr moyen rsiduel. On rejette Ho s'il existe au moins un contraste Sin-T'\1h~ . ~. vement diffrent de O.

On peul donc tester simullanment tous les contrastes de la faon suivante : on . . . tout cl' abord : S = ~(k - 1) Fl~Ck - 1 ~
'"fi . et on ven le ensUite
SI
Il -

f.lI ... Ult::,.:.:.::.:;:

k)

'1Xi

.t j

-:;1 > S~~l .SI OUi' . mi r cr - + - , .


Il; Ilj

...J-

nlj _

On prendra garde toutefois que les comparaisons par paires ne sont pas transitives. On pourrait ainsi accepter
ml
1112' 1112 m4'

mais pas

/Ill

= 1114!

fi est souvent plus simple de reprsenter graphiquement les intervalles de dduits de la mthode de Scheff.
Moyennes et intervalles 95% de Scheffe

30
c

~ 25
:0

=ti
Q.l Q.l "C
X

ct!

!
"

20

x 19 15
:::J

! !

~
l)

t
ir.i
0
<li :l

!
ir.i
:::J

1-

ct!

10 5
ru

f
<li
(.)

ir.i

"C

Lt

C rtl

"C

ID

- :::1 en

ir.i

!Il

CIl

:::1

FIGURE

14.5

14.5.1.5

Test de comparaison de k variances

L'hypothse d'galit des variances pour chaque nveau joue un rle important en analyse de variance mais n'est que rarement teste: en effet les tests disponibles sont peu fiables et il vaut mieux se contenter de procdures empiriques. Citons cependant le test de Bartlett : Soient Sr. alors la quantit:

sr:. ., -, sr les variances corriges des k chantillons. si


""1(n1 - 1) Sr. 2 ) ~ 1 k
(n
k

<Tl

= cr:! = ... crk

k) ln ( ;=1
Il
2

_.

2:Clli - 1) In(S}:2)
i=1

suit approximativement une 10 du X k - 1 degrs de libert.

tests statistiques

357

Analyse de variance deux facteurs


Le modle
On notera pet q les nombres de niveaux de deux facteurs A et B. pour chaque couple

i,.i de niveaux

(traitement) on aura /lij observations de la variable X.

On dit que le modle est complet si Ilij

>

0 pour tout traitement, rptition si nu

>

l,

quilibr si nij = 1:
On limitera cette tude au cas quilibr. Les donnes recueillies sont donc, pour un traitement (i,j), .lijl; avec k = 1,2, .. . ,/: On supposera que .lij/; soit une loi LG(mij ; cr) donc que Xij/; On crit alors:

= lIlij + Eij/.. o EUk LG(O ; cr) .

f.L est l'effet moyen ;


ai

l'effet principal du niveau ide 11 ; l'effet principal du niveau j de B ;

f3j

'Yij l'effet d'interacton.


La prsence d'un terme d'interaction quivaut la non-additivit des effets principaux. On posera :

X...
xij.

= -.2:
1
r

fi

pql ;;;1 j;;1 1;=1

2:

If

2:.lijl;

= -: 2:Xijl;
1 k=1

Xi .. = ----:
ql

j=l /;;;1
l' r

22

fi

2: .l jj/;

X.j.
On a alors:
.lijk -

= ----: 2:

2: .l ij/;

pl i=1 /;=1

X...

= (Xi .. - x.J + (x.j. - x.. J + (xij. - x.j,) - (Xi .. + x.. J + (.lij/; - xu.)

les diftrents termes de cette somme correspondant respectivement aux effets principaux, l'interaction et une fluctuation alatoire.

14.5.2.2

L Jquation dJanalyse de variance et le test

On vrifie que pour le modle quilibr on a :


2:2:2:CX u; /
i j
/;

x.. J 2 = s1 + 51 + 5XB + S~

358

14_Les tests statistiques

avec:

qr2:0:i.. -

s~ S~IJ

= pr2:Cx.j.
j i

x.. Y
x\ .. + x.. ,)!

r2:2:Crij. - x.j
i

donc que les sommes des carrs s'ajoutent: il y a orthogonalit pour le modle quilibr.

Remarque: Les modles orthogonaux sont tels que : nu

= .....!.:..-i.
n

11 . Il .

Comme en analyse de variance un facteur, si l'hypothse Ho mu = 0 't:/ Uest vraie, les diffrentes sommes de carrs suivent cr.! prs des lois du X2 indpendantes. On peut donc tester l'existence des effets principaux, et de l'interaction en comparant S~; S~, SII S~. On prsente usuel1ement les rsultats sous la forme du tableau 14.4 :

TABLEAU

14.4

Source de variation

Somme de carrs
S~

Degr de libert (dd1)


p-l

Carr moyen
S~/(P
S~/(q -

A
B

1)
1)

s1/p Sk/pq(r SVq -

1
1)

S~

q-I

S~/pq(r
S~lJ/(p -

1 1)
1)

Interaction AB Rsiduelle R Totale

S~n
S~
S2

(p

1)(q - 1) pq(r
[)

'AIl
(p -

1)(q - 1)

1)(q - 1)
1)

SYi/pq(r -

Slrlpq(r

pqr- 1

14.5.2.3

L'estimation des effets

En posant: on peut estimer les ai'

2: a = 2:!3j = 2."Yij
i

2.'Yij = 0
j

!3

j,

'Yij on trouve alors:


A _

ai =

Xi..

!3j

x.j. - X...
- Xi ..

'Yij =

+ X...

14_Les tests statistiques

359

14.5.2.4

Le cas du plan sans rptition

Le modle complet avec interaction ne peut tre test et estim que si et seulement si il y a rptitions car le degr de libert de S'k est pq(r - 1) donc r doit tre strictement suprieur 1.

Si r = 1 on doit se contenter du modle purement additif sans interaction:


!-Lij

= i + r3j

L'quatlon

d~analyse

de variance s'crit alors:

Il

avec:

S~

:=-.:

C/2:Cti.
i<=l
il

x.Y
x.,)2

S~ = P:2) x.}
)=1

s~ =

2:22(xij - XL
i

+:X.Y

On compare donc S~ et S~ au terme d'interaction pris pour terme rsiduel ce qui empche de tester l'interaction.

14.6

TESTS ET PROCDURES D'AJUSTEMENT

Ces tests ont pour but de vrifier qu'un chantillon provient ou non d'une variable alatoire de distribution connue Fo(.r:). SOiL F(x) la fonction de rpartition de la variable chantillonne, il s'agit donc de tester Ho : F(x) = FoCt) contre HI : F(x) =1= FoCx). Avant de prsenter les tests sLatistiques les plus courants (test du X2 , de Kolmogorov, de Cramer-Von Mises) il convient de prsenter brivement les procdures empiriques usuelles qui sont une tape indispensable et permettent de s'orienter vers une distribution adapte aux donnes.

14.6.1
14.6. 1. 1

Les mthodes empiriques


La forme de l'histogramme

Celle-ci peut conduire liminer certains modles, en particulier si les proprits de symtrie ne sont pas vrifies. Une fOffi1e symtrique conduit souvent poser l'hypothse de normalit mais il faut se souvenir que la loi de Laplace-Gauss n'est pas la seule avoir une courbe de densit en cloche: c'est galement le cas des lois de Cauchy el de Student entre autres. Une forme fortement dissymtrique peut suggrer l'usage de lois log-normales, gamma, Weibull ou bta de type deux qui ont des courbes de densit assez ressemblantes au moins pour certaines valeurs des paramtres.

360

Le choix entre diffrentes distributions de forme semblable doit s'effectuer alors en Lenan compte du phnomne tudi: ainsi en nabilit on se limitera aux lois exponentielles ou Weibull qui ont une justification physique alors que la loi log~nonnale n'en possde pas ce cas.

14.6.1.2

Vrification sommaire de certaines proprits mathmatiques

On vrifiera sur l'chantillon si certaines relations concernant les paramtres d'un modle sont vraies. Ainsi pour une loi de Poisson on sail que E(X) = V(X) ; on s'assurera que sur un chantillon . Une telle constatation est seulement un indice du caractre poissonnien d'une distribution mais n'en est nullement une preuve. On ne peut d'ailleurs prouver la vracit d'un modle par des moyens statistiques. Un modle est choisi pour sa commodit et sa facult de reprsenter un phnomne.

x diffre peu de

P.QUL uTle variable de Gausson sait que le coefficient d'aplatissement de cette loi est gal 3 et que son coefficient d'asymtrie est nul. On vrifiera sur l'chantillon que les coefficients empiriques correspondants s'cartent peu des valeurs thoriques: on dispose pour cela de tables donnant les valeurs critiques de ces coefficients pour diffrentes luilles d'chantillon (tables A.15 et A.16), voir galement plus loin J'abaque pour le test de normalit.

14.6.1.3

Ajustements graphiques

Pour la plupart des lois de probabilit une transfonnation fonctionnelle simple permet de reprsenter la courbe de rpartition par une droite. La fonction de rpartition empirique d'un chantillon de taille Il diffre peu, si Il st grand, de la fonction thorique F(x). On vritera alors simplement r adquation des donnes au modle en comparant la fonction de rpartition empirique une drote sur un papier chelles fonctionnelles.

" Loi exponentielle


Si la dure de vie X d'un composant est telle que:
P(X

>

x)

exp(-x)

on a alors

InCl - F(x)) = -..-r

:Pour un chantillon de taille 11 on reportera donc pour chaque valeur du temps de fonctionnement x le pourcentage de survivants la date x sur une chelle logarithmique. En pratique on reporte, si les Xi sont ordonnes par va1eurs croissantes, les pOnts de coordonnes :
Xi;

ln ( 1 -

-'-1-

i -

1)

pour

l:::S;i:::S;1l

Les points dOvent alors tre aligns approximativement le long d'une droite dont la pente fournit une estimation graphique de .

141111111Les tests statstiques

361

Loi de Weibull

Ici P(X > x) = exp( -

xr~), d'o:

ln(-ln P(X > x) et on reporte les points de coordonnes:

ln

+ ~ lnx

La pente de la droite fournit une estimation graphique de une estimation de ln .

i3

et son ordonne l'origine

Loi de Laplace-Gauss
Ici la fonction de rpartition n'ayant pas d'expression mathmatique simple on utilise la ., , propnete U

X 111 e mamere . = --- dal " sUivante: (J'


IIi

cr constituent un chantillon d'une variable normale centre-rduite U. Si le nombre des observations est grand, la foncton de rpartition empirique (de l'chantillon) doit peu diffrer de la fonction de rpartition thorique telle qu' ene est issue des tables. Appelons Fi les valeurs de la fonction de rpartition empirique ( Fi

b' . , . b 1 S Iles 0 servallons Xi provIennent dune vana le normale LG(m: cr) alors es

(Xi = - - 111) -

effectif <

Xi) .

A ces valeurs empiriques Fi associons les valeurs correspondantes li')' de la variable normale centre rduite obtenues par la table: alors si la distribution est rellement gaussienne et si
11

est grand,

ut

doit peu diffrer de - - - et il doit donc exister une relation (J'

linaire entre et Xi (le graphe ut, Xi doit tre peu prs une droite coupant l'axe des abscisses en 111 et de pente l/(J'). Cette droite est appele la drote de Henry. ou "QQ plot" pour quantile-quantile, en anglais. Les donnes ayant t ordonnes par valeurs croissantes, on reportera comme ordonne i 3}8 de chaque valeur Xi et non i/n pour des rasons trop compliques pour tre dve-

11+

loppes ici.

Exemple
Reprenons les donnes tudies au chapitre 5 : les variations du taux de la taxe d'habitation de 100 villes franaises. L'histogramme et le la bote moustaches indiquent une rpartition plutt symtrique; est-elle gaussienne pour autant?

362

14_Les tests

SratlstiCTIII

La droiLe de Henry montre des carts importants concernant les queues de nH::h'lli'\"t;~_ on peut mettre en doute la nonnalit de la distribution, mais il ne s'agit pas d'un vritab test o on matrise les risques d'erreur:

99.9 99
(/J C)

95

. ..
"

<ll

rn

80 50 20
5

<ll

0..

:::J 0

1
0

t!I"'''

0.1
10
FIGURE

20

30

40

Taux de taxe d'habitation

14.6

14.6.2

les tests statistiques gnraux

Nous prsenterons ici les deux tests les plus classiques, celui du X"! et celui de Kolmogorov-Smirnov, ainsi que celui de Cramer-von Mises.

14.6.2.1

Le test du X2

Soit une variable alatoire X discrte ou discrtise, c'est--dire divise en k classes de probabilits PI. P"!, ... , Pk' Soit un chantillon de cette variable fournissant les effectifs alatoires Nb N'l' ... , N" dans chacune de ces classes.
On a E(Ni ) = npi'

Considrons alors la statistique D2 dfinie comme suit:

Il est clair que cette statistique est une mesure (on pourrait dire une distance) de l'cart alatoire entre les effectifs raliss et les effectifs et intuitivement on sent que D 2 ne peut tre trop grand. D 1 dpend du nombre de termes de la somme k mais on remarque
Il

que tous ces tennes ne sont pas indpendants puisque ~Ni =


i=l

11 ;

il suffit d'en connatre en

fait k - 1.

363

Donc en fait

dpend de k - l, nombre de degrs de libert de D'1,

D'aprs Je rsultal tabli au chapitre 4 propos de la loi multinomiale on sait que:

Si 11 ......;!> 00, D 2 est asymptotiqllemell1 distribu comme une "ariable de que sait la loi de X.

et ceci quelle

D'ou le test du

x-: on rejettera Ho SI d- constate = 2: (n i


"). ,") ,II

llpJ2

est trop

c'est--dire

i""l

npi

suprieur une valeur qui n'a qu'une probabilit

IX

d'tre dpasse par une variable X2

Cas des estimations


Il arrive bien souvent que seule la forme de la distribution soit spcifie. Poisson, ,"-'"Laplace-Gauss, mais qu'on ignore certains paramtres que l'on estime sur l'chantillon. Soit 1 ) le nombre d'estimations indpendantes ainsi ralises. Le degr de libert du X'1 devient alors k i l . Il convient ici de prendre certaines prcautions: les estimations en question doivent tre des estimations du maximum de vraisemblances effectues au moyen des k classes de la distribution, faute de quoi la distribution limite de n:' n'est plus un X2, mas en tout tat de cause, comprise entre les valeurs d'un XI-l et d'un XI-,-, : si k est grand, ce phnomne n'est pas trop important, mais si k est petit il peut aboutir garder inconsidrment Ho en se fondant sur la distribution de 1-1-

Effectifs par classes


La loi de D'1 est asymptotique et l'on admet que D 2 ~ X~-I si "Pi est suprieur 5 pour toute classe (certains auteurs donnent comme condition 3, ou mme l pour une seule classe en queue de distribution). Dans le cas contraire on procdera des regroupements.

Cas des variables continues


Si on a le choix du dcoupage en classes, on peut hsiter entre des classes quiprobables et des classes d'gales amplitudes, mais ces dernires doivent tre dtermines Ci priori. Cependant pour des variables continues, le test de Kolmogorov-Smrnov est prfrable, s'il n'y a pas d'estimation effectuer. Pour des complments, consulter Kendall et Stuart, volume 2, chapitre 30, Tests offit.

Proprits du test
On peut dmontrer que le test du X2 prsent ici est asymptotiquement quivalent au test du rapport des vraisemblances maximales appliqu aux hypothses:

lHI :Pi '* Pm 3i

rHo :Pi

= PlO Vi

364

14 _ Les tests

staltlstqUles

14.6.2.2

Le test d"'ajustement de Kolmogorov

Il s'agit d'un test non paramtrique d'ajustement il une distribution entirement spcifie de fonction de rpartition F(x). Ce texte repose sur les rsultats de Glivenko, Kolmogorov cits en thorie de l' chantillonnage (chapitre 12). Si F;:: reprsente la fonction de rpartition empirique d'un lt-chantil1on d'une variable alatoire de distribution F(x) , on sait que DT! = sup 1 F~'(x) - F(x) 1 est asymptotiquement distribu comme suit: P({;zD,J < y) ~:L
1;=-'"

l)kexp(-2k2y1) = K(y).

La fonction K(y) a t tubule et fournit donc un test de :

. . .... : . . . { H o : . F.(X.) HI F(x)

= *

F()(x) Fo(x)

La rgion critique tant dfinie par DI! > den). Au seuil Cl. = 0.05 et si 1.6276
D'l>
11

> 80, la rgion critique est

DII

>

~
'Hl

1.3581

pour

Q'.

= 0.01

Si

Il

< 80 on se reportera alors la table A.14.

14.6.2.3

Le test d"'ajustement de Cramer-von Mises

La statistique:

est une variable alatoire dont la distribution indpendante de F(x) sert tester Ho : F(x) = Fo(x) contre HI : F(x) Fo(x) car /1W~ est une mesure de l'cart existant entre une rpartition thorique et une rpartition empirique. Sa distribution a t tabule (voir recueil de tables, table A.13).

On dmontre que:

nw;,

-1 +
1212

2: [2i 211 1 -i=


/1

F(x;)

]2
< X/I)'

si les

Xi

sont les valeurs ordonnes de r chantillon

(Xl

< X1'

. "

. 1 - FO(Xi) I_ll i=l 21l alatoire I1W~ a une probabilit ct de dpasser. Au seuil a 0.05 on rejette Ho si llW~

~ . 1 On rejette Ho 51 '") + 2.J

]2 est 5upeneur,a une va1eur que lvanabl e ,. a '

> 0.46136 pour Il grand.

14_Les tests statistiques

365

Bien que les lois des statistiques Dn et I1W~ ne soient pas connues, lorsque certains paramtres sont estims on utilisera avec profit les rsultats empiriques (tableau 14.5) obtenus par simulation (Biometrika Tables, volume 2) :
TABLEAU

14.5 Test d'exponentialit

Test de normalit

Ho: LG(m,

CT)

Ho : l(x)

1 = Oex p

(-x) ff-

m est estim par X


If

est estim par

~_l_ 22 (x 11-1

i -

X)2

8 est estim par

On rejette Ho : - au seuil
CY.

On rejette Ho :

si (,f;;
ou (1

= 0.05 0.85/-{;; - O.OI)D"


0.126

>

0.895

- au seuil Cl. = 0.05 si (D II - 0.2/n)({i ou (1

+
>

0.26 -/- 0.5/-{;;)

>

l.094

+ 0.5/n)llw; >
ct

0.16/ Il )nw;

0.224

- au seuil

= 0.01

si (-{;;
ou (1

+ 0.85/,f;; - O.OI)D'J >

1.035

- au seuil IX = 0.01 si (Dn - 0.2/n)(-{;; ou (1

+ 0.26
-/- 0.5/...[;;) > 1.308
0.337

0.5/Il)nw~

>

0.178

+ 0.16/n)nw~ >

14.6.3
14.6.3.1
G

Exemples d'application en fiabilit et en phnomnes d'attente


Test du caractre exponentiel d'une loi de survie

Exprience classique
On dispose d'un chantillon de
11

matriels identiques et on note les dures de vie en heures

Exemple numrique:
X;:>

fi

=
X..j

=
par

169

x]

122

Xs

= 58

Le paramtre
F(x)

x est estim

x = - 2:x i
5 ;=1

= 98, la fonction de rpartition estime est

1 - exp - 98 d'o le tableau: 8


0.079 58 0.447 122 0.711

( x)

Xi

133
0.743

169 0.821

F(xi)

366
La statistique de Kolmogorov vaut:

14_ Les tests statistiques

D" =

sup{1 F(x;) - :'1; 1 F(x;)

~ II}

car le maximum est ncessairement atteint en un des points de sauts de la fonction de rpartition empirique. On trouve Dil
a = 0.05).

0.311 soit DI! - - ;

0.2)(_'111 + 0.26 + 0.5) r -{ii

0.84.

L'hypothse Ho d'une distribution exponentielle peut donc tre retenue (avec La statistique de Cramer-von Mises vaut:

F(X;))'

= 0,09133

et la quantit 1 + - n

( 0.16),

IlW~

0.0943 conduit elle aussi accepter Ho.

" Exprience de dure limite avec renouvellement du matriel dfaillant


II est souvent pratiquement impossible de mener bien l'exprience prcdente des que 11 est assez lev car le temps d'tude devient prohibitif. On prfre de beaucoup imposer une dure limite T l'exprience en renouvelant au besoin au fur et mesure les appareils tombs en panne de manire obtenir plus d'informations. Les instants des pannes obissent alors, s la dure de vie est exponentielle un processus de Poisson: en effet si JI = 1 l'appareil en panne tant remplac immdiatement, les instants des pannes successives suivent un processus de Poisson car les intervalles entre pannes successives sont indpendants et de loi "YI ; pour n appareils, le processus total est une superposition de Il processus de Poisson indpendants, ce qui fournit encore un processus de Poisson. Soit fI, t 2, , t k les instants des pannes pendant T; d'aprs le chapitre 11, la distribution conditionnelle des dates de panne, sachant k, est une loi uniforme sur [0, T] ; les instants des pannes t l , t::. . " tl.. tant ordonns, les tJT forment un chantillon ordonn d'une IO uniforme sur [0, 1] si la dure de vie est exponentielle. Le test du caractre exponentiel de la distribution revient alors tester l'hypothse que les t;fT suivent une loi uniforme sur [0, 1], ce qui peut se faire soit par le test de Kolmogorov, soit par celui de Cramer-von Mises.

_ Exemples : 100 appareils sont constamment en service et sur une priode de 200 heures; 5 pannes ont t releves aux instants: t l 51, t 2 = 78, 13 = 110, t.+ 135, t5 = 180. I11III

14aLes tests statistiques

367

Test de Kolmogorov
On cherche le plus grand cart en valeur absolue entre la fonction F(x) = x et les valeurs de la fonction de rpartition empirique (fig. 14.7).

51 78 110 135 1601 200 200 200 200 200


FIGURE

14.7

L'cart est le plus grand pour la premire valeur et vaut D

= ~ = 0.255.
200

En se reportant il la table de la distribution du test de Kolmogorov on voit qu'on peut accepter l' hypothse Hu que la dure de vie obit une loi exponentielle pour tout seuil ct infrieur il 0.20, puisque ct = 0.20, la valeur critique est 0.447.

Test de Cramer-von Mises


I1W- := Il

.,

121l

i= 1

fiJ2 2: [2i 2n 1 - -- T
JI

puisque pour une loi uniforme sur [0, 1]

F(x)

=x :
+ 10 ( 5
1] 0)2 ( 7 200 + 10

IlOl~
'1

1 60

( 1 51)2 ( 3 78 \2 10 - 200 + 10 - 200) 180)2 200

135)2 200

(~ _
19

nOl~ = 0.05192
= 0.95;
P(I1Ol~

D'aprs la table A.13, on peut accepter Ho pour tout seuil a infrieur 0.85 :
P(nOl;'

< 0.447)

< 0.056)

= 0.15

14.6.3.2

Test du caractre poissonnien des arrives une file d'attente

Pendant 100 intervalles de 10 min on a compt le nombre X d'ouvriers se prsentant un magasin pour emprunter des outils, ce qui donne le tableau 14.6 (Kaufmann et Faure, Initiation cl la recherche oprationnelle, Dunod).

368

14_Les tests statistiques

On veut vrifier le caractre poissonnien de la loi de X : On utilisera ici un test du X2, car la distribution est discrte (rappelons que les tests de Kolmogorov et de Cramer-Von Mises ne s'appliquent que pour des distributions continues).
TABLEAU

14.6
(11 j
-

Xi

llj

100pi

100Pi)!

100pj

5 6 7 8 9 ID
Il

0 018) 0.33

i)5
3 5 6 9 10 1J 12 8 9 7 5
4

12

13
14 15 16 17 18 19 20 21 22 23 24 25
~25

0.74 5.22 1.45 2.52 3.93 5.58 7.26 8.72 9.73 10.12 9.87 9.07 7.86 6.46 5.04 3.75

0.009

0.220 0.060 0.219 0.009 0.007 0.077 0.460 0.126 0.165 0.045 0.000 0.017

2066) 1.80

[]6

1.17 7.37 0.73 1.01

0.255

d 2 = 1.59

On estime le paramtre ~ de la loi de Poisson suppose, par la moyenne empirique qui vaut 15.61. Pour calculer la valeur de D 2 on opre des regroupements aux extrmits pour les classes d'effectifs trop faibles, ce qui laisse 14 classes. Le paramtre ~ ayant t estim non pas sur les classes rsultantes mais sur les valeurs initiales de l'chantillon, la valeur critique pour D 1 est comprise entre celle d'un Xf! et celle d'un XI3' La valeur du d 2 calcul est bien en de de tout seuil de probabilit habituel pour un test: on peut accepter l'hypothse d'une distribution poissonnienne.

Remarque: un esprit souponneux trouverait peut tre cette valeur de dl trop faible, puisque d'aprs les tables il y a 995 chances sur 1 000 pour que XI:! soit suprieur 3. L'ajustement est-il trop beau pour tre vrai? Nous lasserons le lecteur juge ....

14_Les tests statistiques

369

14.6.4

Tests de normalit

L'ajustement d'une distribution normal