Vous êtes sur la page 1sur 172

Resume du Cours de Statistique Descriptive

Yves Till e 15 dcembre 2010 e

Objectif et moyens
Objectifs du cours
Apprendre les principales techniques de statistique descriptive univarie e et bivarie. e Etre capable de mettre en oeuvre ces techniques de mani`re approprie e e dans un contexte donn. e Etre capable dutiliser les commandes de base du Language R. Pouvoir appliquer les techniques de statistiques descriptives au moyen du language R. Rfrences ee Dodge Y.(2003), Premiers pas en statistique, Springer. e Droesbeke J.-J. (1997), Elments de statistique, Editions de lUniversit e libre de Bruxelles/Ellipses.

Moyens
2 heures de cours par semaine. 2 heures de TP par semaine, rpartis en TP thoriques et applications en e e Language R.

Le language R
Shareware : gratuit et install en 10 minutes. e Open source (on sait ce qui est rellement calcul). e e Dvelopp par la communaut des chercheurs, contient normment de e e e e e fonctionnalits. e Possibilit de programmer. e Dsavantage : pas tr`s convivial. e e Manuel : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf

Table des mati`res e


1 Variables, donnes statistiques, tableaux, eectifs e 1.1 Dnitions fondamentales . . . . . . . . . . . . . . . . e 1.1.1 La science statistique . . . . . . . . . . . . . . 1.1.2 Mesure et variable . . . . . . . . . . . . . . . . 1.1.3 Typologie des variables . . . . . . . . . . . . . 1.1.4 Srie statistique . . . . . . . . . . . . . . . . . . e 1.2 Variable qualitative nominale . . . . . . . . . . . . . . 1.2.1 Eectifs, frquences et tableau statistique . . . e 1.2.2 Diagramme en secteurs et diagramme en barres 1.3 Variable qualitative ordinale . . . . . . . . . . . . . . . 1.3.1 Le tableau statistique . . . . . . . . . . . . . . 1.3.2 Diagramme en secteurs . . . . . . . . . . . . . 1.3.3 Diagramme en barres des eectifs . . . . . . . . 1.3.4 Diagramme en barres des eectifs cumuls . . . e 1.4 Variable quantitative discr`te . . . . . . . . . . . . . . e 1.4.1 Le tableau statistique . . . . . . . . . . . . . . 1.4.2 Diagramme en btonnets des eectifs . . . . . a 1.4.3 Fonction de rpartition . . . . . . . . . . . . . e 1.5 Variable quantitative continue . . . . . . . . . . . . . . 1.5.1 Le tableau statistique . . . . . . . . . . . . . . 1.5.2 Histogramme . . . . . . . . . . . . . . . . . . . 1.5.3 La fonction de rpartition . . . . . . . . . . . . e 2 Statistique descriptive univarie e 2.1 Param`tres de position . . . . . . e 2.1.1 Le mode . . . . . . . . . . 2.1.2 La moyenne . . . . . . . . 2.1.3 Remarques sur le signe de 2.1.4 Moyenne gomtrique . . e e 2.1.5 Moyenne harmonique . . 2.1.6 Moyenne pondre . . . . ee 2.1.7 La mdiane . . . . . . . . e 2.1.8 Quantiles . . . . . . . . . 2.2 Param`tres de dispersion . . . . e 5 9 9 9 9 9 10 11 11 12 13 13 15 15 16 17 17 18 19 19 19 21 23 27 27 27 27 29 31 31 32 33 35 37

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . sommation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

` TABLE DES MATIERES 2.2.1 Ltendue . . . . . . . . . . . . . . . . . . . e 2.2.2 La distance interquartile . . . . . . . . . . . 2.2.3 La variance . . . . . . . . . . . . . . . . . . 2.2.4 Lcart-type . . . . . . . . . . . . . . . . . . e 2.2.5 Lcart moyen absolu . . . . . . . . . . . . . e 2.2.6 Lcart mdian absolu . . . . . . . . . . . . e e Moments . . . . . . . . . . . . . . . . . . . . . . . Param`tres de forme . . . . . . . . . . . . . . . . . e 2.4.1 Coecient dasymtrie de Fisher (skewness) e 2.4.2 Coecient dasymtrie de Yule . . . . . . . e 2.4.3 Coecient dasymtrie de Pearson . . . . . e Param`tre daplatissement (kurtosis) . . . . . . . . e Changement dorigine et dunit . . . . . . . . . . e Moyennes et variances dans des groupes . . . . . . Diagramme en tiges et feuilles . . . . . . . . . . . . La bo ` moustaches . . . . . . . . . . . . . . . . te a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 37 37 38 40 40 40 41 41 41 41 42 42 44 45 46 53 53 53 53 55 55 56 57 60 61 62 64 64 64 65 66 67 77 77 77 78 78 78 80 80 81 81 82

2.3 2.4

2.5 2.6 2.7 2.8 2.9

3 Statistique descriptive bivarie e 3.1 Srie statistique bivarie . . . . . . . . . . . . . . . e e 3.2 Deux variables quantitatives . . . . . . . . . . . . . 3.2.1 Reprsentation graphique de deux variables e 3.2.2 Analyse des variables . . . . . . . . . . . . . 3.2.3 Covariance . . . . . . . . . . . . . . . . . . 3.2.4 Corrlation . . . . . . . . . . . . . . . . . . e 3.2.5 Droite de rgression . . . . . . . . . . . . . e 3.2.6 Rsidus et valeurs ajustes . . . . . . . . . e e 3.2.7 Sommes de carrs et variances . . . . . . . e 3.2.8 Dcomposition de la variance . . . . . . . . e 3.3 Deux variables qualitatives . . . . . . . . . . . . . 3.3.1 Donnes observes . . . . . . . . . . . . . . e e 3.3.2 Tableau de contingence . . . . . . . . . . . 3.3.3 Tableau des frquences . . . . . . . . . . . . e 3.3.4 Prols lignes et prols colonnes . . . . . . . 3.3.5 Eectifs thoriques et khi-carr . . . . . . . e e 4 Thorie des indices, mesures dingalit e e e 4.1 Nombres indices . . . . . . . . . . . . . 4.2 Dnition . . . . . . . . . . . . . . . . . e 4.2.1 Proprits des indices . . . . . . ee 4.2.2 Indices synthtiques . . . . . . . e 4.2.3 Indice de Laspeyres . . . . . . . 4.2.4 Indice de Paasche . . . . . . . . . 4.2.5 Lindice de Fisher . . . . . . . . 4.2.6 Lindice de Sidgwick . . . . . . . 4.2.7 Indices cha nes . . . . . . . . . . 4.3 Mesures de lingalit . . . . . . . . . . e e

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

` TABLE DES MATIERES 4.3.1 4.3.2 4.3.3 4.3.4 4.3.5 4.3.6 4.3.7 Introduction . . . . . . . . . Courbe de Lorenz . . . . . . Indice de Gini . . . . . . . . . Indice de Hoover . . . . . . . Quintile et Decile share ratio Indice de pauvret . . . . . . e Indices selon les pays . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7 82 82 84 84 84 85 85 87 87 87 87 88 89 89 92 93 94 94 94 95 95 95 96 96 97 97 97 98 102 103 103 105 108 108 110 110 111 112 113 113 114 116 116 117 117

5 Calcul des probabilits et variables alatoires e e 5.1 Probabilits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e e 5.1.1 Evnement . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.2 Oprations sur les vnements . . . . . . . . . . . . . . e e e 5.1.3 Relations entre les vnements . . . . . . . . . . . . . . e e 5.1.4 Ensemble des parties dun ensemble et syst`me complet e 5.1.5 Axiomatique des Probabilits . . . . . . . . . . . . . . . e 5.1.6 Probabilits conditionnelles et indpendance . . . . . . e e 5.1.7 Thor`me des probabilits totales et thor`me de Bayes e e e e e 5.2 Analyse combinatoire . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Permutations (sans rptition) . . . . . . . . . . . . . . e e 5.2.3 Permutations avec rptition . . . . . . . . . . . . . . . e e 5.2.4 Arrangements (sans rptition) . . . . . . . . . . . . . . e e 5.2.5 Combinaisons . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Variables alatoires . . . . . . . . . . . . . . . . . . . . . . . . . e 5.3.1 Dnition . . . . . . . . . . . . . . . . . . . . . . . . . . e 5.4 Variables alatoires discr`tes . . . . . . . . . . . . . . . . . . . . e e 5.4.1 Dnition, esprance et variance . . . . . . . . . . . . . e e 5.4.2 Variable indicatrice ou bernoullienne . . . . . . . . . . . 5.4.3 Variable binomiale . . . . . . . . . . . . . . . . . . . . . 5.4.4 Variable de Poisson . . . . . . . . . . . . . . . . . . . . 5.5 Variable alatoire continue . . . . . . . . . . . . . . . . . . . . . e 5.5.1 Dnition, esprance et variance . . . . . . . . . . . . . e e 5.5.2 Variable uniforme . . . . . . . . . . . . . . . . . . . . . 5.5.3 Variable normale . . . . . . . . . . . . . . . . . . . . . . 5.5.4 Variable normale centre rduite . . . . . . . . . . . . . e e 5.5.5 Distribution exponentielle . . . . . . . . . . . . . . . . . 5.6 Distribution bivarie . . . . . . . . . . . . . . . . . . . . . . . . e 5.6.1 Cas continu . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.2 Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.3 Remarques . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.4 Indpendance de deux variables alatoires . . . . . . . . e e 5.7 Proprits des esprances et des variances . . . . . . . . . . . . ee e 5.8 Autres variables alatoires . . . . . . . . . . . . . . . . . . . . . e 5.8.1 Variable khi-carre . . . . . . . . . . . . . . . . . . . . . e 5.8.2 Variable de Student . . . . . . . . . . . . . . . . . . . . 5.8.3 Variable de Fisher . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8 5.8.4

` TABLE DES MATIERES Loi normale bivarie . . . . . . . . . . . . . . . . . . . . . 118 e

6 Sries temporelles, ltres, moyennes mobiles et dsaisonnalisation127 e e 6.1 Dnitions gnrales et exemples . . . . . . . . . . . . . . . . . . 127 e e e 6.1.1 Dnitions . . . . . . . . . . . . . . . . . . . . . . . . . . 127 e 6.1.2 Traitement des sries temporelles . . . . . . . . . . . . . . 128 e 6.1.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 6.2 Description de la tendance . . . . . . . . . . . . . . . . . . . . . . 133 6.2.1 Les principaux mod`les . . . . . . . . . . . . . . . . . . . 133 e 6.2.2 Tendance linaire . . . . . . . . . . . . . . . . . . . . . . . 134 e 6.2.3 Tendance quadratique . . . . . . . . . . . . . . . . . . . . 134 6.2.4 Tendance polynomiale dordre q . . . . . . . . . . . . . . 134 6.2.5 Tendance logistique . . . . . . . . . . . . . . . . . . . . . 134 6.3 Oprateurs de dcalage et de dirence . . . . . . . . . . . . . . . 136 e e e 6.3.1 Oprateurs de dcalage . . . . . . . . . . . . . . . . . . . 136 e e 6.3.2 Oprateur dirence . . . . . . . . . . . . . . . . . . . . . 136 e e 6.3.3 Dirence saisonni`re . . . . . . . . . . . . . . . . . . . . 138 e e 6.4 Filtres linaires et moyennes mobiles . . . . . . . . . . . . . . . . 140 e 6.4.1 Filtres linaires . . . . . . . . . . . . . . . . . . . . . . . . 140 e 6.4.2 Moyennes mobiles : dnition . . . . . . . . . . . . . . . . 140 e 6.4.3 Moyenne mobile et composante saisonni`re . . . . . . . . 141 e 6.5 Moyennes mobiles particuli`res . . . . . . . . . . . . . . . . . . . 143 e 6.5.1 Moyenne mobile de Van Hann . . . . . . . . . . . . . . . . 143 6.5.2 Moyenne mobile de Spencer . . . . . . . . . . . . . . . . . 143 6.5.3 Moyenne mobile de Henderson . . . . . . . . . . . . . . . 144 6.5.4 Mdianes mobiles . . . . . . . . . . . . . . . . . . . . . . . 145 e 6.6 Dsaisonnalisation . . . . . . . . . . . . . . . . . . . . . . . . . . 145 e 6.6.1 Mthode additive . . . . . . . . . . . . . . . . . . . . . . . 145 e 6.6.2 Mthode multiplicative . . . . . . . . . . . . . . . . . . . 145 e 6.7 Lissage exponentiel . . . . . . . . . . . . . . . . . . . . . . . . . . 147 6.7.1 Lissage exponentiel simple . . . . . . . . . . . . . . . . . . 147 6.7.2 Lissage exponentiel double . . . . . . . . . . . . . . . . . . 150 7 Tables statistiques 157

Chapitre 1

Variables, donnes e statistiques, tableaux, eectifs


1.1
1.1.1

Dnitions fondamentales e
La science statistique

Mthode scientique du traitement des donnes quantitatives. e e Etymologiquement : science de ltat. e La statistique sapplique ` la plupart des disciplines : agronomie, biologie, a dmographie, conomie, sociologie, linguistique, psychologie, . . . e e

1.1.2

Mesure et variable

On sintresse ` des units statistiques ou units dobservation : par exemple e a e e des individus, des entreprises, des mnages. En sciences humaines, on e sintresse dans la plupart des cas ` un nombre ni dunits. e a e Sur ces units, on mesure un caract`re ou une variable, le chire daaires e e de lentreprise, le revenu du mnage, lge de la personne, la catgorie soe a e cioprofessionnelle dune personne. On suppose que la variable prend toujours une seule valeur sur chaque unit. Les variables sont dsignes par e e e simplicit par une lettre (X, Y, Z). e Les valeurs possibles de la variable, sont appeles modalits. e e Lensemble des valeurs possibles ou des modalits est appel le domaine e e de la variable.

1.1.3

Typologie des variables

Variable qualitative : La variable est dite qualitative quand les modalits e 9

10CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS sont des catgories. e Variable qualitative nominale : La variable est dite qualitative nominale quand les modalits ne peuvent pas tre ordonnes. e e e Variable qualitative ordinale : La variable est dite qualitative ordinale quand les modalits peuvent tre ordonnes. Le fait de pouvoir ou non e e e ordonner les modalits est parfois discutable. Par exemple : dans les e catgories socioprofessionnelles, on admet dordonner les modalits : e e ouvriers, employs, cadres. Si on ajoute les modalits sans profese e sion, enseignant, artisan, lordre devient beaucoup plus discutable. Variable quantitative : Une variable est dite quantitative si toute ses valeurs possibles sont numriques. e Variable quantitative discr`te : Une variable est dite discr`te, si lene e semble des valeurs possibles est dnombrable. e Variable quantitative continue : Une variable est dite continue, si lensemble des valeurs possibles est continu. Remarque 1.1 Ces dnitions sont ` relativiser, lge est thoriquement e a a e une variable quantitative continue, mais en pratique, lge est mesur dans le a e meilleur des cas au jour pr`s. Toute mesure est limite en prcision ! e e e

Exemple 1.1 Les modalits de la variable sexe sont masculin (cod M) et e e fminin (cod F). Le domaine de la variable est {M, F }. e e

Exemple 1.2 Les modalits de la variable nombre denfants par famille sont e 0,1,2,3,4,5,. . .Cest une variable quantitative discr`te. e

1.1.4

Srie statistique e

On appelle srie statistique la suite des valeurs prises par une variable X sur e les units dobservation. e Le nombre dunits dobservation est not n. e e Les valeurs de la variable X sont notes e x1 , . . . , xi , . . . , xn . Exemple 1.3 On sintresse ` la variable tat-civil note X et ` la srie stae a e e a e tistique des valeurs prises par X sur 20 personnes. La codication est C: M: V: D: clibataire, e mari(e), e veuf(ve), divorce. e

1.2. VARIABLE QUALITATIVE NOMINALE

11

Le domaine de la variable X est {C, M, V, D}. Considrons la srie statistique e e suivante : M M D C C M C C C M C M V M V D C C C M Ici, n = 20, x1 = M, x2 = M, x3 = D, x4 = C, x5 = C, . . . ., x20 = M.

1.2
1.2.1

Variable qualitative nominale


Eectifs, frquences et tableau statistique e

Une variable qualitative nominale a des valeurs distinctes qui ne peuvent pas tre ordonnes. On note J le nombre de valeurs distinctes ou modalits. e e e Les valeurs distinctes sont notes x1 , . . . , xj , . . . , xJ . On appelle eectif dune e modalit ou dune valeur distincte, le nombre de fois que cette modalit (ou e e valeur distincte) appara On note nj leectif de la modalit xj . La frquence t. e e dune modalit est leectif divis par le nombre dunits dobservation. e e e fj = nj , j = 1, . . . , J. n

Exemple 1.4 Avec la srie de lexemple prcdent, on obtient le tableau stae e e tistique : xj C M V D nj 9 7 2 2 n = 20 fj 0.45 0.35 0.10 0.10 1

12CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS En langage R

>X=c(Mari(e),Mari(e),Divorc(e),Clibataire,Clibataire,Mari(e),Cli e e e e e e e Clibataire,Clibataire,Mari(e),Clibataire,Mari(e),Veuf(ve),Mar e e e e e Veuf(ve),Divorc(e),Clibataire,Clibataire,Clibataire,Mari(e)) e e e e e > T1=table(X) > V1=c(T1) > data.frame(Eff=V1,Freq=V1/sum(V1)) Eff Freq Clibataire e 9 0.45 Divorc(e) e 2 0.10 Mari(e) e 7 0.35 Veuf(ve) 2 0.10

1.2.2

Diagramme en secteurs et diagramme en barres

Le tableau statistique dune variable qualitative nominale peut tre reprsent e e e par deux types de graphique. Les eectifs sont reprsents par un diagramme e e en barres et les frquences par un diagramme en secteurs (ou camembert ou e piechart en anglais) (voir Figures 1.1 et 1.2).
Clibataire

Divorc(e) Veuf(ve)

Mari(e)

Figure 1.1 Diagramme en secteurs des frquences e

En langage R > pie(T1,radius=1.0)

1.3. VARIABLE QUALITATIVE ORDINALE


10

13

Clibataire

Divorc(e)

Mari(e)

Veuf(ve)

Figure 1.2 Diagramme en barres des eectifs En langage R >m=max(V1) >barplot(T1, ylim=c(0,m+1))

1.3
1.3.1

Variable qualitative ordinale


Le tableau statistique

Les valeurs distinctes dune variable ordinale peuvent tre ordonnes, ce e e quon crit e x1 x2 xj1 xj xJ1 xJ . La notation x1 x2 se lit x1 prc`de x2 . e e Si la variable est ordinale, on peut calculer les eectifs cumuls : e Nj =
j k=1

nk , j = 1, . . . , J.

On a N1 = n1 et NJ = n. On peut galement calculer les frquences cumules e e e Fj = Nj = fk , j = 1, . . . , J. n


j k=1

Exemple 1.5 On interroge 50 personnes sur leur dernier diplme obtenu (vao riable Y ). La codication a t faite selon le Tableau 1.1. On a obtenu la srie ee e

14CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS

Table 1.1 Codication de la variable Y Dernier diplme obtenu o Sans diplme o Primaire Secondaire Suprieur non-universitaire e Universitaire xj Sd P Se Su U

Table 1.2 Srie statistique de la variable Y e Sd Se Su Sd Se Su Sd Se Su Sd Se Su P Se U P Se U P Se U P Se U P Se U P Se U P Se U P Se U P Su U P Su U P Su U Se Su U Se Su

Table 1.3 Tableau statistique complet xj Sd P Se Su U nj 4 11 14 9 12 50 Nj 4 15 29 38 50 fj 0.08 0.22 0.28 0.18 0.24 1.00 Fj 0.08 0.30 0.58 0.76 1.00

statistique prsente dans le tableau 1.2. Finalement, on obtient le tableau stae e tistique complet prsent dans le Tableau 1.3. e e En langage R > YY=c("Sd","Sd","Sd","Sd","P","P","P","P","P","P","P","P","P","P","P", "Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se", "Su","Su","Su","Su","Su","Su","Su","Su","Su", "U","U","U","U","U","U","U","U","U","U","U","U") YF=factor(YY,levels=c("Sd","P","Se","Su","U")) T2=table(YF) V2=c(T2) > data.frame(Eff=V2,EffCum=cumsum(V2),Freq=V2/sum(V2),FreqCum=cumsum(V2/sum(V2))) Eff EffCum Freq FreqCum Sd 4 4 0.08 0.08

1.3. VARIABLE QUALITATIVE ORDINALE P Se Su U 11 14 9 12 15 29 38 50 0.22 0.28 0.18 0.24 0.30 0.58 0.76 1.00

15

1.3.2

Diagramme en secteurs

Les frquences dune variable qualitative ordinale sont reprsentes au moyen e e e dun diagramme en secteurs (voir Figure 1.3).
P

Se Sd

U Su

Figure 1.3 Diagramme en secteurs des frquences e En langage R > pie(T2,radius=1)

1.3.3

Diagramme en barres des eectifs

Les eectifs dune variable qualitative ordinale sont reprsents au moyen e e dun diagramme en barres (voir Figure 1.4). En langage R > barplot(T2)

16CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS


14 0 2 4 6 8 10 12

Sd

Se

Su

Figure 1.4 Diagramme en barres des eectifs

1.3.4

Diagramme en barres des eectifs cumuls e

Les eectifs cumuls dune variable qualitative ordinale sont reprsents au e e e moyen dun diagramme en barres (voir Figure 1.5).
50 0 10 20 30 40

Sd

Se

Su

Figure 1.5 Diagramme en barres des eectifs cumuls e

` 1.4. VARIABLE QUANTITATIVE DISCRETE En langage R > T3=cumsum(T2) > barplot(T3)

17

1.4
1.4.1

Variable quantitative discr`te e


Le tableau statistique

Une variable discr`te a un domaine dnombrable. e e Exemple 1.6 Un quartier est compos de 50 mnages, et la variable Z reprsente e e e le nombre de personnes par mnage. Les valeurs de la variable sont e 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 3 3 4 5 2 3 3 4 6 2 3 3 4 6 2 3 3 4 6 2 3 3 4 8 2 3 4 5 8

Comme pour les variables qualitatives ordinales, on peut calculer les eectifs, ` les eectifs cumuls, les frquences, les frquences cumules. A nouveau, on peut e e e e construire le tableau statistique : xj 1 2 3 4 5 6 8 nj 5 9 15 10 6 3 2 50 Nj 5 14 29 39 45 48 50 fj 0.10 0.18 0.30 0.20 0.12 0.06 0.04 1.0 Fj 0.10 0.28 0.58 0.78 0.90 0.96 1.00

En langage R > + > > > Z=c(1,1,1,1,1,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,4, 4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,6,6,6,8,8) T4=table(Z) T4c=c(T4) data.frame(Eff=T4c,EffCum=cumsum(T4c),Freq=T4c/sum(T4c),FreqCum=cumsum(T4c/sum(T4c))) Eff EffCum Freq FreqCum

18CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS 1 2 3 4 5 6 8 5 9 15 10 6 3 2 5 14 29 39 45 48 50 0.10 0.18 0.30 0.20 0.12 0.06 0.04 0.10 0.28 0.58 0.78 0.90 0.96 1.00

1.4.2

Diagramme en btonnets des eectifs a

Quand la variable est discr`te, les eectifs sont reprsents par des btonnets e e e a (voir Figure 1.6).

0 1

10

15

Figure 1.6 Diagramme en btonnets des eectifs pour une variable quantia tative discr`te e

En langage R > plot(T4,type="h",xlab="",ylab="",main="",frame=0,lwd=3)

1.5. VARIABLE QUANTITATIVE CONTINUE

19

1.4.3

Fonction de rpartition e

Les frquences cumules sont reprsentes au moyen de la fonction de rpartition. e e e e e Cette fonction, prsente en Figure 1.7,est dnie de R dans [0, 1] et vaut : e e e x < x1 0 Fj xj x < xj+1 F (x) = 1 xJ x.

0.0 0

0.2

0.4

0.6

0.8

1.0

Figure 1.7 Fonction de rpartition dune variable quantitative discr`te e e En langage R > plot(ecdf(Z),xlab="",ylab="",main="",frame=0)

1.5
1.5.1

Variable quantitative continue


Le tableau statistique

Une variable quantitative continue peut prendre une innit de valeurs pose sibles. Le domaine de la variable est alors R ou un intervalle de R. En pratique, une mesure est limite en prcision. La taille peut tre mesure en centim`tres, e e e e e voire en millim`tres. On peut alors traiter les variables continues comme des e variables discr`tes. Cependant, pour faire des reprsentations graphiques et e e

20CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS construire le tableau statistique, il faut procder ` des regroupements en classes. e a Le tableau regroup en classe est souvent appel distribution groupe. Si [c ; c+ [ e e e j j designe la classe j, on note, de mani`re gnrale : e e e c la borne infrieure de la classe j, e j + cj la borne suprieure de la classe j, e cj = (c+ + c )/2 le centre de la classe j, j j aj = c+ c lamplitude de la classe j, j j nj leectif de la classe j, Nj leectif cumul de la classe j, e fj la frquence de la classe j, e Fj la frquence cumule de la classe j. e e

La rpartition en classes des donnes ncessite de dnir a priori le nombre e e e e de classes J et donc lamplitude de chaque classe. En r`gle gnrale, on choisit e e e au moins cinq classes de mme amplitude. Cependant, il existent des formules e qui nous permettent dtablir le nombre de classes et lintervalle de classe (lame plitude) pour une srie statistique de n observations. e La r`gle de Sturge : J = 1 (3.3 log10 (n)). e + La r`gle de Yule : J = 2.5 4 n. e Lintervalle de classe est obtenue ensuite de la mani`re suivante : longueur e de lintervalle = (xmax xmin )/J, o` xmax (resp. xmin ) dsigne la plus grande u e (resp. la plus petite) valeur observe. e

Remarque 1.2 Il faut arrondir le nombre de classe J ` lentier le plus proche. a Par commodit, on peut aussi arrondir la valeur obtenue de lintervalle de classe. e A partir de la plus petite valeur observe, on obtient les bornes de classes e en additionnant successivement lintervalle de classe (lamplitude).

Exemple 1.7 On mesure la taille en centimetres de 50 l`ves dune classe : ee 152 154 156 157 159 161 162 164 168 170 152 154 156 157 159 160 162 164 168 171 152 154 156 157 160 160 163 165 168 171 153 155 156 158 160 161 164 166 169 171 153 155 156 158 160 162 164 167 169 171

1.5. VARIABLE QUANTITATIVE CONTINUE

21

On a les classes de tailles dnies prablement comme il suit : e e [151, 5; 155, 5[ [155, 5; 159, 5[ [159, 5; 163, 5[ [163, 5; 167, 5[ [167, 5; 171, 5[ On construit le tableau statistique. [c , c+ ] j j [151, 5; 155, 5[ [155, 5; 159, 5[ [159, 5; 163, 5[ [163, 5; 167, 5[ [167, 5; 171, 5[ nj 10 12 11 7 10 50 Nj 10 22 33 40 50 fj 0.20 0.24 0.22 0.14 0.20 1.00 Fj 0.20 0.44 0.66 0.80 1.00

En langage R > S=c(152,152,152,153,153,154,154,154,155,155,156,156,156,156,156, + 157,157,157,158,158,159,159,160,160,160,161,160,160,161,162, + 162,162,163,164,164,164,164,165,166,167,168,168,168,169,169, + 170,171,171,171,171) > T5=table(cut(S, breaks=c(151,155,159,163,167,171))) > T5c=c(T5) > data.frame(Eff=T5c,EffCum=cumsum(T5c),Freq=T5c/sum(T5c),FreqCum=cumsum(T5c/sum(T5c))) Eff EffCum Freq FreqCum (151,155] 10 10 0.20 0.20 (155,159] 12 22 0.24 0.44 (159,163] 11 33 0.22 0.66 (163,167] 7 40 0.14 0.80 (167,171] 10 50 0.20 1.00

1.5.2

Histogramme

Lhistogramme consiste ` reprsenter les eectifs (resp. les frquences) des a e e classes par des rectangles contigus dont la surface (et non la hauteur) reprsente e leectif (resp. la frquence). Pour un histogramme des eectifs, la hauteur du e rectangle correspondant ` la classe j est donc donne par : a e hj = On appelle hj la densit deectif. e nj aj

22CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS Laire de lhistogramme est gale ` leectif total n, puisque laire de e a chaque rectangle est gale ` leectif de la classe j : aj hj = nj . e a Pour un histogramme des frquences on a e dj = fj aj

On appelle dj la densit de frquence. e e Laire de lhistogramme est gale ` 1, puisque laire de chaque rectangle e a est gale ` la frquence de la classe j : aj dj = fj . e a e Figure 1.8 reprsente lhistogramme des frquences de lexemple prcedent : e e e
0.06 0.00 151.5 0.02 0.04

155.5

159.5

163.5

167.5

171.5

Figure 1.8 Histogramme des frquences e

En langage R > hist(S,breaks=c(151.5,155.5,159.5,163.5,167.5,171.5), freq=FALSE, xlab="",ylab="",main="",xaxt = "n") > axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))

Si les deux derni`res classes sont agrges, comme dans la Figure 1.9, la e e e surface du dernier rectangle est gale ` la surface des deux derniers rectangles e a de lhistogramme de la Figure 1.8. En langage R > hist(S,breaks=c(151.5,155.5,159.5,163.5,171.5), xlab="",ylab="",main="",xaxt = "n") > axis(1, c(151.5,155.5,159.5,163.5,171.5))

1.5. VARIABLE QUANTITATIVE CONTINUE


0.06

23

0.00 151.5

0.02

0.04

155.5

159.5

163.5

171.5

Figure 1.9 Histogramme des frquences avec les deux derni`res classes e e agrges e e Remarque 1.3 Dans le cas de classes de mme amplitude certains auteurs e et logiciels reprsentent lhistogramme avec les eectifs (resp. les frquences) e e reports en ordonne, laire de chaque rectangle tant proportionnelle ` leectif e e e a (resp. la frquence) de la classe. e

1.5.3

La fonction de rpartition e

La fonction de rpartition F (x) est une fonction de R dans [0, 1], qui est e dnie par e x < c 0 1 fj Fj1 + c+ c (x cj ) c x < c+ F (x) = j j j j 1 c+ x J

24CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS

Figure 1.10 Fonction de rpartition dune distribution groupe e e


0.0 0.2 0.4 0.6 0.8 1.0

151.5

155.5

159.5

163.5

167.5

171.5

1.5. VARIABLE QUANTITATIVE CONTINUE En langage R > > > > y=c(0,0,cumsum(T5c/sum(T5c)),1) x=c(148,151.5,155.5,159.5,163.5,167.5,171.5,175) plot(x,y,type="b",xlab="",ylab="",xaxt = "n") axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))

25

26CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS

Chapitre 2

Statistique descriptive univarie e


2.1
2.1.1

Param`tres de position e
Le mode

Le mode est la valeur distincte correspondant ` leectif le plus lev ; il est a e e not xM . e Si on reprend la variable Etat civil , dont le tableau statistique est le suivant : xj nj fj C 9 0.45 M 7 0.35 V 2 0.10 D 2 0.10 n = 20 1 le mode est C : clibataire. e Remarque 2.1 Le mode peut tre calcul pour tous les types de variable, quantitative et e e qualitative. Le mode nest pas ncessairement unique. e Quand une variable continue est dcoupe en classes, on peut dnir une e e e classe modale (classe correspondant ` leectif le plus lev). a e e

2.1.2

La moyenne

La moyenne ne peut tre dnie que sur une variable quantitative. e e 27

28

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

La moyenne est la somme des valeurs observes divise par leur nombre, elle e e est note x : e x1 + x2 + + xi + + xn 1 xi . x= = n n i=1
n

La moyenne peut tre calcule ` partir des valeurs distinctes et des eectifs e e a x= 1 n j xj . n j=1
J

Exemple 2.1 Les nombres denfants de 8 familles sont les suivants 0, 0, 1, 1, 1, 2, 3, 4. La moyenne est x= 0+0+1+1+1+2+3+4 12 = = 1.5. 8 8

On peut aussi faire les calculs avec les valeurs distinctes et les eectifs. On consid`re le tableau : e xj nj 0 2 1 3 2 1 3 1 4 1 8

x =

20+31+12+13+14 8 3+2+3+4 = 8 = 1.5.

Remarque 2.2 La moyenne nest pas ncessairement une valeur possible. e En langage R E=c(0,0,1,1,1,2,3,4) n=length(E) xb=sum(E)/n xb xb=mean(E) xb

` 2.1. PARAMETRES DE POSITION

29

2.1.3

Remarques sur le signe de sommation


n i=1

Dnition 2.1 e

xi = x1 + x2 + + xn .

1. En statistique les xi sont souvent les valeurs observes. e n n 2. Lindice est muet : xi = xj .
i=1 j=1

3. Quand il ny a pas de confusion possible, on peut crire e Exemple 2.2 1.


4 i=1

xi .

xi = x1 + x2 + x3 + x4 .

2.

5 i=3

xi2 = x32 + x42 + x52 .

3.

3 i=1

i = 1 + 2 + 3 = 6.

4. On peut utiliser plusieurs sommations embo ees, mais il faut bien distint guer les indices :
3 2 i=1 j=1

xij

= x11 + x12 + x21 + x22 + x31 + x32

(i = 1) (i = 2) (i = 3)

5. On peut exclure une valeur de lindice.


5
i=1 i=3

xi = x1 + x2 + x4 + x5 .

Proprit 2.1 e e 1. Somme dune constante


n i=1

a = a + a + + a = na
n

(a constante).

fois

30 Exemple

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

5 i=1

3 = 3 + 3 + 3 + 3 + 3 = 5 3 = 15.

2. Mise en vidence e
n i=1

axi = a

n i=1

xi

(a constante).

Exemple
3 i=1

2 i = 2(1 + 2 + 3) = 2 6 = 12.

3. Somme des n premiers entiers


n i=1

i = 1 + 2 + 3 + + n =

n(n + 1) . 2

4. Distribution
n i=1

(xi + yi ) =

n i=1

xi +

n i=1

yi .

5. Distribution
n i=1

(xi yi ) =

n i=1

xi

n i=1

yi .

Exemple (avec x =
n i=1

1 xi ) n i=1
n n i=1

(xi x) =

xi

n i=1

x=n

1 xi n = n n = 0. x x x n i=1
n

6. Somme de carrs e
n i=1

(xi yi )2 =

n i=1

2 (x2 2xi yi + yi ) = i

n i=1

x2 2 i

n i=1

xi y i +

n i=1

2 yi .

Cest une application de la formule (a b)2 = a2 2ab + b2 .

` 2.1. PARAMETRES DE POSITION

31

2.1.4

Moyenne gomtrique e e

Si xi 0, on appelle moyenne gomtrique la quantit e e e ( n )1/n 1/n xi = (x1 x2 xn ) . G=


i=1

On peut crire la moyenne gomtrique comme lexponentielle de la moyenne e e e arithmtique des logarithmes des valeurs observes e e ( n )1/n n n 1 1 G = exp log G = exp log xi = exp xi = exp log log xi . n n i=1 i=1 i=1 La moyenne gomtrique sutilise, par exemple, quand on veut calculer la moyenne e e de taux dintrt. ee Exemple 2.3 Supposons que les taux dintrt pour 4 annes conscutives ee e e soient respectivement de 5, 10, 15, et 10%. Que va-t-on obtenir apr`s 4 ans si je e place 100 francs ? Apr`s 1 an on a, 100 1.05 = 105 Fr. e Apr`s 2 ans on a, 100 1.05 1.1 = 115.5 Fr. e Apr`s 3 ans on a, 100 1.05 1.1 1.15 = 132.825 Fr. e Apr`s 4 ans on a, 100 1.05 1.1 1.15 1.1 = 146.1075 Fr. e Si on calcule la moyenne arithmtique des taux on obtient e 1.05 + 1.10 + 1.15 + 1.10 = 1.10. 4 Si on calcule la moyenne gomtrique des taux, on obtient e e x= G = (1.05 1.10 1.15 1.10)
1/4

= 1.099431377.

Le bon taux moyen est bien G et non x, car si on applique 4 fois le taux moyen G aux 100 francs, on obtient 100 Fr G4 = 100 1.0994313774 = 146.1075 Fr.

2.1.5

Moyenne harmonique

Si xi 0, on appelle moyenne harmonique la quantit e n H = n . i=1 1/xi Il est judicieux dappliquer la moyenne harmonique sur des vitesses. Exemple 2.4 Un cycliste parcourt 4 tapes de 100km. Les vitesses respectives e pour ces tapes sont de 10 km/h, 30 km/h, 40 km/h, 20 km/h. Quelle a t sa e ee vitesse moyenne ?

32

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE Un raisonnement simple nous dit quil a parcouru la premi`re tape en e e 10h, la deuxi`me en 3h20 la troisi`me en 2h30 et la quatri`me en 5h. Il a e e e donc parcouru le total des 400km en 10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h, sa vitesse moyenne est donc Moy = 400 = 19.2 km/h. 20.8333

Si on calcule la moyenne arithmtique des vitesses, on obtient e x= 10 + 30 + 40 + 20 = 25 km/h. 4

Si on calcule la moyenne harmonique des vitesses, on obtient H=


1 10

1 30

4 +

1 40

1 20

= 19.2 km/h.

La moyenne harmonique est donc la mani`re approprie de calculer la e e vitesse moyenne.

Remarque 2.3 Il est possible de montrer que la moyenne harmonique est toujours infrieure ou gale ` la moyenne gomtrique qui est toujours infrieure e e a e e e ou gale ` la moyenne arithmtique e a e H G x.

2.1.6

Moyenne pondre e e

Dans certains cas, on naccorde pas le mme poids ` toutes les observations. e a Par exemple, si on calcule la moyenne des notes pour un programme dtude, on e peut pondrer les notes de ltudiant par le nombre de crdits ou par le nombre e e e dheures de chaque cours. Si wi > 0, i = 1, . . . , n sont les poids associs ` chaque e a observation, alors la moyenne pondre par wi est dnie par : ee e n i=1 wi xi xw = n . i=1 wi Exemple 2.5 Supposons que les notes soient pondres par le nombre de ee crdits, et que les notes de ltudiant soient les suivantes : e e

` 2.1. PARAMETRES DE POSITION Note Crdits e 5 6 4 3 3 4 6 3 5 4

33

La moyenne pondre des notes par les crdits est alors ee e xw = 65+34+43+36+45 30 + 12 + 12 + 18 + 20 92 = = = 4.6. 6+3+4+3+4 20 20

2.1.7

La mdiane e

La mdiane, note x1/2 , est une valeur centrale de la srie statistique obtenue e e e de la mani`re suivante : e On trie la srie statistique par ordre croissant des valeurs observes. Avec e e la srie observe : e e 3 2 1 0 0 1 2, on obtient : 0 0 1 1 2 2 3. La mdiane x1/2 est la valeur qui se trouve au milieu de la srie ordonne : e e e 0 0 1 1 2 2 3.

On note alors x1/2 = 1. Nous allons examiner une mani`re simple de calculer la mdiane. Deux cas e e doivent tre distingus. e e Si n est impair, il ny a pas de probl`me (ici avec n = 7), alors x1/2 = 1 : e 0 0 1 1 2 2 3.

La Figure 2.1 montre la fonction de rpartition de la srie. La mdiane e e e peut tre dnie comme linverse de la fonction de rpartition pour la e e e valeur 1/2 : x1/2 = F 1 (0.5). En langage R x=c(0 , 0 , 1 , 1 , 2 , 2 , 3) median(x) plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n") axis(2, c(0.0,0.25,0.50,0.75,1.00)) arrows(-1,0.5,1,0.50,length=0.14,col="blue") arrows(1,0.50,1,0,length=0.14,col="blue")

34

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

Figure 2.1 Mdiane quand n est impair e


1.00 0.00 1 0.50

Si n est pair, deux valeurs se trouvent au milieu de la srie (ici avec n = 8) e 0 0 1 1 2 2 3 4

La mdiane est alors la moyenne de ces deux valeurs : e x1/2 = 1+2 = 1.5. 2

La Figure 2.2 montre la fonction de rpartition de la srie de taille paire. e e La mdiane peut toujours tre dnie comme linverse de la fonction de e e e rpartition pour la valeur 1/2 : e x1/2 = F 1 (0.5). Cependant, la fonction de rpartition est discontinue par palier. Linverse e de la rpartition correspond exactement ` un palier. e a Figure 2.2 Mdiane quand n est pair e
1.00 0.00 1 0.50

En langage R

` 2.1. PARAMETRES DE POSITION x=c(0 , 0 , 1 , 1 , 2 , 2 , 3 , 4) median(x) plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n") axis(2, c(0.0,0.25,0.50,0.75,1.00)) arrows(-1,0.5,1,0.50,length=0.14,col="blue") arrows(1.5,0.50,1.5,0,,length=0.14,col="blue") En gnral on note e e x(1) , . . . , x(i) , . . . , x(n)

35

la srie ordonne par ordre croissant. On appelle cette srie ordonne la statise e e e tique dordre. Cette notation, tr`s usuelle en statistique, permet de dnir la e e mdiane de mani`re tr`s synthtique. e e e e Si n est impair x1/2 = x( n+1 )
2

Si n est pair x1/2 =

} 1{ x( n ) + x( n +1) . 2 2 2

Remarque 2.4 La mdiane peut tre calcule sur des variables quantitatives e e e et sur des variables qualitatives ordinales.

2.1.8

Quantiles

La notion de quantile dordre p (o` 0 < p < 1) gnralise la mdiane. u e e e Formellement un quantile est donn par linverse de la fonction de rpartition : e e xp = F 1 (p). Si la fonction de rpartition tait continue et strictement croissante, la dnition e e e du quantile serait sans quivoque. La fonction de rpartition est cependant dise e continue et par palier. Quand la fonction de rpartition est par palier, il existe e au moins 9 mani`res direntes de dnir les quantiles selon que lon fasse ou e e e non une interpolation de la fonction de rpartition. Nous prsentons une de ces e e mthodes, mais il ne faut pas stonner de voir les valeurs des quantiles direr e e e lg`rement dun logiciel statistique ` lautre. e e a Si np est un nombre entier, alors xp = } 1{ x(np) + x(np+1) . 2

Si np nest pas un nombre entier, alors xp = x(np) , o` np reprsente le plus petit nombre entier suprieur ou gal ` np. u e e e a

36

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

Remarque 2.5 La mdiane est le quantile dordre p = 1/2. e On utilise souvent x1/4 le premier quartile, x3/4 le troisi`me quartile, e x1/10 le premier dcile , e x1/5 le premier quintile, x4/5 le quatri`me quintile, e x9/10 le neuvi`me dcile, e e x0.05 le cinqui`me percentile , e x0.95 le nonante-cinqui`me percentile. e Si F (x) est la fonction de rpartition, alors F (xp ) p. e

Exemple 2.6 Soit la srie statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28, e 34 contenant 12 observations (n = 12). Le premier quartile : Comme np = 0.25 12 = 3 est un nombre entier, on a x(3) + x(4) 15 + 16 x1/4 = = = 15.5. 2 2 La mdiane : Comme np = 0.5 12 = 6 est un nombre entier, on a e x1/2 = } 1{ x(6) + x(7) = (19 + 22)/2 = 20.5. 2

Le troisi`me quartile : Comme np = 0.75 12 = 9 est un nombre entier, e on a x(9) + x(10) 25 + 27 x3/4 = = = 26. 2 2

En langage R x=c(12,13,15,16,18,19,22,24,25,27,28,34) quantile(x,type=2)

Exemple 2.7 Soit la srie statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27 e contenant 10 observations (n = 10). Le premier quartile : Comme np = 0.25 10 = 2.5 nest pas un nombre entier, on a x1/4 = x(2.5) = x(3) = 15.

` 2.2. PARAMETRES DE DISPERSION La mdiane : Comme np = 0.5 10 = 5 est un nombre entier, on a e x1/2 = } 1{ x(5) + x(6) = (18 + 19)/2 = 18.5. 2

37

Le troisi`me quartile : Comme np = 0.75 10 = 7.5 nest pas un nombre e entier, on a x3/4 = x(7.5) = x(8) = 24.

En langage R x=c(12,13,15,16,18,19,22,24,25,27) quantile(x,type=2)

2.2
2.2.1

Param`tres de dispersion e
Ltendue e

Ltendue est simplement la dirence entre la plus grande et la plus petite e e valeur observe. e E = x(n) x(1) .

2.2.2

La distance interquartile

La distance interquartile est la dirence entre le troisi`me et le premier e e quartile : IQ = x3/4 x1/4 .

2.2.3

La variance

La variance est la somme des carrs des carts ` la moyenne divise par le e e a e nombre dobservations : n 1 s2 = (xi x)2 . x n i=1 Thor`me 2.1 La variance peut aussi scrire e e e s2 = x 1 2 x x2 . n i=1 i
n

(2.1)

38

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

Dmonstration e s2 x = = = 1 2 1 (xi x)2 = (x 2xi x + x2 ) n i=1 n i=1 i


n n

1 1 2 1 2 1 1 2 xi 2 xi x + x = xi 2 x xi + x2 n i=1 n i=1 n i=1 n i=1 n i=1


n n n n n

1 2 1 2 xi 2x + x2 = x x x2 . n i=1 n i=1 i
n n

2 La variance peut galement tre dnie ` partir des eectifs et des valeurs e e e a distinctes : J 1 s2 = nj (xj x)2 . x n j=1 La variance peut aussi scrire e s2 = x 1 n j x2 x2 . j n j=1
J

Quand on veut estimer une variance dune variable X ` partir dun chantillon a e (une partie de la population slectionne au hasard) de taille n, on utilise la vae e riance corrige divise par n 1. e e
2 Sx =

1 n (xi x)2 = s2 . x n 1 i=1 n1


n

2 La plupart des logiciels statistiques calculent Sx et non s2 . x

2.2.4

Lcart-type e

Lcart-type est la racine carre de la variance : e e sx = s2 . x Quand on veut estimer lcart-type dune variable X partir dun chantillon e e de taille n, utilise la variance corrige pour dnir lcart type e e e n 2 =s Sx = Sx . x n1 La plupart des logiciels statistiques calculent Sx et non sx . Exemple 2.8 Soit la srie statistique 2, 3, 4, 4, 5, 6, 7, 9 de taille 8. On a e x= 2+3+4+4+5+6+7+9 = 5, 8

` 2.2. PARAMETRES DE DISPERSION s2 x 1 (xi x)2 n i=1


n

39

= =

] 1[ (2 5)2 + (3 5)2 + (4 5)2 + (4 5)2 + (5 5)2 + (6 5)2 + (7 5)2 + (9 5)2 8 1 = [9 + 4 + 1 + 1 + 0 + 1 + 4 + 16] 8 36 = 8 = 4.5.

On peut galement utiliser la formule (2.1) de la variance, ce qui ncessite moins e e de calcul (surtout quand la moyenne nest pas un nombre entier). s2 x = = 1 2 x x2 n i=1 i
n

1 2 (2 + 32 + 42 + 42 + 52 + 62 + 72 + 92 ) 52 8 1 = (4 + 9 + 16 + 16 + 25 + 36 + 49 + 81) 25 8 236 = 25 8 = 29.5 25 = 4.5.

En langage R > x=c(2,3,4,4,5,6,7,9) > n=length(x) > s2=sum((x-mean(x))^2)/n > s2 [1] 4.5 > S2=s2*n/(n-1) > S2 [1] 5.142857 > S2=var(x) > S2 [1] 5.142857 > s=sqrt(s2) > s [1] 2.121320 > S=sqrt(S2) > S [1] 2.267787 > S=sd(x)

40

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

> S [1] 2.267787 > E=max(x)-min(x) > E [1] 7

2.2.5

Lcart moyen absolu e

Lcart moyen absolu est la somme des valeurs absolues des carts ` la e e a moyenne divise par le nombre dobservations : e emoy 1 = |xi x| . n i=1
n

2.2.6

Lcart mdian absolu e e

Lcart mdian absolu est la somme des valeurs absolues des carts ` la e e e a mdiane divise par le nombre dobservations : e e emed = 1 xi x1/2 . n i=1
n

2.3

Moments
1 r x . n i=1 i
n

Dnition 2.2 On appelle moment ` lorigine dordre r N le param`tre e a e m = r

Dnition 2.3 On appelle moment centr dordre r N le param`tre e e e mr = 1 (xi x)r . n i=1
n

Les moments gnralisent la plupart des param`tres. On a en particulier e e e m = x, 1 m1 = 0, 1 2 m = x = s2 + x2 , 2 x n i i m2 = s2 . x Nous verrons plus loin que des moments dordres suprieurs (r=3,4) sont utiliss e e pour mesurer la symtrie et laplatissement. e

` 2.4. PARAMETRES DE FORME

41

2.4
2.4.1

Param`tres de forme e
Coecient dasymtrie de Fisher (skewness) e
1 (xi x)3 . n i=1
n

Le moment centr dordre trois est dni par e e m3 =

Il peut prendre des valeurs positives, ngatives ou nulles. Lasymtrie se mesure e e au moyen du coecient dasymtrie de Fisher e g1 = o` s3 est le cube de lcart-type. u x e m3 , s3 x

2.4.2

Coecient dasymtrie de Yule e

Le coecient dasymtrie de Yule est bas sur les positions des 3 quartiles e e (1er quartile, mdiane et troisi`me quartile), et est normalis par la distance e e e interquartile : x3/4 + x1/4 2x1/2 AY = . x3/4 x1/4

2.4.3

Coecient dasymtrie de Pearson e

Le coecient dasymtrie de Pearson est bas sur une comparaison de la e e moyenne et du mode, et est standardis par lcart-type : e e AP = x xM . sx

Tous les coecients dasymtrie ont les mmes proprits, ils sont nuls si la e e ee distribution est symtrique, ngatifs si la distribution est allonge ` gauche (left e e e a asymmetry), et positifs si la distribution est allonge ` droite (right asymmetry) e a comme montr dans la Figure 2.3. e

Figure 2.3 Asymtrie dune distribution e

42

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

Remarque 2.6 Certaines variables sont toujours tr`s asymtriques ` droite, e e a comme les revenus, les tailles des entreprises, ou des communes. Une mthode e simple pour rendre une variable symtrique consiste alors ` prendre le logae a rithme de cette variable.

2.5

Param`tre daplatissement (kurtosis) e


2 = m4 , s4 x

Laplatissement est mesur par le coecient daplatissement de Pearson e

ou le coecient daplatissement de Fisher g2 = 2 3 = m4 3, s4 x

o` m4 est le moment centr dordre 4, et s4 est le carr de la variance. u e e x Une courbe msokurtique si g2 0. e Une courbe leptokurtique si g2 > 0. Elle est plus pointue et poss`de des e queues plus longues. Une courbe platykurtique si g2 < 0. Elle est plus arrondie et poss`de des e queues plus courtes. Dans la Figure 2.4, on prsente un exemple de deux distributions de mme e e moyenne et de mme variance. La distribution plus pointue est leptokurtique, e lautre est msokurtique. La distribution leptokurtique a une queue plus paisse. e e
0.6 0.5 0.0125 0.4 0.3 0.2 0.1 -4 -2 2 4 0.01 0.0075 0.005 0.0025 2.6 2.8 3.2 3.4 3.6 3.8 4 0.0175 0.015

Figure 2.4 Distributions msokurtique et leptokurtique e

2.6

Changement dorigine et dunit e

Dnition 2.4 On appelle changement dorigine lopration consistant ` ajoue e a ter (ou soustraire) la mme quantit a R ` toutes les observations e e a yi = a + xi , i = 1, . . . , n

2.6. CHANGEMENT DORIGINE ET DUNITE

43

Dnition 2.5 On appelle changement dunit lopration consistant ` multie e e a plier (ou diviser) par la mme quantit b R toutes les observations e e yi = bxi , i = 1, . . . , n. Dnition 2.6 On appelle changement dorigine et dunit lopration consise e e tant ` multiplier toutes les observations par la mme quantit b R puis ` a e e a ajouter la mme quantit a R ` toutes les observations : e e a yi = a + bxi , i = 1, . . . , n. Thor`me 2.2 Si on eectue un changement dorigine et dunit sur une vae e e riable X, alors sa moyenne est aecte du mme changement dorigine et dunit. e e e Dmonstration Si yi = a + bxi , alors e y= 1 1 (a + bxi ) = a + b xi = a + b. x n i=1 n i=1
n n

2 Thor`me 2.3 Si on eectue un changement dorigine et dunit sur une vae e e riable X, alors sa variance est aecte par le carr du changement dunit et e e e pas par le changement dorigine. Dmonstration Si yi = a + bxi , alors e s2 = y 1 1 1 2 2 (yi y )2 = (a + bxi a b) = b2 x (xi x) = b2 s2 . x n i=1 n i=1 n i=1
n n n

2 Remarque 2.7 1. Les param`tres de position sont tous aects par un changement dorigine e e et dunit. e 2. Les param`tres de dispersion sont tous aects par un changement dunit e e e mais pas par un changement dorigine. 3. Les param`tres de forme et daplatissement ne sont aects ni par un e e changement dunit ni par un changement dorigine. e

44

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

2.7

Moyennes et variances dans des groupes

Supposons que les n observations soient rparties dans deux groupes GA et e GB . Les nA premi`res observations sont dans le groupe GA et les nB derni`res e e observations sont dans le groupe GB , avec la relation nA + nB = n. On suppose que la srie statistique contient dabord les units de GA puis les e e units de GB : e x1 , x2 , . . . , xnA 1 , xnA , xnA +1 , xnA +2 , . . . , xn1 , xn . observations de
GA

observations de

GB

On dnit les moyennes des deux groupes : e nA 1 la moyenne du premier groupe xA = xi , nA i=1 n 1 xi . la moyenne du deuxi`me groupe xB = e nB i=n +1 A La moyenne gnrale est une moyenne pondre par la taille des groupes des e e ee moyennes des deux groupes. En eet (n ) n A 1 1 x= xi + xi = (nA xA + nB xB ) . n i=1 n i=n +1
A

On peut galement dnir les variances des deux groupes : e e nA 1 la variance du premier groupe s2 = (xi xA )2 , A nA i=1 n 1 la variance du deuxi`me groupe s2 = e (xi xB )2 . B nB i=n +1
A

Thor`me 2.4 (de Huygens) La variance totale, dnie par e e e s2 = x 1 (xi x)2 , n i=1
n

se dcompose de la mani`re suivante : e e s2 = x nA s2 + nB s2 A B n variance intra-groupes Dmonstration e s2 x + nA (A x)2 + nB (B x)2 x x . n variance inter-groupes

[n ] n n A 1 1 2 2 2 = (xi x) = (xi x) + (xi x) n i=1 n i=1 i=n +1


A

(2.2)

2.8. DIAGRAMME EN TIGES ET FEUILLES On note que


nA i=1

45

(xi x)2
nA i=1

= =

(xi xA + xA x)2 (xi xA )2 +


nA i=1

nA i=1

(A x)2 + 2 x

nA i=1

(xi xA )(A x) x
=0

= nA s2 + nA (A x)2 . x A On a videmment la mme relation dans le groupe GB : e e


n

(xi x)2 = nB s2 + nB (B x)2 . x B

i=nA +1

En revenant ` lexpression (2.2), on obtient a [n ] n A 1 2 2 2 sx = (xi x) + (xi x) n i=1 i=n +1 = = ] 1[ nA s2 + nA (A x)2 + nB s2 + nB (B x)2 x x A B n nA (A x)2 + nB (B x)2 x x nA s2 + nB s2 A B + . n n 2
A

2.8

Diagramme en tiges et feuilles

Le diagramme en tiges et feuilles ou Stem and leaf diagram est une mani`re e rapide de prsenter une variable quantitative. Par exemple, si lon a la srie e e statistique ordonne suivante : e 15, 15, 16, 17, 18, 20, 21, 22, 23, 23, 23, 24, 25, 25, 26, 26, 27, 28, 28, 29, 30, 30, 32, 34, 35, 36, 39, 40, 43, 44, la tige du diagramme sera les dizaines et les feuilles seront les units. On obtient e le graphique suivant. The decimal point is 1 digit(s) to the right of the | 1 2 3 4 | | | | 55678 012333455667889 0024569 034

46

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

Ce diagramme permet davoir une vue synthtique de la distribution. Evidemment, e les tiges peuvent tre dnies par les centaines, ou des millers, selon lordre de e e grandeur de la variable tudie. e e En langage R # # Diagramme en tige et feuilles # X=c(15,15,16,17,18,20,21,22,23,23,23,24,25,25,26,26, 27,28,28,29,30,30,32,34,35,36,39,40,43,44) stem(X,0.5)

2.9

La bo ` moustaches te a

La bo ` moustaches, ou diagramme en bo ou encore boxplot en ante a te, glais, est un diagramme simple qui permet de reprsenter la distribution dune e variable. Ce diagramme est compos de : e Un rectangle qui stend du premier au troisi`me quartile. Le rectangle e e est divis par une ligne correspondant ` la mdiane. e a e Ce rectangle est complt par deux segments de droites. ee Pour les dessiner, on calcule dabord les bornes b = x1/4 1.5IQ et b+ = x3/4 + 1.5IQ, o` IQ est la distance interquartile. u On identie ensuite la plus petite et la plus grande observation comprise entre ces bornes. Ces observations sont appeles valeurs adjacentes. e On trace les segments de droites reliant ces observations au rectangle. Les valeurs qui ne sont pas comprises entre les valeurs adjacentes, sont reprsentes par des points et sont appeles valeurs extrmes. e e e e Exemple 2.9 On utilise une base de donnes de communes suisses de 2003 e fournie par lOce fdral de la statistique (OFS) contenant un ensemble de e e variables concernant la population et lamnagement du territoire. Lobjectif e est davoir un aperu des supercies des communes du canton de Neuchtel. On c a sintresse donc ` la variable HApoly donnant la supercie en hectares des 62 e a communes neuchteloises. La bo ` moustaches est prsente en Figure 2.5. a te a e e Lexamen du graphique indique directement une dissymtrie de la distribution, e au sens o` il y a beaucoup de petites communes et peu de grandes communes. Le u graphique montre aussi que deux communes peuvent tre considres communes e ee des points extrmes, car elles ont plus de 3000 hectares. Il sagit de la Brvine e e (4182ha) et de la Chaux-de-Fonds (5566ha). En langage R

` 2.9. LA BO ITE A MOUSTACHES

47

1000

2000

3000

4000

5000

Figure 2.5 Bo ` moustaches pour la variable supercie en hectares (HAtes a poly) des communes du canton de Neuchtel a # tape 1: installation du package sampling E # dans lequel se trouve la base de donnes des communes belges e # choisir "sampling" dans la liste utils:::menuInstallPkgs() # Etape 2: charge le package sampling # choisir "sampling" dans la liste local({pkg <- select.list(sort(.packages(all.available = TRUE))) + if(nchar(pkg)) library(pkg, character.only=TRUE)}) # Utilisation des donnes e data(swissmunicipalities) attach(swissmunicipalities) # boxplot de la slection des communes neuch^teloises e a # le numro du canton est 24 e boxplot(HApoly[CT==24],horizontal=TRUE) % selection des communes neuch^teloises de plus de 3000 HA a data.frame(Nom=Nom[HApoly>3000 & CT==24],Superficie=HApoly[HApoly>3000 & CT==24])

Exemple 2.10 On utilise une base de donnes belges fournie par lInstitut e National (belge) de Statistique contenant des informations sur la population et les revenus des personnes physiques dans les communes. On sintresse ` la e a variable revenu moyen en euros par habitant en 2004 pour chaque commune (variable averageincome) et lon aimerait comparer les 9 provinces belges : Anvers, Brabant, Flandre occidentale, Flandre orientale, Hainaut, Li`ge, Limboug, e Luxembourg, Namur. La Figure 2.6 contient les bo ` moustaches de chaque tes a province. Les communes ont t tries selon les provinces belges. De ce graee e phique, on peut directement voir que la province du Brabant contient ` la fois a la commune la plus riche (Lasne) et la plus pauvre (Saint-Josse-ten-Noode). On voit galement une dispersion plus importante dans la province du Brabant. e En langage R

48

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

40000 35000 30000 25000 20000

Anv.

Brab.

Fl.occ.

Fl.or.

Hainaut

Lige

Limb.

Lux.

Namur

Figure 2.6 Bo ` moustaches du revenu moyen des habitants des comtes a munes selon les provinces belges

# Utilisation des donnes e data(belgianmunicipalities) attach(belgianmunicipalities) # Construction dune liste avec les noms des provinces b=list( "Anv."=averageincome[Province==1], "Brab."=averageincome[Province==2], "Fl.occ."=averageincome[Province==3], "Fl.or."=averageincome[Province==4], "Hainaut"=averageincome[Province==5], "Li`ge"=averageincome[Province==6], e "Limb."=averageincome[Province==7], "Lux."=averageincome[Province==8], "Namur"=averageincome[Province==9] ) boxplot(b)

` 2.9. LA BO ITE A MOUSTACHES

49

Exercices
Exercice 2.1 On p`se les 50 l`ves dune classe et nous obtenons les rsultats e ee e rsums dans le tableau suivant : e e 43 48 49 52 54 59 63 67 72 81 43 48 50 53 56 59 63 68 72 83 43 48 50 53 56 59 65 70 73 86 47 49 51 53 56 62 65 70 77 92 48 49 51 54 57 62 67 70 77 93

1. De quel type est la variable poids ? 2. Construisez le tableau statistique en adoptant les classes suivantes : [40 ;45] ]45 ;50] ]50 ;55] ]55 ;60] ]60 ;65] ]65 ;70] ]70 ;80] ]80 ;100] 3. Construisez lhistogramme des eectifs ainsi que la fonction de rpartition. e Solution 1. La variable poids est de type quantitative continue. 2. [c , c+ ] nj Nj fj Fj j j [40; 45] 3 3 0.06 0.06 ]45; 50] 10 13 0.20 0.26 ]50; 55] 8 21 0.16 0.42 ]55; 60] 7 28 0.14 0.56 ]60; 65] 6 34 0.12 0.68 ]65; 70] 6 40 0.12 0.80 ]70; 80] 5 45 0.10 0.90 ]80; 100] 5 50 0.10 1.00 50 1 3.

Exercice 2.2 Calculez tous les param`tres (de position, de dispersion et de e forme) ` partir du tableau de lexemple 1.7 sans prendre en compte les classes. a Solution

50

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE Mdiane : Comme n est pair, e x1/2 = quantiles Premier quartile : x1/4 = x13 = 156 Deuxi`me quartile : e x3/4 = x38 = 165 Etendue : E = 171 152 = 19. Distance interquartile : IQ = x3/4 x1/4 = 165 156 = 9 Variance : s2 = x Ecart type : sx = Ecart moyen absolu : emoy = Ecart mdian absolu : e emed 1 1 |xi x1/2 | = 242 = 4, 84. = n i=1 50
n

1 1 (x25 + x26 ) = (160 + 160) = 160. 2 2

1 1 (xi x)2 = 1668 = 33, 36. n i=1 50


n

s2 = 5, 7758. x

1 1 |xi x| = 245, 2 = 4, 904. n i=1 50


n

Moment centr dordre trois : e m3 = 1 1 (xi x)3 = 2743, 2 = 54, 864. n i=1 50
n

Exercice 2.3 1. Montrez que s2 = x

n n 1 (xi xj )2 . 2n2 i=1 j=1

` 2.9. LA BO ITE A MOUSTACHES 2. Montrez que sx Et

51

n1 . 2n

3. Montrez que, si xi > 0,

1 |xi x| 2. x n i=1
n

Solution

1.

n n 1 (xi xj )2 2n2 i=1 j=1

n n 1 2 (x + x2 2xi xj ) j 2n2 i=1 j=1 i n n n n n n 1 2 1 2 1 xi + 2 xj 2 2xi xj 2n2 i=1 j=1 2n i=1 j=1 2n i=1 j=1

1 2 1 2 1 1 xi + x xi xj 2n i=1 2n j=1 j n i=1 n j=1


n n n n

= =

1 2 1 x xi x n i=1 i n i=1
n n

1 2 x x2 n i=1 i
n

= s2 . x

52 2.

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

s2 x

n n 1 (xi xj )2 2n2 i=1 j=1 n n 1 (xi xj )2 2n2 i=1

= = = =

1 2n2

j=1,j=i n

(x(1) x(n) )2

i=1 j=1,j=i

n n 1 2 Et 2n2 i=1 j=1,j=i

1 2 n(n 1)Et 2n2 n1 2 E . 2n t sx E

Donc,

n1 . 2n

Chapitre 3

Statistique descriptive bivarie e


3.1 Srie statistique bivarie e e

On sintresse ` deux variables x et y. Ces deux variables sont mesures sur e a e les n units dobservation. Pour chaque unit, on obtient donc deux mesures. La e e srie statistique est alors une suite de n couples des valeurs prises par les deux e variables sur chaque individu : (x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn ). Chacune des deux variables peut tre, soit quantitative, soit qualitative. On e examine deux cas. Les deux variables sont quantitatives. Les deux variables sont qualitatives.

3.2
3.2.1

Deux variables quantitatives


Reprsentation graphique de deux variables e

Dans ce cas, chaque couple est compos de deux valeurs numriques. Un e e couple de nombres (entiers ou rels) peut toujours tre reprsent comme un e e e e point dans un plan (x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn ). 53

54

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

Exemple 3.1 On mesure le poids Y et la taille X de 20 individus. yi 60 61 64 67 68 69 70 70 72 73 xi yi 155 75 162 76 157 78 170 80 164 85 162 90 169 96 170 96 178 98 173 101 xi 180 175 173 175 179 175 180 185 189 187

poids

60 155

70

80

90

100

160

165

170 taille

175

180

185

190

Figure 3.1 Le nuage de points

En langage R

# nuage de points poids=c(60,61,64,67,68,69,70,70,72,73,75,76,78,80,85,90,96,96,98,101) taille=c(155,162,157,170,164,162,169,170,178,173,180,175,173,175,179,175,180,185,189 plot(taille,poids)

3.2. DEUX VARIABLES QUANTITATIVES

55

3.2.2

Analyse des variables

Les variables x et y peuvent tre analyses sparment. On peut calculer e e e e tous les param`tres dont les moyennes et les variances : e x= 1 xi , n i=1
n

s2 = x s2 = y

1 (xi x)2 , n i=1


n

y=

1 yi , n i=1
n

1 (yi y )2 . n i=1
n

Ces param`tres sont appels param`tres marginaux : variances marginales, moyennes e e e marginales, carts-types marginaux, quantiles marginaux, etc.. . . e

3.2.3

Covariance
1 (xi x)(yi y ). = n i=1
n

La covariance est dnie e sxy

Remarque 3.1 La covariance peut prendre des valeurs positives, ngatives ou nulles. e Quand xi = yi , pour tout i = 1, . . . , n, la covariance est gale ` la vae a riance.

Thor`me 3.1 La covariance peut galement scrire : e e e e 1 xi yi xy . n i=1


n

Dmonstration e sxy = = = = = 1 (xi x)(yi y ) n i=1


n

1 (xi yi yi x y xi + xy ) n i=1
n

1 1 1 1 xi yi yi x y xi + xy n i=1 n i=1 n i=1 n i=1


n n n n

1 xi yi xy xy + xy n i=1
n

1 xi yi xy . n i=1
n

56

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE 2

3.2.4

Corrlation e

Le coecient de corrlation est la covariance divise par les deux cart-types e e e marginaux : sxy . rxy = sx sy Le coecient de dtermination est le carr du coecient de corrlation : e e e
2 rxy =

s2 xy . s2 s2 x y

Remarque 3.2 Le coecient de corrlation mesure la dpendance linaire entre deux vae e e riables : 1 rxy 1, 2 0 rxy 1. Si le coecient de corrlation est positif, les points sont aligns le long e e dune droite croissante. Si le coecient de corrlation est ngatif, les points sont aligns le long e e e dune droite dcroissante. e Si le coecient de corrlation est nul ou proche de zro, il ny a pas de e e dpendance linaire. On peut cependant avoir une dpendance non-linaire e e e e avec un coecient de corrlation nul. e
r=1 r=1 r=0

r>0

r<0

r=0

Figure 3.2 Exemples de nuages de points et coecients de corrlation e

3.2. DEUX VARIABLES QUANTITATIVES

57

3.2.5

Droite de rgression e

La droite de rgression est la droite qui ajuste au mieux un nuage de points e au sens des moindres carrs. e On consid`re que la variable X est explicative et que la variable Y est e dpendante. Lquation dune droite est e e y = a + bx. Le probl`me consiste ` identier une droite qui ajuste bien le nuage de points. e a Si les coecients a et b taient connus, on pourrait calculer les rsidus de la e e rgression dnis par : e e ei = yi a bxi . Le rsidu ei est lerreur que lon commet (voir Figure 3.3) en utilisant la droite e de rgression pour prdire yi ` partir de xi . Les rsidus peuvent tre positifs ou e e a e e ngatifs. e
100 90

yi ei y* i

poids

60 155

70

80

160

165

170 taille

175

180

185

190

Figure 3.3 Le nuage de points, le rsidu e

58 En langage R

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

# Graphique avec le rsidus e plot(taille,poids) segments(158,a+b*158,190,a+b*190) segments(180,a+b*180,180,96,col="red") # text(178,90,expression(e)) text(178.7,89.5,"i") # arrows(180,a+b*180,156,a+b*180,col="blue",length=0.14) arrows(180,60,180,a+b*180,col="blue",length=0.14) arrows(180,96,156,96,col="blue",length=0.14) # text(154.8,86,expression(y)) text(155.5,85.5,"i") # text(154.8,97,expression(y)) text(155.5,97.8,"*") text(155.5,96.5,"i") Pour dterminer la valeur des coecients a et b on utilise le principe des e moindres carrs qui consiste ` chercher la droite qui minimise la somme des e a carrs des rsidus : e e n n 2 M (a, b) = e2 = (yi a bxi ) . i
i=1 i=1

Thor`me 3.2 Les coecients a et b qui minimisent le crit`re des moindres e e e carrs sont donns par : e e sxy et a = y b. x b= 2 sx Dmonstration Le minimum M (a, b) en (a, b) sobtient en annulant les drives e e e partielles par rapport ` a et b. a n M (a, b) = 2 (yi a bxi ) = 0 a i=1 n M (a, b) = 2 (y a bx ) x = 0 i i i b i=1 On obtient un syst`me de deux quations ` deux inconnues. En divisant les e e a deux quations par 2n, on obtient : e n 1 (yi a bxi ) = 0 n i=1 n 1 (y a bx ) x = 0, i i i n i=1

3.2. DEUX VARIABLES QUANTITATIVES ou encore n n n 1 1 1 yi ab xi = 0 n n i=1 n i=1 i=1 n n n 1 y x 1 ax 1 bx2 = 0, i i i n i=1 n i=1 n i=1 i x y = a + b n n 1 1 2 yi xi a x bx = 0. n n i=1 i i=1 a = y b. x En remplaant a par y b dans la seconde quation, on a c x e 1 2 1 xi yi ( b) b y xx x n i=1 n i=1 i ) ( n n 1 1 2 = xi yi xy b x x2 n i=1 n i=1 i
n n

59

ce qui scrit aussi e

La premi`re quation montre que la droite passe par le point (, y ). On obtient e e x

= sxy bs2 x = 0, ce qui donne sxy bs2 = 0. x sxy . s2 x On a donc identi les deux param`tres e e sxy b= (la pente) s2 x a = y b = y sxy x (la constante). x s2 x b= On devrait en outre vrier quil sagit bien dun minimum en montrant que la e matrice des drives secondes est dnie positive. e e e 2 La droite de rgression est donc e sxy sxy y = a + bx = y 2 x + 2 x, sx sx ce qui peut scrire aussi e yy = sxy (x x). s2 x Donc

Remarque 3.3 La droite de rgression de y en x nest pas la mme que la e e droite de rgression de x en y. e

60

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

Figure 3.4 La droite de rgression e

poids

60 155

70

80

90

100

160

165

170 taille

175

180

185

190

3.2.6

Rsidus et valeurs ajustes e e


yi = a + bxi .

Les valeurs ajustes sont obtenues au moyen de la droite de rgression : e e

Les valeurs ajustes sont les prdictions des yi ralises au moyen de la variable e e e e x et de la droite de rgression de y en x. e Remarque 3.4 La moyenne des valeurs ajustes est gale ` la moyenne des e e a valeurs observes y . En eet, e 1 1 1 yi = (a + bxi ) = a + b xi = a + b. x n i=1 n i=1 n i=1
n n n

Or, y = a + b, car le point (, y ) appartient ` la droite de rgression. x x a e Les rsidus sont les dirences entre les valeurs observes et les valeurs e e e ajustes de la variable dpendante. e e
ei = yi yi .

Les rsidus reprsentent la partie inexplique des yi par la droite de rgression. e e e e Remarque 3.5

3.2. DEUX VARIABLES QUANTITATIVES La moyenne des rsidus est nulle. En eet e 1 1 ei = (yi yi ) = y y = 0. n i=1 n i=1
n n

61

De plus,

n i=1

xi ei = 0.

La dmonstration est un peu plus dicile. e

3.2.7

Sommes de carrs et variances e


n i=1

Dnition 3.1 On appelle somme des carrs totale la quantit e e e SCT OT = (yi y )2

La variance marginale peut alors tre dnie par e e s2 = y 1 SCT OT = (yi y )2 . n n i=1
n

Dnition 3.2 On appelle somme des carrs de la rgression la quantit e e e e SCREGR =


n i=1 (yi y )2 .

Dnition 3.3 La variance de rgression est la variance des valeurs ajustes. e e e s2 = y 1 (y y )2 . n i=1 i
n

Dnition 3.4 On appelle somme des carrs des rsidus (ou rsiduelle) la e e e e quantit e n SCRES = e2 . i
i=1

Dnition 3.5 La variance rsiduelle est la variance des rsidus. e e e s2 = e 1 2 SCRES = e . n n i=1 i
n

Note : Il nest pas ncessaire de centrer les rsidus sur leurs moyennes pour e e calculer la variance, car la moyenne des rsidus est nulle. e

62 Thor`me 3.3 e e

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

SCT OT = SCREGR + SCRES . Dmonstration e SCT OT = = =


n i=1 n i=1 n i=1 (yi yi )2 + n i=1 n i=1 (yi y )2 + 2 n i=1 (yi yi )(yi y ). (yi yi )(yi y ) (yi yi + yi y )2

(yi y )2

= SCRES + SCREGR + 2 Le troisi`me terme est nul. En eet, e


n i=1 (yi yi )(yi y ) = n i=1

(yi a bxi )(a + bxi y )

En remplaant a par y b, on obtient c x


n i=1 (yi yi )(yi y ) = n i=1 n

[yi y b(xi x))] b(xi x) [(yi y ) b(xi x)] b(xi x) (yi y )(xi x) b2
n i=1

= = = =

i=1 n i=1

(xi x)(xi x)

bnsxy b2 ns2 x

s2 sxy xy nsxy 4 ns2 s2 sx x x = 0. 2

3.2.8

Dcomposition de la variance e

Thor`me 3.4 La variance de rgression peut galement scrire e e e e e s2 = s2 r2 , y y o` r2 est le coecient de dtermination. u e

3.2. DEUX VARIABLES QUANTITATIVES Dmonstration e s2 y = = = = 1 (y y )2 n i=1 i }2 n { 1 sxy y + 2 (xi x) y n i=1 sx


n n s2 1 xy (xi x)2 s4 n i=1 x

63

s2 xy s2 x s2 xy = s2 2 2 y sx sy = s2 r2 . y 2 La variance rsiduelle est la variance des rsidus. e e s2 = e 1 2 e . n i=1 i


n

Thor`me 3.5 La variance rsiduelle peut galement scrire e e e e e s2 = s2 (1 r2 ), e y o` r2 est le coecient de dtermination. u e Dmonstration e s2 e = = = = = = 1 2 e n i=1 i
n

1 (yi yi )2 n i=1 }2 n { 1 sxy yi y 2 (xi x) n i=1 sx


n n n n s2 1 1 sxy 1 xy (yi y )2 + 4 (xi x)2 2 2 (xi x)(yi y ) n i=1 sx n i=1 sx n i=1

s2 s2 xy xy s2 + 2 2 2 y sx sx ) ( s2 xy 2 sy 1 2 2 . sx sy 2

64

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

Thor`me 3.6 La variance marginale est la somme de la variance de rgression e e e et de la variance rsiduelle, e s2 = s2 + s2 . y y e La dmonstration dcoule directement des deux thor`mes prcdents. e e e e e e

3.3
3.3.1

Deux variables qualitatives


Donnes observes e e

Si les deux variables x et y sont qualitatives, alors les donnes observes sont e e une suite de couples de variables (x1 , y1 ), . . . , (xi , yj ), . . . , (xn , yn ), chacune des deux variables prend comme valeurs des modalits qualitatives. e Les valeurs distinctes de x et y sont notes respectivement e x1 , . . . , xj , . . . , xJ et y1 , . . . , yk , . . . , yK .

3.3.2

Tableau de contingence

Les donnes observes peuvent tre regroupes sous la forme dun tableau de e e e e contingence y1 yk yK total x1 n11 n1k n1K n1. . . . . . . . . . . . . xj . . . nj1 . . . njk . . . nJk n.k njK . . . nJK n.K nj. nJ. n

xJ nJ1 total n.1

Les nj. et n.k sont appels les eectifs marginaux. Dans ce tableau, e nj. reprsente le nombre de fois que la modalit xj appara e e t, n.k reprsente le nombre de fois que la modalit yk appara e e t, njk reprsente le nombre de fois que les modalits xj et yk apparaissent e e ensemble. On a les relations
J j=1 K k=1

njk = n.k , pour tout k = 1, . . . , K,

njk = nj. , pour tout j = 1, . . . , J,

3.3. DEUX VARIABLES QUALITATIVES et


J j=1

65

nj. =

K k=1

n.k =

J K j=1 k=1

njk = n

Exemple 3.2 On sintresse ` une ventuelle relation entre le sexe de 200 pere a e sonnes et la couleur des yeux. Le Tableau 3.1 reprend le tableau de contingence. Table 3.1 Tableau des eectifs njk Bleu 10 20 30 Vert 50 60 110 Marron 20 40 60 Total 80 120 200

Homme Femme Total

3.3.3

Tableau des frquences e

Le tableau de frquences sobtient en divisant tous les eectifs par la taille e de lchantillon : e njk fjk = , j = 1, . . . , J, k = 1, . . . , K n fj. = f.k = Le tableau des frquences est e y1 f11 . . . fj1 . . . fJ1 f.1 yk f1k . . . fjk . . . fJk f.k yK f1K . . . fjK . . . fJK f.K total f1. fj. fJ. 1 nj. , j = 1, . . . , J, n n.k , k = 1, . . . , K. n

x1 . . . xj . . . xJ total

Exemple 3.3 Le Tableau 3.2 reprend le tableau des frquences. e

66

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

Table 3.2 Tableau des frquences e Bleu 0.05 0.10 0.15 Vert 0.25 0.30 0.55 Marron 0.10 0.20 0.30 Total 0.40 0.60 1.00

Homme Femme Total

3.3.4

Prols lignes et prols colonnes

Un tableau de contingence sinterpr`te toujours en comparant des frquences e e en lignes ou des frquences en colonnes (appels aussi prols lignes et prols e e colonnes). Les prols lignes sont dnis par e fk
(j)

njk fjk = , k = 1, . . . , K, j = 1, . . . , J, nj. fj.

et les prols colonnes par fj


(k)

njk fjk = , j = 1, . . . , J, k = 1, . . . , K. n.k f.k

Exemple 3.4 Le Tableau 3.3 reprend le tableau des prols lignes, et le Tableau 3.4 reprend le tableau des prols colonnes. Table 3.3 Tableau des prols lignes Bleu 0.13 0.17 0.15 Vert 0.63 0.50 0.55 Marron 0.25 0.33 0.30 Total 1.00 1.00 1.00

Homme Femme Total

Table 3.4 Tableau des prols colonnes Bleu 0.33 0.67 1.00 Vert 0.45 0.55 1.00 Marron 0.33 0.67 1.00 Total 0.40 0.60 1.00

Homme Femme Total

3.3. DEUX VARIABLES QUALITATIVES

67

3.3.5

Eectifs thoriques et khi-carr e e

On cherche souvent une interaction entre des lignes et des colonnes, un lien entre les variables. Pour mettre en vidence ce lien, on construit un tableau e deectifs thoriques qui reprsente la situation o` les variables ne sont pas lies e e u e (indpendance). Ces eectifs thoriques sont construits de la mani`re suivante : e e e n = jk nj. n.k . n

Les eectifs observs njk ont les mmes marges que les eectifs thoriques n . e e e jk Enn, les carts ` lindpendance sont dnis par e a e e ejk = njk n . jk La dpendance du tableau se mesure au moyen du khi-carr dni par e e e 2 = obs
K J (njk n )2 jk k=1 j=1

n jk

k=1

J K e2 jk . n j=1 jk

(3.1)

Le khi-carr peut tre normalis pour ne plus dpendre du nombre dobe e e e servations. On dnit le phi-deux par : e 2 = 2 obs . n

Le 2 ne dpend plus du nombre dobservations. Il est possible de montrer e que 2 min(J 1, K 1). Le V de Cramer est dnit par e 2 2 obs V = = . min(J 1, K 1) n min(J 1, K 1) Le V de Cramer est compris entre 0 et 1. Il ne dpend ni de la taille e de lchantillon ni de la taille du tableau. Si V 0, les deux variables e sont indpendantes. Si V = 1, il existe une relation fonctionnelle entre les e variables, ce qui signie que chaque ligne et chaque colonne du tableau de contingence ne contiennent quun seul eectif dirent de 0 (il faut que le e tableau ait le mme nombre de lignes que de colonnes). e Exemple 3.5 Le Tableau 3.5 reprend le tableau des eectifs thoriques, le e Tableau 3.6 reprend le tableau des carts ` lindpendance. Enn, les e2 /n e a e jk jk sont prsents dans le tableau 3.7. e e Le khi-carr observ vaut 2 = 3.03. e e obs Le phi-deux vaut 2 = 0.01515. Comme le tableau a deux lignes min(J 1, K 1) = min(2 1, 3 1) = 1. Le V de Cramer est gal ` 2 . e a

68

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE Table 3.5 Tableau des eectifs thoriques n e jk Bleu 12 18 30 Vert 44 66 110 Marron 24 36 60 Total 80 120 200

Homme Femme Total

Table 3.6 Tableau des carts ` lindpendance ejk e a e Bleu -2 2 0 Vert 6 -6 0 Marron -4 4 0 Total 0 0 0

Homme Femme Total

Table 3.7 Tableau des e2 /n jk jk Bleu 0.33 0.22 0.56 Vert 0.82 0.55 1.36 Marron 0.67 0.44 1.11 Total 1.82 1.21 3.03

Homme Femme Total

On a V = 0.123. La dpendance entre les deux variables est tr`s faible. e e

En langage R yeux= c(rep("bleu",times=10),rep("vert",times=50),rep("marron",times=20), rep("bleu",times=20),rep("vert",times=60),rep("marron",times=40)) sexe= c(rep("homme",times=80),rep("femme",times=120)) yeux=factor(yeux,levels=c("bleu","vert","marron")) sexe=factor(sexe,levels=c("homme","femme")) T=table(sexe,yeux) T plot(T,main="") summary(T)

Exemple 3.6 Le tableau suivant est extrait de Boudon (1979, p. 57). La variable X est le niveau dinstruction du ls par rapport au p`re (plus lev, e e e

3.3. DEUX VARIABLES QUALITATIVES

69

gal, infrieur), et la variable Y est le statut professionnel du ls par rapport e e au p`re (plus lev, gal, infrieur). e e e e e

Table 3.8 Tableau de contingence : eectifs njk Niveau dinstruction Statut professionnel du ls du ls par rapport par rapport au p`re e au p`re e Plus lev Egal infrieur total e e e plus lev e e 134 96 61 291 gal e 23 33 24 80 infrieur e 7 16 22 45 total 164 145 107 416

Table 3.9 Tableau des frquences fjk e X\Y Plus lev e e plus lev e e 0.322 gal e 0.055 infrieur e 0.017 total 0.394 Egal 0.231 0.079 0.038 0.349 infrieur e 0.147 0.058 0.053 0.257 total 0.700 0.192 0.108 1.000

Table 3.10 Tableau des prols lignes X\Y Plus lev e e plus lev e e 0.460 gal e 0.288 infrieur e 0.156 total 0.394 Egal 0.330 0.413 0.356 0.349 infrieur total e 0.210 1 0.300 1 0.489 1 0.257 1

Table 3.11 Tableau des prols colonnes X\Y Plus lev Egal e e plus lev e e 0.817 0.662 gal e 0.140 0.228 0.043 0.110 infrieur e total 1 1 infrieur total e 0.570 0.700 0.224 0.192 0.206 0.108 1 1

70

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE Table 3.12 Tableau des eectifs thoriques n e jk X\Y Plus lev Egal e e plus lev e e 114.72 101.43 gal e 31.54 27.88 infrieur e 17.74 15.69 total 164 145 infrieur total e 74.85 291 20.58 80 11.57 45 107 416

Table 3.13 Tableau des carts ` lindpendance ejk e a e X\Y Plus lev Egal infrieur total e e e plus lev e e 19.28 5.43 13.85 0 gal e 8.54 5.12 3.42 0 infrieur e 10.74 0.31 10.43 0 total 0 0 0 0

Table 3.14 Tableau des e2 /n jk jk Plus lev Egal e e X\Y plus lev e e 3.24 0.29 2.31 0.94 gal e infrieur e 6.50 0.01 total 12.05 1.24 infrieur e total 2.56 6.09 0.57 3.82 9.39 15.90 12.52 2 = 25.81 obs

On a donc 2 obs 2 V = 25.81 2 25.81 obs = = = 0.062 n 416 =

2 = min(J 1, K 1)

0.062 = 0.176. 2

Exercices
Exercice 3.1 La consommation de cr`mes glaces par individus a t mesure e e ee e pendant 30 priodes. Lobjectif est dtermin si la consommation dpend de la e e e e temprature. Les donnes sont dans le tableau 3.15. On sait en outre que e e

3.3. DEUX VARIABLES QUALITATIVES

71

Table 3.15 Consommation de cr`mes glaces e e consommation y 386 374 393 425 406 344 327 288 269 256 temprature x consommation y e 41 286 56 298 63 329 68 318 69 381 65 381 61 470 47 443 32 386 24 342 temprature x consommation y e 28 319 26 307 32 284 40 326 55 309 63 359 72 376 72 416 67 437 60 548 temprature x e 44 40 32 27 28 33 41 52 64 71

n i=i n i=i

yi = 10783,

n i=i

xi = 1473,

2 yi = 4001293, n i=i

n i=i

x2 = 80145, i

xi yi = 553747,

1. Donnez les moyennes marginales, les variances marginales et la covariance entre les deux variables. 2. Donnez la droite de rgression, avec comme variable dpendante la consome e mation de glaces et comme variable explicative la temprature. e 3. Donnez la valeur ajuste et le rsidu pour la premi`re observation du e e e tableau 3.15.

Solution y = 359.4333333, x = 49.1,


2 2 2 y = 4184.112222, x = 260.69, xy = 810.0566667, = 0.77562456, b = 3.107356119, a = 206.8621479, y1 = 334.2637488, e1 = 51.73625123,

72

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

Exercice 3.2 Neuf tudiants mettent un avis pdagogique vis-`-vis dun proe e e a fesseur selon une chelle dapprciation de 1 ` 20. On rel`ve par ailleurs la note e e a e obtenue par ces tudiants lanne prcdente aupr`s du professeur. e e e e e Etudiants 16 6 12 10 13 9

y = Avis x = Rsultat e

5 8

7 11

14 17

10 7

9 15

8 16

1. Reprsentez graphiquement les deux variables. e 2. Dterminez le coecient de corrlation entre les variables X et Y. Ensuite, e e donnez une interprtation de ce coecient. e 3. Dterminez la droite de rgression Y en fonction de X. e e 4. Etablissez, sur base du mod`le, lavis pour un tudiant ayant obtenu 12/20. e e 5. Calculez la variance rsiduelle et le coecient de dtermination. e e

Solution

18 6 16 14 12 10 8 6 4 2 0 0 5 10 q q q q q q q

15

20

3.3. DEUX VARIABLES QUALITATIVES yi xi 5 8 7 11 16 10 6 13 12 9 14 17 10 7 9 15 8 16 87 106 y= s2 = y


2 yi x2 xi yi i 25 64 40 49 121 77 256 100 160 36 169 78 144 81 108 196 289 238 100 49 70 81 225 135 64 256 128 951 1354 1034

73

87 = 9, 667 9

951 9, 6672 = 12, 22 9 106 = 11, 78 x= 9 1354 s2 = 11, 782 = 11, 73 x 9 1034 9, 667 11, 78 = 1, 037 sxy = 9 1, 037 rxy = = 0.087 12, 22 11, 73 Ajustement linaire de y en x e Dy|x : y y = Sxy (x x) 2 Sx

Dy|x : y = 0.088x + 8, 625 Valeur ajuste pour une cote de 12/20, (x=12) e y = 0.088 12 + 8, 625 = 9, 686 Mesure de la qualit du mod`le : e e Variance rsiduelle e s2 y|x = s2 (1 r2 ) y = 12, 22(1 0.0872 ) = 12, 13 ` comparer avec s2 = 12, 22 a y Coecient de dtermination e r2 = 0.0872 = 0.008 ce coecient reprsente la proportion de variance explique par le mod`le (ici e e e 0.8% faible).

74

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

Exercice 3.3 Considrons un chantillon de 10 fonctionnaires (ayant entre 40 e e et 50 ans) dun minist`re. Soit X le nombre dannes de service et Y le nombre e e de jours dabsence pour raison de maladie (au cours de lanne prcdente) e e e dtermin pour chaque personne appartenant ` cet chantillon. e e a e xi yi 2 14 3 13 16 17 8 12 13 10 20 8 24 20 7 7 5 2 11 8

1. Reprsentez le nuage de points. e 2. Calculez le coecient de corrlation entre X et Y. e 3. Dterminez lquation de la droite de rgression de Y en fonction de X. e e e 4. Dterminez la qualit de cet ajustement. e e 5. Etablissez, sur base de ce mod`le, le nombre de jours dabsence pour un e fonctionnaire ayant 22 ans de service. Solution 2) xi 2 14 16 8 13 20 24 7 5 11 somme 120 moyenne 12.00
n i=l n i=l n i=1 2 yi yi x2 i 3 4 9 13 196 169 17 256 289 12 64 144 10 169 100 8 400 64 20 576 400 7 49 49 2 25 4 8 121 64 100 1860 1292 10.00 186.00 129.20 n i=l n i=l 2 yi = 1292;

xi yi 6 182 272 96 130 160 480 49 10 88 1473 147.30

xi = 120;

yi = 100;

x2 = 1860; i

xi yi = 1473 y = 100/10 = 10;

x = 120/10 = 12;

s2 = (1860/10) 122 = 42; s2 = (1292/10) 102 = 29, 2 x y sxy = (1473/10) (10.12) = 27, 3

3.3. DEUX VARIABLES QUALITATIVES rxy = 3) Dxy y y = Dxy y 10 = Dxy 4) r2 = 60.8%; s2 e = s2 (1 y r ) = 29, 2 (1 0.608) = 11, 43
2

75

27, 3 = 0.78 42 29, 2 Sxy (x x) 2 Sx

27, 3 (x 12) 42 y = 0.65x + 2, 2

2 s2 = 11, 43 est beaucoup plus petit que Sy = 29, 2 e

5) y = 0.65 22 + 2, 2 = 16, 5 jours.

76

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

Chapitre 4

Thorie des indices, e mesures dingalit e e


4.1 4.2 Nombres indices Dnition e

Un indice est la valeur dune grandeur par rapport ` une valeur de rfrence. a ee Prenons lexemple du tableau 4.1 contenant le prix (ctif) dun bien de consommation de 2000 ` 2006. Le temps varie de 0, 1, 2, . . . , 6 et 0 est considr comme a ee le temps de rfrence par rapport auquel lindice est calcul. ee e Table 4.1 Tableau du prix dun anne e 2000 2001 2002 2003 2004 2005 2006 bien de consommation de 2000 ` 2006 a t prix pt 0 2.00 1 2.30 2 2.40 3 2.80 4 3.00 5 3.50 6 4.00

Lindice simple est dni par e I(t/t ) = 100 pt , t, t = 0, 1, . . . , 6. pt

Le tableau 4.2 contient la matrice des indices de prix du bien. Par exemple de 2000 ` 2006, le prix a doubl, donc I(6/0) = 200. a e 77

78

CHAPITRE 4. THEORIE DES INDICES, MESURES DINEGALITE

Table 4.2 Tableau de lindice simple du prix du tableau 4.1 t = 0 1 2 3 4 5 6 t=0 1 2 100.00 115.00 120.00 86.96 100.00 104.35 83.33 95.83 100.00 71.43 82.14 85.71 66.67 76.67 80.00 57.14 65.71 68.57 50.00 57.50 60.00 3 140.00 121.74 116.67 100.00 93.33 80.00 70.00 4 150.00 130.43 125.00 107.14 100.00 85.71 75.00 5 175.00 152.17 145.83 125.00 116.67 100.00 87.50 6 200.00 173.91 166.67 142.86 133.33 114.29 100.00

4.2.1

Proprits des indices e e

Considrons un indice quelconque I(t/0). On dit que cet indice poss`de les e e proprits de ee 1 rversibilit si I(t/0) = 1002 I(0/t) , e e identit si I(t/t) = 100, e circularit (ou transitivit) si I(t/u) I(u/v) = 100 I(t/v). e e Il est facile de montrer que ces trois proprits sont satisfaites pour un indice ee simple.

4.2.2

Indices synthtiques e

Quand on veut calculer un indice ` partir de plusieurs prix, le probl`me a e devient sensiblement plus compliqu. Un indice synthtique est une grandeur e e dun ensemble de biens par rapport ` une anne de rfrence. On ne peut pas a e ee construire un indice synthtique en additionnant simplement des indices simples. e Il faut, en eet, tenir compte des quantits achetes. e e Pour calculer un indice de prix de n biens de consommation tiquets de e e 1, 2, . . . , n, on utilise la notation suivante : pti reprsente le prix du bien de consommation i au temps t, e qti reprsente la quantit de biens i consomme au temps t. e e e Considrons par exemple le Tableau 4.3 qui contient 3 biens de consommation e et pour lesquels ont conna les prix et les quantits achetes. t e e Il existe deux mthodes fondamentales pour calculer les indices de prix, e lindice de Paasche et lindice de Laspeyres.

4.2.3

Indice de Laspeyres
n i=1 q0i pti L(t/0) = 100 n . i=1 q0i p0i

Lindice de Laspeyres, est dni par e

On utilise pour le calculer, les quantits q0i du temps de rfrence. e ee

4.2. DEFINITION

79

Table 4.3 Exemple : prix et quantits de trois bien pendant 3 ans e Temps Bien 1 Bien 2 Bien 3 0 Prix (p0i ) 100 60 160 1 Prix (p1i ) 150 50 140 2 Prix (p2i ) 200 40 140

Quantits (q0i ) e 14 10 4

Quantits (q1i ) e 10 12 5

Quantits (q2i ) e 8 14 5

Lindice de Laspeyres peut aussi tre prsent comme une moyenne pondre e e e ee des indices simples. Soient lindice simple du bien i : Ii (t/0) = 100 pti , p0i

et le poids w0i correspondant ` la recette totale du bien i au temps 0 a w0i = p0i q0i . Lindice de Laspeyres peut alors tre dni comme une moyenne des indices e e simples pondrs par les recettes au temps 0 : ee n n i=1 p0i q0i 100 i=1 w0i Ii (t/0) n n = L(t/0) = i=1 w0i i=1 p0i q0i
pti p0i

n i=1 q0i pti = 100 n . i=1 p0i q0i

Lindice de Laspeyres ne poss`de ni la proprit de circularit ni de rversibilit. e ee e e e Lindice de Laspeyres est facile ` calculer, car seules les quantits q0i du temps a e de rfrence sont ncessaires pour le calculer. ee e Exemple 4.1 Si on utilise les donnes du tableau 4.3, les indices de Laspeyres e sont les suivants n q0i p1i 14 150 + 10 50 + 4 140 L(1/0) = 100 i=1 = 100 = 119.6970, n 14 100 + 10 60 + 4 160 q0i p0i i=1 n q0i p2i 14 200 + 10 40 + 4 140 = 142.4242, L(2/0) = 100 i=1 = 100 n 14 100 + 10 60 + 4 160 i=1 q0i p0i n q1i p2i 10 200 + 12 40 + 5 140 L(2/1) = 100 i=1 = 113.5714. = 100 n 10 150 + 12 50 + 5 140 i=1 q1i p1i

80

CHAPITRE 4. THEORIE DES INDICES, MESURES DINEGALITE

4.2.4

Indice de Paasche
n i=1 qti pti P (t/0) = 100 n . i=1 qti p0i

Lindice de Paasche, est dni par e

On utilise, pour le calculer, les quantits qti du temps par rapport auquel on e veut calculer lindice. Lindice de Paasche peut aussi tre prsent comme une moyenne harmoe e e nique pondre des indices simples. Soient lindice simple du bien i : ee Ii (t/0) = 100 pti , p0i

et le poids wti correspondant ` la recette totale du bien i au temps t a wti = pti qti . Lindice de Paasche peut alors tre dni comme une moyenne harmonique des e e indices simples pondrs par les recettes au temps t : ee n n n i=1 qti pti i=1 wti i=1 pti qti = 100 n P (t/0) = n = n . p0i i=1 wti /Ii (t/0) i=1 pti qti 100pti i=1 qti p0i Lindice de Paasche ne poss`de ni la proprit de circularit ni de rversibilit. e ee e e e Lindice de Paasche est plus dicile ` calculer que lindice de Laspeyres, car on a doit conna les quantits pour chaque valeur de t. tre e Exemple 4.2 Si on utilise les donnes du tableau 4.3, les indices de Paasche e sont les suivants n q p 10 150 + 12 50 + 5 140 n 1i 1i = 100 P (1/0) = 100 i=1 = 111.1111, 10 100 + 12 60 + 5 160 q1i p0i i=1 n q2i p2i 8 200 + 14 40 + 5 140 = 100 P (2/0) = 100 i=1 = 117.2131, n 8 100 + 14 60 + 5 160 q2i p0i i=1 n q2i p2i 8 200 + 14 40 + 5 140 = 100 P (2/1) = 100 i=1 = 110. n 8 150 + 14 50 + 5 140 q2i p1i i=1

4.2.5

Lindice de Fisher

Lindice de Laspeyres est en gnral plus grand que lindice de Paasche, e e ce qui peut sexpliquer par le fait que lindice de Laspeyres est une moyenne arithmtique dindices lmentaires tandis que lindice de Paasche est une moyenne e ee harmonique. Nous avons vu quune moyenne harmonique est toujours infrieure e

4.2. DEFINITION

81

ou gale ` une moyenne arithmtique (voir la remarque de la page 32). Cepene a e dant ici, ce rsultat est approximatif, car on nutilise pas les mmes poids pour e e calculer lindice de Paasche (wti ) et de Laspeyres (w0i ). Fisher a propos dutiliser un compromis entre lindice de Paasche et de e Laspeyres en calculant simplement la moyenne gomtrique de ces deux indices e e F (t/0) = L(t/0) P (t/0). Lavantage de lindice de Fisher est quil jouit de la proprit de rversibilit. ee e e Exemple 4.3 Si on utilise toujours les donnes du tableau 4.3, les indices de e Fisher sont les suivants : F (1/0) = L(1/0) P (1/0) = 115.3242, F (2/0) = L(2/0) P (2/0) = 129.2052, F (2/1) = L(2/1) P (2/1) = 111.7715.

4.2.6

Lindice de Sidgwick

Lindice de Sidgwick est la moyenne arithmtique des indices de Paasche et e de Laspeyres. L(t/0) + P (t/0) S(t/0) = . 2

4.2.7

Indices cha nes

Le dfaut principal des indices de Laspeyres, de Paasche, de Fisher et de Sidge wick est quil ne poss`dent pas la proprit de circularit. Un indice qui poss`de e ee e e cette proprit est appel indice cha ee e ne. Pour construire un indice cha ne, avec lindice de Laspeyres, on peut faire un produit dindice de Laspeyres annuels. L(t/t 1) L(t 1/t 2) L(2/1) L(1/0) . 100 100 100 100 Pour calculer un tel indice, on doit videmment conna e tre les quantits pour e chaque valeur de t. Lindice suisse des prix ` la consommation est un indice a cha de Laspeyres. ne CL(t/0) = 100 Exemple 4.4 En utilisant encore les donnes du tableau 4.3, les indices cha e nes de Laspeyres sont les suivants : CL(1/0) = L(1/0) = 119.6970, CL(2/1) = L(2/1) = 113.5714, L(2/1) L(1/0) = 135.9416. CL(2/0) = 100

82

CHAPITRE 4. THEORIE DES INDICES, MESURES DINEGALITE

4.3
4.3.1

Mesures de lingalit e e
Introduction

Des indicateurs particuliers ont t dvelopps pour mesurer les ingalits ee e e e e des revenus ou les ingalits de patrimoine. On consid`re quune socit est pare e e ee faitement galitaire si tous les individus reoivent le mme revenu. La situation e c e thorique la plus ingalitaire est la situation o` un individu peroit la totalit e e u c e des revenus, et les autre individus nont aucun revenu.

4.3.2

Courbe de Lorenz

Plusieurs indices dingalit sont lis ` la courbe de Lorenz. On note e e e a x1 , . . . , xi , . . . , xn les revenus des n individus de la population tudie. On note galement e e e x(1) , . . . , x(i) , . . . , x(n) , la statistique dordre, cest-`-dire la srie de revenus tris par ordre croissant. a e e Notons maintenant qi la proportion de revenus par rapport au revenu total quont gagn les i individus ayant les plus bas revenus, ce qui scrit e e i
j=1 qi = n

x(j)

j=1 x(j)

avec q0 = 0 et qn = 1.

La courbe de Lorenz est la reprsentation graphique de la fonction qui ` e a la part des individus les moins riches associe la part y du revenu total quils peroivent. Plus prcisment, la courbe de Lorenz relie les points (i/n, qi ) pour c e e i = 1, . . . , n. En abscisse, on a donc une proportion dindividus classs par ordre e de revenu, et en ordonne la proportion du revenu total reu par ces individus. e c Exemple 4.5 On utilise une enqute mnage sur le revenu dans une rgion e e e des Philippines appele Ilocos. Cette enqute de 1997 sur le revenu des mnages e e e a t produite par lOce philippin de Statistique. La courbe de Lorenz est ee prsente en Figure 4.1. e e

Remarque 4.1 Sur le graphique, on indique toujours la diagonale. La courbe de Lorenz est gale ` la diagonale si tous les individus ont le mme revenu. Plus e a e lcart entre la courbe de Lorenz et la diagonale est important, plus les revenus e sont distribus de mani`re ingalitaire. e e e

En langage R

4.3. MESURES DE LINEGALITE

83

Figure 4.1 Courbe de Lorenz


1.0

0.8 proportion de revenu

0.6

0.4

0.2

0.0 0.0 0.2 0.4 0.6 0.8 1.0

proportion de menages

# # Courbe de Lorenz et indices dingalit e e # # Etape 1 : on installe la package ineq utils:::menuInstallPkgs() # choisir ineq dans la liste # #Etape 2 : on charge le package ineq local({pkg <- select.list(sort(.packages(all.available = TRUE))) + if(nchar(pkg)) library(pkg, character.only=TRUE)}) # choisir ineq dans la liste # # Utilisation de la base de donnes Ilocos e # Enqu^te sur le revenu de lOffice de Statistique Philippin e data(Ilocos) attach(Ilocos) # plot(Lc(income),xlab="proportion de menages", ylab="proportion de revenu",main="")

84

CHAPITRE 4. THEORIE DES INDICES, MESURES DINEGALITE

4.3.3

Indice de Gini

Lindice de Gini, not G est gal ` deux fois la surface comprise entre la e e a courbe de Lorenz et la diagonale. Il est possible de montrer que : n n 1 i=1 j=1 |xi xj | n(n1) G= . 2 x En utilisant la statistique dordre x(1) , . . . , x(i) , . . . , x(n) , lindice de Gini peut galement scrire e e ] [ n 2 i=1 ix(i) 1 G= (n + 1) . n1 n x Lindice de Gini est compris entre 0 et 1. Sil est proche de 0, tous le revenus sont gaux. Sil est proche de 1, les revenus sont tr`s ingaux. e e e

4.3.4

Indice de Hoover

Lindice dquirpartition de Hoover (ou Robin Hood index) est dni comme e e e la proportion de revenus quil faudrait prendre aux individus gagnant plus que la moyenne et redistribuer aux individus gagnant moins que la moyenne pour que tout le monde ait le mme revenu. Il est formellement dnit par : e e n 1 |xi x| H = n i=1 . 2 x Cet indice est galement compris entre 0 et 1. Il vaut 0 si tous les individus ont e le mme revenu. e Cet indice est galement li ` la courbe de Lorenz, car il est possible de e e a montrer quil correspond ` la plus grande distance verticale entre la courbe de a Lorenz et la diagonale.

4.3.5

Quintile et Decile share ratio

On dnit dabord : e S10 revenu moyen des individus ayant un revenu infrieur au premier dcile e e x1/10 , S20 revenu moyen des individus ayant un revenu infrieur au premier quine tile ou deuxi`me dcile x1/5 , e e S80 revenu moyen des individus ayant un revenu suprieur au quatri`me e e quintile ou huiti`me dcile x4/5 , e e S90 revenu moyen des individus ayant un revenu suprieur au neuvi`me e e dcile x9/10 . e Le quintile share ratio est dnit par e QSR = S80 . S20

4.3. MESURES DE LINEGALITE Le decile share ratio est dnit par e DSR = S90 . S10

85

Ces quantits sont toujours plus grandes que 1 et augmentent avec lingalit. e e e Ces deux rapports sont facilement interprtables, par exemple si le QSR = 5, e cela signie que le revenu moyen de 20% des plus riches est 5 fois plus grand que le revenu moyen de 20% des plus pauvres.

4.3.6

Indice de pauvret e

Un indice simple de pauvret consiste ` calculer le pourcentage de la popue a lation gagnant moins que la moiti de la mdiane. e e

4.3.7

Indices selon les pays

Le tableau 4.4 reprend pour tous les pays lindice de Gini et le rapport des 20% les plus riches sur les 20% les plus pauvres. (rfrence : United Nations ee 2005 Development Programme Report, page 270).

Exercices
Exercice 4.1 Etudiez les proprits (circularit, rversibilit, identit et tranee e e e e sitivit) de tous les indices de prix prsents. e e e

86

CHAPITRE 4. THEORIE DES INDICES, MESURES DINEGALITE

Table 4.4 Mesures de lingalit par pays e e


Rang 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 61 65 92 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 Pays Denmark Japan Sweden Belgium Czech Republic Norway Slovakia Bosnia and Herzegovina Uzbekistan Finland Hungary Republic of Macedonia Albania Germany Slovenia Rwanda Croatia Ukraine Austria Ethiopia Romania Mongolia Belarus Netherlands Russia South Korea Bangladesh Lithuania Bulgaria Kazakhstan Spain India Tajikistan France Pakistan Canada Switzerland Sri Lanka Burundi Estonia Portugal United States Peru Malawi Mali Niger Nigeria Papua New Guinea Argentina Zambia El Salvador Mexico Honduras Panama Zimbabwe Chile Colombia Paraguay South Africa Brazil Guatemala Swaziland Central African Republic Sierra Leone Botswana Lesotho Namibia Indice de Gini 24.7 24.9 25 25 25.4 25.8 25.8 26.2 26.8 26.9 26.9 28.2 28.2 28.3 28.4 28.9 29 29 30 30 30.3 30.3 30.4 30.9 31 31.6 31.8 31.9 31.9 32.3 32.5 32.5 32.6 32.7 33 33.1 33.1 33.2 33.3 37.2 38.5 46.6 49.8 50.3 50.5 50.5 50.6 50.9 52.2 52.6 53.2 54.6 55 56.4 56.8 57.1 57.6 57.8 57.8 59.3 59.9 60.9 61.3 62.9 63 63.2 70.7 DSR 8.1 4.5 6.2 7.8 5.2 6.1 6.7 5.4 6.1 5.6 5.5 6.8 5.9 6.9 5.9 5.8 7.3 6.4 7.6 6.6 8.1 17.8 6.9 9.2 7.1 7.8 6.8 7.9 9.9 7.5 9 7.3 7.8 9.1 7.6 10.1 9.9 8.1 19.3 14.9 15 15.9 49.9 22.7 23.1 46 24.9 23.8 39.1 41.8 47.4 45 49.1 62.3 22 40.6 57.8 73.4 33.1 68 55.1 49.7 69.2 87.2 77.6 105 128.8 QSR 4.3 3.4 4 4.5 3.5 3.9 4 3.8 4 3.8 3.8 4.4 4.1 4.3 3.9 4 4.8 4.3 4.7 4.3 5.2 9.1 4.6 5.1 4.8 4.7 4.6 5.1 5.8 5.1 5.4 4.9 5.2 5.6 4.8 5.8 5.8 5.1 9.5 7.2 8 8.4 18.4 11.6 12.2 20.7 12.8 12.6 18.1 17.2 19.8 19.3 21.5 24.7 12 18.7 22.9 27.8 17.9 26.4 24.4 23.8 32.7 57.6 31.5 44.2 56.1 Anne e de lenqute e 1997 1993 2000 1996 1996 2000 1996 2001 2000 2000 2002 1998 2002 2000 1998 1983 2001 1999 1997 1999 2002 1998 2000 1999 2002 1998 2000 2000 2001 2003 1990 1999 2003 1995 1998 1998 1992 1999 1998 2000 1997 2000 2000 1997 1994 1995 1996 1996 2001 1998 2000 2000 1999 2000 1995 2000 1999 2002 2000 2001 2000 1994 1993 1989 1993 1995 1993

Chapitre 5

Calcul des probabilits et e variables alatoires e


5.1
5.1.1

Probabilits e
e Evnement

Une exprience est dite alatoire si on ne peut pas prdire a priori son e e e rsultat. On note un rsultat possible de cette exprience alatoire. Lensemble e e e e de tous les rsultats possibles est not . Par exemple, si on jette deux pi`ces e e e de monnaie, on peut obtenir les rsultats e = {(P, P ), (F, P ), (P, F ), (F, F )} , avec F pour face et P pour pile. Un vnement est une assertion logique e e sur une exprience alatoire comme avoir deux fois pile ou avoir au moins e e une fois pile. Formellement, un vnement est un sous-ensemble de . e e Lvnement avoir deux fois pile est le sous ensemble {(P, P )}. e e Lvnement avoir au moins une fois pile est le sous ensemble {(P, P ), (F, P ), (P, F )}. e e Lensemble est appel vnement certain, et lensemble vide est appel ee e e vnement impossible. e e

5.1.2

Oprations sur les vnements e e e

Sur les vnements, on peut appliquer les oprations habituelles de la thorie e e e e des ensembles. Lunion Lvnement A B est ralis d`s que A ou B est ralis. Dans un lancer de e e e e e e e d, si lvnement A est obtenir un nombre pair et lvnement B obtenir e e e e e un multiple de 3, lvnement A B est lvnement obtenir un nombre pair e e e e OU un multiple de 3, cest-`-dire {2, 3, 4, 6}. a 87

88CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES Lintersection Lvnement A B est ralis d`s que A et B sont raliss conjointement e e e e e e e dans la mme exprience. Dans un lancer de d, si lvnement A est obtenir un e e e e e nombre pair et lvnement B obtenir un multiple de 3, lvnement A B e e e e est lvnement obtenir un nombre pair ET multiple de 3, cest-`-dire {6}. e e a La dirence e Lvnement A\B est ralis quand A est ralis et que B ne lest pas. e e e e e e Le complmentaire e Le complmentaire de lvnement A est lvnement \A. Le complmentaire e e e e e e est not A. e Exemple 5.1 Lexprience peut consister ` jeter un d, alors e a e = {1, 2, 3, 4, 5, 6}, et un vnement, not A, est obtenir un nombre pair. On a alors e e e A = {2, 4, 6} et A = {1, 3, 5}.

5.1.3

Relations entre les vnements e e

e Evnements mutuellement exclusifs Si A B = on dit que A et B sont mutuellement exclusifs, ce qui signie que A et B ne peuvent pas se produire ensemble. Exemple 5.2 Si on jette un d, lvnement obtenir un nombre pair et e e e lvnement obtenir un nombre impair ne peuvent pas tre obtenus en mme e e e e temps. Ils sont mutuellement exclusifs. Dautre part, si lon jette un d, les e vnements A : obtenir un nombre pair nest pas mutuellement exclusif avec e e lvnement B : obtenir un nombre infrieur ou gal ` 3. En eet, lintersece e e e a tion de A et B est non-vide et consiste en lvnement obtenir 2. e e

Inclusion Si A est inclus dans B, on crit A B. On dit que A implique B. e Exemple 5.3 Si on jette un d, on consid`re les vnements A obtenir 2 et e e e e B obtenir un nombre pair. A = {2} et B = {2, 4, 6}.

5.1. PROBABILITES On dit que A implique B.

89

5.1.4

Ensemble des parties dun ensemble et syst`me come plet

On va associer ` lensemble A de toutes les parties (ou sous-ensembles) a de . Exemple 5.4 Si on jette une pi`ce de monnaie alors = {P, F }, et e A = {, {F }, {P }, {F, P }} .

Dnition 5.1 Les vnements A1 , . . . , An forment un syst`me complet dvnements, e e e e e e si ils constituent une partition de , cest-`-dire si a tous les couples Ai , Aj sont mutuellement exclusifs quand i = j, n i=1 Ai = . Table 5.1 Syst`me complet dvnements e e e

A1

1111111 0000000

1111111 0000000

An

5.1.5

Axiomatique des Probabilits e

Dnition 5.2 Une probabilit P (.) est une application de A dans [0, 1], telle e e que : Pr() = 1, Pour tout ensemble dnombrable dvnements A1 , .., An mutuellement exe e e clusifs (tels que Ai Aj = , pour tout i = j), Pr (A1 A2 A3 An ) = Pr(A1 ) + Pr(A2 ) + Pr(A3 ) + + Pr(An ). A partir des axiomes, on peut dduire les proprits suivantes : e ee Proprit 5.1 Pr() = 0. e e

90CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES Dmonstration e Comme est dintersection vide avec , on a que Pr( ) = Pr() + Pr(). Donc, Pr() = 2Pr(), ce qui implique que Pr() = 0. Proprit 5.2 Pr(A) = 1 Pr(A). e e Dmonstration e On sait que A A = et A A = . Ainsi, on a que Pr() = Pr(A A) = Pr(A) + Pr(A). Mais, par la dnition dune probabilit, Pr() = 1. Donc, e e Pr(A) + Pr(A) = 1 On en dduit que Pr(A) = 1 Pr(A). e Proprit 5.3 Pr(A) Pr(B) si A B. e e Dmonstration e Comme A B, on a Mais on a que (B A) A = . Ainsi, on a Pr(B) = Pr(B A) + Pr(A). Or une probabilit est ` valeur dans [0,1], donc Pr(B A) 0. On a alors e a Pr(B) Pr(A). 2 Proprit 5.4 Pr(A B) = Pr(A) + Pr(B) Pr(A B). e e Dmonstration e On a A B = A (B A), et A (B A) = . 2 2

B = (B A) A.

5.1. PROBABILITES Donc Pr(A B) = Pr(A) + Pr(B A). Il reste ` montrer que a Pr(B A) = Pr(B) Pr(A B) En eet, B = (B A) (B A) avec (B A) (B A) = Donc Pr(B) = Pr(B A) + Pr(B A), ce qui donne Pr(B A) = Pr(B) Pr(A B). ( Proprit 5.5 Pr e e
n

91

) Ai

2
n i=1

Pr(Ai )

i=1

Dmonstration e Notons respectivement B1 = A1 , B2 = (A2 \A1 ), B3 = (A3 \(A1 A2 )),

B4 = (A4 \(A1 A2 A3 )), . . . , Bn = (An \(A1 A2 A3 An1 )). Comme


n i=1

Ai =

n i=1

Bi ,

et que Bi Bj = pour tout j = i, alors (n ) n Pr Bi = Pr (Bi ) .


i=1 i=1

De plus, comme, pour tout i, Bi Ai , on a que Pr(Bi ) Pr(Ai ), ce qui donne nalenent ( n ) (n ) n n Pr Ai = Pr Bi = Pr (Bi ) Pr (Ai ) .
i=1 i=1 i=1 i=1

2 Proprit 5.6 Si A1 , . . . , An forment un syst`me complet dvnements, alors e e e e e


n i=1

Pr(B Ai ) = Pr(B).

92CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES Dmonstration e Si A1 , . . . , An forment un syst`me complet dvnements, alors e e e B=
n i=1

(B Ai ).

Mais on a, pour tout i, j tels que i = j (B Ai ) (B Aj ) = . Finalement, on a que ( Pr(B) = Pr


n

) (B Ai ) =

n i=1

Pr(B Ai ). 2

i=1

5.1.6

Probabilits conditionnelles et indpendance e e


Pr(A B) . Pr(B)

Dnition 5.3 Soient deux vnements A et B, si Pr(B) > 0, alors e e e Pr(A|B) =

Exemple 5.5 Si on jette un d, et que lon consid`re les deux vnements e e e e suivants : A lv`nement avoir un nombre pair et e e B lv`nement avoir un nombre suprieur ou gal ` 4. e e e e a On a donc 1 Pr(A) = Pr({2, 4, 6}) = , 2 1 3 Pr(B) = Pr({4, 5, 6}) = = , 6 2 2 1 Pr(A B) = Pr({4, 6}) = = , 6 3 Pr(A B) 1/3 2 Pr(A|B) = = = . Pr(B) 1/2 3

Dnition 5.4 Deux vnements A et B sont dits indpendants si e e e e Pr(A|B) = Pr(A). On peut montrer facilement que si A et B sont indpendants, alors e Pr(A B) = Pr(A)Pr(B).

5.1. PROBABILITES

93

5.1.7

Thor`me des probabilits totales et thor`me de e e e e e Bayes

Thor`me 5.1 (des probabilits totales) Soit A1 , . . . , An un syst`me complet e e e e dvnements, alors e e n Pr(B) = Pr(Ai )Pr(B|Ai ).
i=1

Table 5.2 Illustration du thor`me des probabilits totales e e e

A1

Ai

An

111111 000000
En eet,
n i=1

1111111 0000000
n i=1

Pr(Ai )Pr(B|Ai ) =

Pr(B Ai ).

Comme les vnements Ai B sont mutuellement exclusifs, e e


n i=1

Pr(B Ai ) = Pr

n i=1

(B Ai ) = Pr(B).

Thor`me 5.2 (de Bayes) Soit A1 , . . . , An un syst`me complet dvnements, e e e e e alors Pr(Ai )Pr(B|Ai ) Pr(Ai |B) = n . j=1 Pr(Aj )Pr(B|Aj ) En eet, par le thor`me des probabilits totales, e e e Pr(Ai )Pr(B|Ai ) Pr(B Ai ) n = = Pr(Ai |B). Pr(B) j=1 Pr(Aj )Pr(B|Aj ) Exemple 5.6 Supposons quune population dadultes soit compose de 30% de e fumeurs (A1 ) et de 70% de non-fumeurs (A2 ). Notons B lvnement mourir e e dun cancer du poumon. Supposons en outre que la probabilit de mourir e dun cancer du poumon est gale ` Pr(B|A1 ) = 20% si lon est fumeur et de e a Pr(B|A2 ) = 1% si lon est non-fumeur. Le thor`me de Bayes permet de calculer e e

94CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES les probabilits a priori, cest-`-dire la probabilit davoir t fumeur si on est e a e ee mort dun cancer du poumon. En eet, cette probabilit est note Pr(A1 |B) et e e peut tre calcule par e e Pr(A1 |B) = Pr(A1 )Pr(B|A1 ) 0.3 0.2 0.06 = = 0.896. Pr(A1 )Pr(B|A1 ) + Pr(A2 )Pr(B|A2 ) 0.3 0.2 + 0.7 0.01 0.06 + 0.007

La probabilit de ne pas avoir t non-fumeur si on est mort dun cancer du e ee poumon vaut quant ` elle : a Pr(A2 |B) = 0.7 0.01 0.07 Pr(A2 )Pr(B|A2 ) = = 0.104. Pr(A1 )Pr(B|A1 ) + Pr(A2 )Pr(B|A2 ) 0.3 0.2 + 0.7 0.01 0.06 + 0.007

5.2
5.2.1

Analyse combinatoire
Introduction

Lanalyse combinatoire est ltude mathmatique de la mani`re de ranger des e e e objets. Lanalyse combinatoire est un outil utilis dans le calcul des probabilits. e e

5.2.2

Permutations (sans rptition) e e

Une permutation sans rptition est un classement ordonn de n objets dise e e tincts. Considrons par exemple lensemble {1, 2, 3}. Il existe 6 mani`res dore e donner ces trois chires : {1, 2, 3}, {1, 3, 2}, {2, 1, 3}, {2, 3, 1}, {3, 1, 2}, {3, 2, 1}. Si on dispose de n objets, chacun des n objets peut tre plac ` la premi`re place. e ea e Il reste ensuite n 1 objets qui peuvent tre placs ` la deuxi`me place, puis e e a e n2 objets pour la troisi`me place, et ainsi de suite. Le nombre de permutations e possibles de n objets distincts vaut donc n (n 1) (n 2) 2 1 = n!. La notation n! se lit factorielle de n (voir tableau 5.3). Table 5.3 Factorielle des nombres de 1 ` 10 a n 0 1 2 3 n! 1 1 2 6 4 24 5 120 6 720 7 5040 8 40320 9 362880 10 3628800

5.2. ANALYSE COMBINATOIRE

95

5.2.3

Permutations avec rptition e e

On peut galement se poser la question du nombre de mani`res de ranger e e des objets qui ne sont pas tous distincts. Supposons que nous ayons 2 boules rouges (notes R) et 3 boules blanches (notes B). Il existe 10 permutations e e possibles qui sont : {R, R, B, B, B}, {R, B, R, B, B}, {R, B, B, R, B}, {R, B, B, B, R}, {B, R, R, B, B}, {B, R, B, R, B}, {B, R, B, B, R}, {B, B, R, R, B}, {B, B, R, B, R}, {B, B, B, R, R}. Si lon dispose de n objets appartenant ` deux groupes de tailles n1 et n2 , le a nombre de permutations avec rptition est e e n! . n1 !n2 ! Par exemple si lon a 3 boules blanches et 2 boules rouges, on obtient n! 5! 120 = = = 10. n1 !n2 ! 2!3! 26 Si lon dispose de n objets appartenant ` p groupes de tailles n1 , n2 , . . . , np , a le nombre de permutations avec rptition est e e n! . n1 !n2 ! np !

5.2.4

Arrangements (sans rptition) e e

Soit n objets distincts. On appelle un arrangement une mani`re de slectionner e e k objets parmi les n et de les ranger dans des bo numrotes de 1 ` k. tes e e a Dans la premi`re bo on peut mettre chacun des n objets. Dans la seconde e te, e te, bo on peut mettre chacun des n 1 objets restants, dans la troisi`me bo te, on peut mettre chacun des n 2 objets restants et ainsi de suite. Le nombre darrangements possibles est donc gal ` : e a Ak = n (n 1) (n 2) (n k + 1) = n n! . (n k)!

5.2.5

Combinaisons

Soit n objets distincts. On appelle une combinaison une mani`re de slectionner e e k objets parmi les n sans tenir compte de leur ordre. Le nombre de combinaisons est le nombre de sous-ensembles de taille k dans un ensemble de taille n. Soit lensemble {1, 2, 3, 4, 5}. Il existe 10 sous-ensembles de taille 3 qui sont : {1, 2, 3}, {1, 2, 4}, {1, 2, 5}, {1, 3, 4}, {1, 3, 5}, {1, 4, 5}, {2, 3, 4}, {2, 3, 5}, {2, 4, 5}, {3, 4, 5}. De mani`re gnrale, quel est le nombre de combinaisons de k objets parmi e e e n ? Commenons par calculer le nombre de mani`res direntes de slectionner c e e e

96CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES k objets parmi n en tenant compte de lordre : cest le nombre darrangements sans rptition Ak . Comme il existe k! mani`res dordonner ces k lments, si e e e ee n lon ne veut pas tenir compte de lordre on divise Ak par k!. Le nombre de n combinaisons de k objets parmi n vaut donc Ak n! n = . k! k!(n k)! Le nombre de combinaisons de k objets parmi n scrit parfois e k Cn : (n) n! k = Cn = . k k!(n k)! (n)
k

et parfois

Par exemple, si on cherche ` dterminer le nombre de combinaisons de 3 objets a e parmi 5, on a ( ) 5 5! 120 3 = C5 = = = 10. 3 3!(5 3)! 62

5.3
5.3.1

Variables alatoires e
Dnition e

La notion de variable alatoire formalise lassociation dune valeur au rsultat e e dune exprience alatoire. e e Dnition 5.5 Une variable alatoire X est une application de lensemble fone e damental dans R.

Exemple 5.7 On consid`re une exprience alatoire consistant ` lancer deux e e e a pi`ces de monnaie. Lensemble des rsultats possibles est e e = {(F, F ), (F, P ), (P, F ), (P, P )}. Chacun des lments de a une probabilit 1/4. Une variable alatoire va ee e e associer une valeur ` chacun des lments de . Considrons la variable alatoire a ee e e reprsentant le nombre de Faces obtenus : e e 0 avec une probabilit 1/4 1 avec une probabilit 1/2 e X= 2 avec une probabilit 1/4. e Cest une variable alatoire discr`te dont la distribution de probabilits est e e e prsente en Figure 5.1. e e

` 5.4. VARIABLES ALEATOIRES DISCRETES


0.5

97

0.0 0

0.1

0.2

0.3

0.4

Figure 5.1 Distribution de faces obtenus.

5.4
5.4.1

Variables alatoires discr`tes e e


Dnition, esprance et variance e e

Une variable alatoire discr`te prend uniquement des valeurs enti`res (de Z). e e e Une distribution de probabilits pX (x) est une fonction qui associe ` chaque e a valeur enti`re une probabilit. e e pX (x) = Pr(X = x), x Z. La fonction de rpartition est dnie par e e FX (x) = Pr(X x) =
zx

pX (z).

Lesprance mathmatique dune variable alatoire discr`te est dnie de la e e e e e mani`re suivante : e = E(X) = xpX (x),
xZ

et sa variance

[ ] 2 2 = var(X) = E {X E(X)} = pX (x)(x )2 = pX (x)x2 2 .


xZ xZ

On peut aussi calculer les moments et tous les autres param`tres. e

5.4.2

Variable indicatrice ou bernoullienne

La variable indicatrice X de param`tre p [0, 1] a la distribution de probae bilits suivante : e { 1 avec une probabilit p e X= 0 avec une probabilit 1 p. e

98CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES Lesprance vaut e = E(X) = 0 (1 p) + 1 p = p, et la variance vaut 2 = var(X) = E(X p)2 = (1 p)(0 p)2 + p(1 p)2 = p(1 p). Exemple 5.8 On tire au hasard une boule dans une urne contenant 18 boules rouges et 12 boules blanches. Si X vaut 1 si la boule est rouge et 0 sinon, alors X a une loi bernoullienne de param`tre p = 18/(18 + 12) = 0.6. e

5.4.3

Variable binomiale

La variable alatoire binomiale de param`tres n et p correspond ` lexprience e e a e suivante. On renouvelle n fois de mani`re indpendante une preuve de Bernoulli e e e de param`tre p, o` p est la probabilit de succ`s pour une exprience lmentaire. e u e e e ee Ensuite, on note X le nombre de succ`s obtenus. Le nombre de succ`s est une e e variable alatoire prenant des valeurs enti`res de 0 ` n et ayant une distribution e e a binomiale. Une variable X suit une loi binomiale de param`tre 0 < p < 1 et dexposant e n, si (n) Pr(X = x) = px q nx , x = 0, 1, . . . , n 1, n, x o` q = 1 p, et u (n) n! = . x x!(n x)! De mani`re synthtique, si X a une distribution binomiale, on note : e e X B(n, p). Rappel Cette variable est appele binomiale car sa distribution de probae bilits est un terme du dveloppement du binme de Newton (p + q)n . e e o (p + q)0 (p + q)1 (p + q)2 (p + q)3 (p + q)4 = 1 = p+q =1 = p2 + 2pq + q 2 = 1 = p3 + 3p2 q + 3pq 2 + q 3 = 1 = p4 + 4p3 q + 6p2 q 2 + 4pq 3 + q 4 = 1 . . . n (n) = px q nx = 1. x x=0

(p + q)n

` 5.4. VARIABLES ALEATOIRES DISCRETES La somme de ces probabilits vaut 1. En eet e

99

n x=0

Pr(X = x) =

n (n) x=0

px q nx = (p + q)n = 1.

Lesprance se calcule de la mani`re suivante : e e

E(X) = = =

n x=0 n x=0 n

xPr(X = x) x x (n) x (n) px q nx

px q nx (on peut enlever le terme x = 0) x x=1 n (n 1) = n px q nx x1 x=1 n (n 1) = np px1 q (n1)(x1) x1 x=1 n1 ( n 1) = np pz q (n1)z (en posant z = x 1) z z=0 = np(p + q)n1 = np.

Thor`me 5.3 La variance est donne par e e e

var(X) = npq.

Dmonstration e Pour calculer cette variance, nous allons dabbord calculer E[X(X 1)]. Ce

100CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES rsultat prliminaire nous permettra de dterminer ensuite la variance. e e e E[X(X 1)] = = =
n x=0 n x=0 n

x(x 1)Pr(X = x) x(x 1) x(x 1) (n) x (n) px q nx

px q nx (on peut enlever les termes x = 0 et x = 1) x x=2 ( ) n n2 = n(n 1) px q nx x2 x=2 n (n 2) 2 = n(n 1)p px2 q (n2)(x2) x2 x=2 n2 ( n 2) 2 = n(n 1)p pz q (n2)z (en posant z = x 2) z z=0 = n(n 1)p2 (p + q)n2 = n(n 1)p2 . Comme var(X) = E(X 2 ) E2 (X) et que E[X(X 1)] = E(X 2 ) E(X), on obtient var(X) = E[X(X1)]+E(X)E2 (X) = n(n1)p2 +np(np)2 = np(1p) = npq. 2

Exemple 5.9 On tire au hasard avec remise et de mani`re indpendante 5 e e boules dans une urne contenant 18 boules rouges et 12 boules blanches. Si X est le nombre de boules rouges obtenues, alors X a une loi binomiale de param`tre e p = 18/(18 + 12) = 0.6, et dexposant n = 5. Donc, ( ) 5 0.6x 0.45x , x = 0, 1, . . . , 4, 5, x

Pr(X = x) =

` 5.4. VARIABLES ALEATOIRES DISCRETES ce qui donne Pr(X = 0) Pr(X = 1) Pr(X = 2) Pr(X = 3) Pr(X = 4) Pr(X = 5) = = = = = = 5! 0.60 0.450 0!(5 0)! 5! 0.61 0.451 1!(5 1)! 5! 0.62 0.452 2!(5 2)! 5! 0.63 0.453 3!(5 3)! 5! 0.64 0.454 4!(5 4)! 5! 0.65 0.455 5!(5 5)! = 1 0.45 = 0.01024 = 5 0.61 0.44 = 0.0768 = 10 0.62 0.43 = 0.2304 = 10 0.63 0.42 = 0.3456 = 5 0.64 0.41 = 0.2592 = 1 0.65 = 0.07776.

101

La distribution de probabilits de la variable X est prsente dans la Figure 5.2. e e e

0.00 0

0.15

0.30

Figure 5.2 Distribution dune variable alatoire binomiale avec n = 5 et e p = 0.6.

Exemple 5.10 Supposons que, dans une population dlecteurs, 60% des e lecteurs sapprtent ` voter pour le candidat A et 40% pour le candidat B e e a et que lon slectionne un chantillon alatoire de 10 lecteurs avec remise dans e e e e cette population. Soit X le nombre de personnes sapprtant ` voter pour le e a candidat A dans lchantillon. La variable X a une distribution binomiale de e param`tres n = 10 et p = 0.6 et donc e ( Pr(X = x) = 10 x ) 0.6x (0.4)10x , x = 0, 1, . . . , n 1, n.

102CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES

5.4.4

Variable de Poisson

La variable X suit une loi de Poisson, ou loi des vnements rares, de pae e ram`tre R+ si e Pr(X = x) = e x , x = 0, 1, 2, 3, . . . . x!

On note alors X P(). La somme des probabilits est bien gale ` 1, en eet e e a
x=0

Pr(X = x) =

e x x=0

x!

= e

x x=0

x!

= e e = 1.

Cette loi exprime la probabilit de loccurence dun nombre dvnements dans e e e un laps de temps xe si ces vnements se produisent avec un taux moyen connu e e () et indpendamment du temps doccurrence du dernier vnement. e e e Lesprance et la variance dune loi de Poisson sont gales au param`tre . e e e En eet E(X) = = = = = = =
x=0 x=0

xPr(X = x) x e x x!

x x x! x=1 x1 (x 1)! x=1 z z=0

e e

z!

en posant z = x 1

e e .

En outre, il est possible de montrer que var(X) = . La distribution de probabilits dune variable de Poisson P( = 1) est prsente e e e dans la Figure 5.3. En langage R # # distributions de probabilits discr`tes e e #

5.5. VARIABLE ALEATOIRE CONTINUE

103

0.0 0

0.2

Figure 5.3 Distribution dune variable de Poisson avec = 1. # nombre de faces obtenues en lanant deux pi`ces c e plot(0:2,dbinom(0:2, 2,0.5),type = "h", lwd=3, ylim=c(0,0.5),xlab="",ylab="",xaxt = "n",frame = FALSE) axis(1, 0:2, 0:2, col.axis = "blue") # binomiale B(5,0.6) plot(dbinom(0:5, 5,0.6),type = "h", lwd=3,xlab="",ylab="",main="",frame=FALSE) # Poisson P(1) plot(dpois(0:7, 1),type = "h", lwd=3,xlab="",ylab="",main="",frame=FALSE)

5.5
5.5.1

Variable alatoire continue e


Dnition, esprance et variance e e

Une variable alatoire continue prend des valeurs dans R ou dans un intere valle de R. La probabilit quune variable alatoire continue soit infrieure ` une valeur e e e a particuli`re est donne par sa fonction de rpartition. e e e Pr(X x) = F (x). La fonction de rpartition dune variable alatoire continue est toujours : e e drivable, e positive : F (x) 0, pour tout x, croissante, limx F (x) = 1, limx F (x) = 0. On a Pr(a X b) = F (b) F (a).

104CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES La fonction de densit dune variable alatoire continue est la drive de la e e e e fonction de rpartition en un point e f (x) = dF (x) . dx

Une fonction de densit est toujours : e positive : f (x) 0, pour tout x, daire gale ` un : f (x)dx = 1. e a On a videmment la relation : e b F (b) = f (x)dx.

La probabilit que la variable alatoire soit infrieure ` une valeur quelconque e e e a vaut : a Pr(X a) = f (x)dx = F (a).

Dans la Figure 5.4, la probabilit Pr[X a] est laire sous la densit de ` e e a a.

Pr[X a] = F (a) 0 a +

Figure 5.4 Probabilit que la variable alatoire soit infrieure ` a e e e a La probabilit que la variable alatoire prenne une valeur comprise entre a e e et b vaut b Pr(a X b) = f (x)dx = F (b) F (a).
a

Si la variable alatoire est continue, la probabilit quelle prenne exactement e e une valeur quelconque est nulle : Pr(X = a) = 0. Lesprance dune variable alatoire continue est dnie par : e e e = E(X) = xf (x)dx,

et la variance 2 = var(X) =

(x )2 f (x)dx.

5.5. VARIABLE ALEATOIRE CONTINUE

105

5.5.2

Variable uniforme

Une variable alatoire X est dite uniforme dans un intervalle [a,b] (avec e a < b), si sa rpartition est : e 0 (x a)/(b a) F (x) = 1 Sa densit est alors e 0 1/(b a) f (x) = 0 De mani`re synthtique, on crit : e e e X U (a, b). Les logiciels gn`rent en gnral des variables alatoires uniformes dans [0,1]. e e e e e Les Figures 5.5 et 5.6 reprsentent respectivement les fonctions de densit et de e e rpartition dune variable uniforme. e f (x)
1 ba

si x < a si a x b si x > b.

si x < a si a x b si x > b.

a b Figure 5.5 Fonction de densit dune variable uniforme e On peut calculer lesprance et la variance : e Rsultat 5.1 e = E(X) = b+a 2

106CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES

6 " " " " " F (x) " "

" " " "

" " " " a

Figure 5.6 Fonction de rpartition dune variable uniforme e

Dmonstration e = E(X) b = xf (x)dx = = = = = =


a b

1 dx ba a b 1 xdx ba a [ 2 ]b x 1 ba 2 a ( 2 ) 1 b a2 ba 2 2 1 1 (b + a)(b a) ba2 a+b . 2 x 2

Rsultat 5.2 e 2 = var(X) = (b a)2 . 12

Dmonstration e De mani`re gnrale, une variance peut toujours scrire comme un moment ` e e e e a

5.5. VARIABLE ALEATOIRE CONTINUE lorigine dordre 2 moins le carr de la moyenne. En eet, e 2 = var(X) b = (x )2 f (x)dx = = = =
a a b a b a b a b

107

(x2 + 2 2x)f (x)dx x2 f (x)dx +


a b

2 f (x)dx 2
a

xf (x)dx

x2 f (x)dx + 2 22 x2 f (x)dx 2 .

On calcule ensuite un moment ` lorigine dordre 2 : a b b 1 x2 f (x)dx = x2 dx ba a a b 1 = x2 dx ba a [ 3 ]b x 1 = ba 3 a ( 3 ) 1 b a3 = ba 3 3 1 1 2 = (b + ab + a2 )(b a) ba3 b2 + ab + a2 = . 3 On obtient enn la variance par dirence : e b 2 = x2 f (x)dx 2
a

= = = =

b2 + ab + a2 (a + b)2 3 4 4b2 + 4ab + 4a2 3a2 + 6ab + 3b2 12 12 b2 2ab + a2 12 (b a)2 . 12 2

108CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES

5.5.3

Variable normale

Une variable alatoire X est dite normale si sa densit vaut e e ( )2 1 1 x f,2 (x) = exp , 2 2

(5.1)

o` R et R+ sont les param`tres de la distribution. Le param`tre est u e e appel la moyenne et le param`tre lcart-type de la distribution. e e e

Figure 5.7 Fonction de densit dune variable normale e De mani`re synthtique, pour noter que X suit une loi normale (ou gause e sienne, dapr`s Carl Friedrich Gauss) de moyenne et de variance 2 on crit : e e X N (, 2 ). La loi normale est une des principales distributions de probabilit. Elle a de e nombreuses applications en statistique. Sa fonction de densit dessine une courbe e dite courbe de Gauss. On peut montrer (sans dmonstration) que e E(X) = , et var(X) = 2 . La fonction de rpartition vaut e F,2 (x) =
x

( )2 1 1 u exp du. 2 2

5.5.4

Variable normale centre rduite e e

La variable alatoire normale centre rduite est une variable normale, desprance e e e e nulle, = 0, et de variance 2 = 1. Sa fonction de densit vaut e x2 1 f0,1 (x) = exp . 2 2

5.5. VARIABLE ALEATOIRE CONTINUE

109

0.5

Figure 5.8 Fonction de rpartition dune variable normale e et sa rpartition vaut e (x) = F0,1 (x) =
x

1 exp 2

u2 2

) du.

Du fait de la symtrie de la densit, on a la relation e e (x) = 1 (x), qui se comprend facilement en examinant la Figure 5.9.

Figure 5.9 Densit dune normale centre rduite, symtrie e e e e De plus, le calcul de la rpartition dune variable normale de moyenne et e de variance 2 peut toujours tre ramen ` une normale centre rduite. e ea e e Rsultat 5.3 e F,2 (x) = Dmonstration e On a F,2 (x) = En posant z= ( x ) .

1 exp 2

{ ( )2 } 1 u du. 2

u ,

110CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES on obtient u = z + , et donc du = dz. Donc, F,2 (x) =
x

1 exp 2

z2 2

) dz =

) .

2 Les tables de la variable normale ne sont donnes que pour la normale centre e e rduite. Les tables ne donnent (x) que pour les valeurs positives de x, car les e valeurs ngatives peuvent tre trouves par la relation de symtrie. e e e e

5.5.5

Distribution exponentielle

Soit une variable alatoire X qui dnit la dure de vie dun phnom`ne ou e e e e e don objet. Si la dure de vie est sans vieillissement, cest-`-dire la dure de e a e vie au dela dun instant T est indpendante de linstant T , alors sa fonction de e densit est donne par : e e { exp (x), si x > 0 f (x) = 0 sinon On dit que X suit une loi exponentielle de param`tre positif. De mani`re e e synthtique, on crit : e e X (). Quand x > 0, sa fonction de rpartition vaut : e x x [ ]x F (x) = f (u)du = eu du = eu 0 = 1 ex .
0 0

On peut alors calculer la moyenne : Rsultat 5.4 E(X) = e 1

Dmonstration e E(X) = xf (x)dx =


0 0

[ ] ( ) 1 + x x 1 1 xex dx = e = 0+ = . 0 2

Il est galement possible de montrer que la variance vaut : e var(X) = 1 . 2

5.6

Distribution bivarie e

Deux variables alatoires peuvent avoir une distribution jointe. e

5.6. DISTRIBUTION BIVARIEE

111

0.0 0

0.2

0.4

0.6

0.8

1.0

Figure 5.10 Fonction de densit dune variable exponentielle avec = 1. e

5.6.1

Cas continu

Soit deux variables alatoires X et Y continues, leur distribution de densit e e f (x, y) est une fonction continue, positive, et telle que f (x, y)dxdy = 1.

La fonction de rpartition jointe est dnie par e e x F (x, y) = Pr(X x et Y y) =

f (u, v)dvdu.

On appelle densits marginales les fonctions e fX (x) = f (x, y)dy, et fY (y) =

f (x, y)dx.

Avec les distributions marginales, on peut dnir les moyennes marginales, et e les variances marginales : X = xfX (x)dx, et Y = yfY (y)dy,

2 X =

2 (x X )2 fX (x)dx, et Y =

(y Y )2 fY (y)dy.

112CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES On appelle densits conditionnelles, les fonctions e f (x|y) = f (x, y) f (x, y) et f (y|x) = . fY (y) fX (x)

Avec les distributions conditionnelles, on peut dnir les moyennes conditione nelles, et les variances conditionnelles : X (y) = E(X|Y = y) = xf (x|y)dx, et Y (x) = E(Y |X = x) = yf (y|x)dy,

2 X (y)

{x X (y)} f (x|y)dx, et
2 2 Y

= var(X|Y = y) =

(x) = var(Y |X = x) =

{y Y (x)

Enn, la covariance entre X et Y est dnie par e xy = cov(X, Y ) = (x X )(y Y )f (x, y)dxdy.

5.6.2

Cas discret

Soit deux variables alatoires X et Y discr`tes, leur distribution de probae e bilit jointe p(x, y) est telle que e p(x, y) = 1.
xZ yZ

La fonction de rpartition jointe est dnie par e e F (x, y) = Pr(X x et Y y) =


ux vv

p(u, v).

On appelle distributions de probabilt marginales les fonctions e pX (x) = p(x, y), et pY (y) = p(x, y).
yZ xZ

Avec les distributions marginales, on peut dnir les moyennes marginales, et e les variances marginales : X = xpX (x), et Y = ypY (y),
xZ 2 X = yZ

2 (x X )2 pX (x), et Y =

yZ

(y Y )2 pY (y).

xZ

On appelle densits conditionnelles, les fonctions e p(x|y) = p(x, y) p(x, y) et p(y|x) = . pY (y) pX (x)

5.6. DISTRIBUTION BIVARIEE

113

Avec les distributions conditionnelles, on peut dnir les moyennes conditione nelles, et les variances conditionnelles : X (y) = xp(x|y), et Y (x) = yp(y|x),
xZ 2 X (y) = yZ 2

xZ

2 {x X (y)} p(x|y), et Y (x) =

xZ

{y Y (x)} p(y|x).

Enn, la covariance entre X et Y est dnie par e xy = cov(X, Y ) = (x X )(y Y )p(x, y).
xZ yZ

5.6.3

Remarques

Dans les deux cas discrets et continus, on peut toujours crire e [ ] var(X) = E[X E(X)]2 = E X 2 2XE(X) + E2 (X) = De mme, e var(X|Y = y) = On a galement e cov(X, Y ) = E[X E(X)][Y E(Y )] = E [XY Y E(X) XE(Y ) + E(X)E(Y )] { } E [X E(X|Y = y)]2 |Y = y = E(X 2 |Y = y) E2 (X|Y = y). E(X 2 ) 2E(X)E(X) + E2 (X) = E(X 2 ) E2 (X).

= E(XY ) E(X)E(Y ) E(X)E(Y ) + E(X)E(Y ) = E(XY ) E(X)E(Y ). Loprateur esprance permet donc de dnir la variance et la covariance. e e e

5.6.4

Indpendance de deux variables alatoires e e


Pr(X x et Y y) = Pr(X x)Pr(Y y), pour tout x, y R.

Deux variables alatoires X et Y sont dites indpendantes, si e e

Si X et Y sont discr`tes, cela implique que e Pr(X = x et Y = y) = Pr(X = x)Pr(Y = y), pour tout x, y Z. Si X et Y sont continues, en notant fX (.) et fY (.) les fonctions de densit e respectives de X et Y , et en notant fXY (x, y) la densit jointe des deux e variables, alors X et Y sont indpendants si e fXY (x, y) = fX (x)fY (y), x, y R.

114CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES

5.7

Proprits des esprances et des variances e e e

De mani`re gnrale, pour des variables alatoires X et Y , et avec a et b e e e e constants, on a les rsultats suivants qui sont dmontres pour le cas continu. Ces e e e rsultats sont galement valables pour le cas discret pour lequel les dmonstrations e e e sont similaires. Rsultat 5.5 e E(a + bX) = a + bE(X) Dmonstration e E(a + bX) =
R

(a + bx)f (x)dx = a
R

f (x)dx + b
R

xf (x)dx = a + bE(X). 2

Rsultat 5.6 e E(aY + bX) = aE(Y ) + bE(X). Dmonstration e E(aY + bX) = (ay + bx)f (x, y)dxdy = a yf (x, y)dxdy + b xf (x, y)dxdy R R R R = a y f (x, y)dxdy + b x f (x, y)dydx R R R R = a yf (y)dy + b xf (x)dx
R R R R

= aE(Y ) + bE(X)

2 Quand a et b valent 1, on obtient que lesprance de la somme de deux e variables alatoires est gale ` la somme de leur esprances : e e a e E(X + Y ) = E(X) + E(Y ). Rsultat 5.7 e var(a + bX) = b2 var(X).

5.7. PROPRIETES DES ESPERANCES ET DES VARIANCES Dmonstration e var(a + bX) = = =


R R

115

[a + bx E(a + bX)]2 f (x)dx [a + bx (a + bE(X))]2 f (x)dx

[bx bE(X)]2 f (x)dx R 2 [x E(X)]2 f (x)dx = b


R

= b2 var(X). 2 La variance nest donc pas sensible ` un changement dorigine, mais est a aecte par le carr dun changement dunit. e e e Rsultat 5.8 e var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ). Dmonstration e var(X + Y ) = =
R R R R

[x + y E(X + Y )]2 f (x, y)dxdy [x E(X) + y E(Y )]2 f (x, y)dxdy {

} [x E(X)]2 + [y E(Y )]2 + 2[x E(X)][y E(Y )] f (x, y)dxdy R R = [x E(X)]2 f (x, y)dxdy + [y E(Y )]2 ]f (x, y)dxdy R R R R +2 [x E(X)][y E(Y )]f (x, y)dxdy R R = [x E(X)]2 f (x, y)dydx + [y E(Y )]2 ] f (x, y)dxdy + 2cov(X, Y ) R R R R 2 2 = [x E(X)] fX (x)dx + [y E(Y )] ]fy (Y )dy + 2cov(X, Y ) =
R R

= var(X) + var(Y ) + 2cov(X, Y )

2 Rsultat 5.9 De plus, si X et Y sont indpendantes, on a f (x, y) = fX (x)Y f (y) e e pour tout x, y E(XY ) = E(X)E(Y ).

116CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES Dmonstration e E(XY ) = xyfX (x)fY (y)dxdy = xfX (x)dx yfY (y)dy
R R R R

= E(X)E(Y ). 2 Comme, de mani`re gnrale cov(X, Y ) = E(XY ) E(X)E(Y ), on dduit e e e e directement du Rsultat 5.9 que, si X et Y sont indpendantes, on a cov(X, Y ) = e e 0, et donc var(X + Y ) = var(X) + var(Y ). Attention, la rciproque nest pas vraie. Une covariance nulle nimplique pas e que les deux variables sont indpendantes. e Enn, il est possible de calculer lesprance et la variance dune somme de e variables alatoires indpendantes, et identiquement distribues. e e e Thor`me 5.4 Soit X1 , . . . , Xn une suite de variables alatoires, indpendantes e e e e et identiquement distribues et dont la moyenne et la variance 2 existent et e sont nies, alors si n 1 X= Xi , n i=1 on a E(X) = , et var(X) = Dmonstration e ( ) E X =E et ( ) var X = var ( 1 Xi n i=1
n n

2 . n
n

) =

1 1 E (Xi ) = = . n i=1 n i=1


n

1 Xi n i=1

) =

n n 1 1 2 2 var (Xi ) = 2 = . n2 i=1 n i=1 n

5.8
5.8.1

Autres variables alatoires e


Variable khi-carre e

Soit une suite de variables alatoires indpendantes, normales centres rduites, e e e e X1 , . . . , Xp , (cest-`-dire de moyenne nulle et de variance gale ` 1), alors la vaa e a riable alatoire e p 2 2 p = Xi ,
i=1

5.8. AUTRES VARIABLES ALEATOIRES est appele variable alatoire khi-carr ` p degrs de libert. e e ea e e Il est possible de montrer que E(2 ) = p, p et que var(2 ) = 2p. p

117

0.35

0.3

0.25

0.2

0.15

0.1

0.05

10

12

14

Figure 5.11 Densit dune variable de chi-carr avec p = 1, 2, . . . , 10 e e

5.8.2

Variable de Student

Soit une variable alatoire X normale centre rduite, et une variable alatoire e e e e khi-carr 2 ` p degrs de libert, indpendante de X, alors la variable alatoire e pa e e e e X tp = 2 /p p est appele variable alatoire de Student ` p degrs de libert. e e a e e

5.8.3

Variable de Fisher

Soient deux variables alatoires khi-carrs indpendantes 2 , 2 , respectivee e e p q ment ` p et q degrs de libert, alors la variable alatoire a e e e Fp,q = 2 /p p 2 /q q

est appele variable alatoire de Fisher ` p et q degrs de libert. e e a e e Remarque 5.1 Il est facile de montrer que le carr dune variable de Student e a ` q degrs de libert est une variable de Fisher ` 1 et q degrs de libert. e e a e e

118CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES


0.4

0.3

0.2

0.1

-4

-2

Figure 5.12 Densits de variables de Student avec p = 1, 2 et 3 et dune e variable normale


0.7

0.6

0.5

0.4

0.3

0.2

0.1

Figure 5.13 Densit dune variable de Fisher e

5.8.4

Loi normale bivarie e

Les variables X et Y suivent une loi normale bivarie si leur densit jointe e e est donne par e { [ ]} 2(x x )(y y ) (y y )2 1 1 (x x )2 f (x, y) = exp + . 2 2 2(1 2 ) x x y y 2x y 1 2 (5.2) La fonction de densit dpend de 5 param`tres e e e les deux moyennes marginales x R et y R, 2 2 les deux variances marginales x > 0 et y > 0, le coecient de corrlation 1 < < 1. e Un exemple de normale bivarie est prsente dans la Figure 5.14. e e e La Figure 5.15 montre le nuage de points de 1000 ralisations dune normale e 2 2 bivarie avec les param`tres suivants : x = 8, y = 20, x = 9, y = 25, e e = 0.6. En langage R

5.8. AUTRES VARIABLES ALEATOIRES

119

Figure 5.14 Densit dune normale bivarie e e a=8; b=3 ;c=12 ; d=4 X=a+ b*rnorm(2000) Y=c+X+d*rnorm(2000) plot(X,Y,type="p")

10

15

20

25

30

35

5 X

10

15

Figure 5.15 Nuage de points de ralisations dune normale bivarie e e Thor`me 5.5 Les deux distributions marginales dune distribution normale e e

120CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES bivarie ont une distribution normale donne par : e e 1 (x x )2 fX (x) = f (x, y)dy = exp 2 2x x 2 1 (y y )2 fY (y) = f (x, y)dx = exp 2 2y y 2 Dmonstration (pour fX (x)) e On peut vrier que la densit jointe peut galement scrire : e e e e { ( ) ( )2 } 1 (x x )2 1 1 y y (x) exp exp , f (x, y) = 2 2x 2 y (x) x 2 y (x) 2 o` u y (x) = y + On a fX (x) = = (

y 2 2 (x x ) et y (x) = y (1 2 ). x

f (x, y)dy

(x x )2 exp 2 2x 2

1 exp y (x) 2

1 2

y y (x) y (x)

)2 } dy .

=1

2 Le Thor`me 5.5 montre que les deux distributions marginales sont normales, e e 2 2 que x et y sont les moyennes marginales, et que x et x sont les deux variance marginales de la distribution jointes. On peut galement montrer ` partir du e a Thor`me 5.5 que le volume sous la courbe vaut bien 1. En eet e e f (x, y)dxdy = fY (y)dy = 1.

Attention, la rciproque du Thor`me 5.5 nest pas ncessairement vraie. Une e e e e distribution bivarie dont les deux distributions marginales sont normales, nest e pas ncessairement normale. e Thor`me 5.6 Toutes les distributions conditionnelles dune distribution nore e male bivarie ont une distribution normale donne par : e e { ( )2 } 1 1 y y (x) exp f (y|x) = 2 y (x) y (x) 2 o` u y (x) = y + y 2 2 (x x ) et y (x) = y (1 2 ). x

5.8. AUTRES VARIABLES ALEATOIRES et 1 exp f (x|y) = x (y) 2 o` u x (y) = x + { ( )2 }

121

1 2

x x (y) x (y)

x 2 2 (y y ) et x (y) = x (1 2 ). y

Dmonstration (pour f (y|x)) e f (y|x) = f (x, y) fX (x) 2x y 1 1 2 exp

[ ]} 2(x x )(y y ) (y y )2 1 (x x )2 + 2 2 2(1 2 ) x x y y

= = =

1 (x x )2 exp 2 2x x 2 { [ ] } 1 1 2(x x )(y y ) (y y )2 (x x )2 (x x )2 exp + + 2 2 2 2(1 2 ) x x y y 2x y 2(1 2 ) { [ 2 ]} 2(x x )(y y ) (y y )2 1 1 (x x )2 exp + 2 2 2(1 2 ) x x y y y 2(1 2 ) { ( )2 } 1 1 y y (x x ) exp 2) 2 y x y 2(1 2 1 ( )2 y y xy (x x ) 1 1 exp 2 1 2 y y 2(1 2 ) { } ( )2 1 1 y y (x) exp . 2 y (x) y (x) 2

2 Le Theor`me 5.6 montre que toutes les distributions conditionnelles sont e galement normales. La variance conditionnelle de Y pour une valeur xe de x e e de la variable X vaut : E(Y |X = x) = y (x) = y + y (x x ). x

De mme, lesprance conditionnelle de X pour une valeur xe de y de la e e e variable Y vaut : E(X|Y = y) = x (y) = x + x (y y ). y

La variance conditionnelle de Y pour une valeur xe de x de la variable X e vaut : 2 2 var(Y |X = x) = y (x) = y (1 2 ).

122CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES Cette variance conditionnelle ne dpend pas de x. La variance conditionnelle de e X pour une valeur xe de y de la variable Y vaut : e
2 2 var(X|Y = y) = x (y) = x (1 2 ),

et ne dpend pas de y. Cette variance conditionnelle ne dpend pas de y. Les e e variances conditionnelles sont donc homoscdastiques (mme variance). e e Thor`me 5.7 e e cov(X, Y ) =

(x x )(y y )f (x, y)dydx = x y .

Dmonstration e La covariance peut galement scrire e e cov(X, Y ) = E(XY ) E(X)E(Y ) = On a :


xyf (x, y)dydx x y .

xyf (x, y)dxdy = xyfX (x)f (y|x)dydx = xfX (x) yf (y|x)dydx ] [ y y (x x ) dx = y xfX (x)dx + xfX (x)(x x )dx = xfX (x) y + x x y 2 = y x + x y . = y x + x x

Donc

(x x )(y y )f (x, y)dxdy = x y .

2 Le param`tre est bien un coecient de corrlation entre les variables X et e e X car il peut scrire : e cov(X, Y ) x y = = = . x y var(X)var(Y ) Thor`me 5.8 Si les deux variables X et Y ont une distribution normale bie e varie et que leur coecient de corrlation est nul, alors X et Y sont indpendantes. e e e Dmonstration e Si = 0, alors de lExpression 5.2, la distribution jointe vaut : { [ ]} 1 1 (x x )2 (y y )2 f (x, y) = exp + 2 2 2x y 2 x y ( { }) { }) ( (x x )2 1 (y y )2 1 exp exp = 2 2 2x 2y 2x 2y = fX (x)fY (y).

5.8. AUTRES VARIABLES ALEATOIRES

123

Dans ce cas, la densit jointe peut scrire comme le produit des deux densits e e e marginales. Les deux variables sont donc indpendantes. e 2 Attention, si les deux variables nont pas une distribution normale bivarie, e une covariance nulle nimplique plus que les variables sont indpendantes. e

Exercices
Exercice 5.1 Soit Z N (0, 1). Dterminez : e 1. Pr[Z 1, 23] ; 2. Pr[Z 1, 23] ; 3. Pr[Z [0, 36; 1, 23]] ; 4. Pr[Z [0, 88; 1, 23]] ; 5. Pr[Z > 2, 65 ou Z 1, 49].

Solution 1. Pr[Z 1, 23] = F (1, 23) = 0, 8907 2. Pr[Z 1, 23] = 1 F (1, 23) = 0.1093 3. Pr[Z [0, 36; 1, 23]] = F (1, 23) F (0, 36) = 0, 8907 0, 6406 = 0, 2501 4. Pr[Z [0, 88; 1, 23] = F (1, 23) F (0, 88) = 0, 8907 (1 F (0, 88)) = 0, 8907 0, 1894 = 0, 7013 5. Pr[Z > 2, 65 ou Z 1, 49] = Pr[Z > 2, 65] + Pr[Z 1, 49] = 1 F (2, 65) + F (1, 49) = 1 F (2, 65) + 1 F (1, 49) = 2 0, 9960 0, 9319 = 0, 0721

Exercice 5.2 Dterminez les valeurs j de la variable normale centre rduite e e e Z telles que : 1. Pr[Z j] = 0, 9332 ; 2. Pr[j Z j] = 0, 3438 ; 3. Pr[Z j] = 0, 0125 ; 4. Pr[Z j] = 0, 0125 ; 5. Pr[j Z 3] = 0, 7907.

Solution Lecture inverse de la table. 1. Pr[Z j] = 0, 9332 F (j) = 0, 9332 j = 1, 5

124CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES 2. Pr[j Z j] = 0, 3438 F (j)F (j) = F (j)1+F (j) = 2F (j)1 = 0, 3438 F (j) = 0, 6719 j = 0, 45 3. Pr[Z j] = 0, 0125 F (j) = 0, 0125(j est ngatif) 1 F (j) = e 0, 0125 F (j) = 0, 9875 j = 2, 24 4. Pr[Z j] = 0, 0125 = 1 F (j) F (j) = 0, 9875 j = 2, 24 5. Pr[j Z 3] = 0, 7907 = F (3) F (j) 0, 7907 = 0, 9987 F (j) F (j) = 0, 2080 (ngatif) F (j) = 0, 7920 j = 0, 81 j = 0, 81. e

Exercice 5.3 Soit une variable alatoire X N (53; 2 = 100) reprsentant le e e rsultat dun examen pour un tudiant dune section. Dterminez la probabilit e e e e pour que le rsultat soit compris entre 33,4 et 72,6. e Solution Soit X N (53, 100) Z = X 53 N (0, 1) 10

Pr[33, 4 X 72, 6] [ ] 33, 4 53 X 53 72, 6 53 = Pr 10 10 10 = Pr[1, 96 Z 1, 96] = 2F(1, 96) 1 = 2 0, 975 1 = 0, 95

Exercice 5.4 Soit une variable alatoire X N (50; 2 = 100). Dterminez le e e premier quartile de cette distribution. Solution Si X N (50, 10), alors Z = (X 50)/10 N (0, 1). Par dnition le premier e quartile x1/4 est tel que [ ] Pr X x1/4 = 1/4. Donc [ ] [ ] 1/4 50 X 50 Pr X x1/4 = P 10 10 = P [Z z1/4 ] = 0, 25,

o` z1/4 est le premier quartile dune variable alatoire normale centre rduite. u e e e Si F (.) est la fonction de rpartition dune variable alatoire normale centre e e e rduite, on a par la dnition du quartile que e e F (z1/4 ) = 0, 25.

5.8. AUTRES VARIABLES ALEATOIRES

125

Le premier quartile z1/4 est donc ngatif. On a cependant. par la symtrie de la e e distribution, que F (z1/4 ) = 1 F (z1/4 ) = 0, 25, ce qui donne F (z1/4 ) = 0, 75. La table nous donne que z1/4 = 0, 67 et donc z1/4 = 0, 67. Enn, comme x1/4 50 = z1/4 = 0, 67, 10 on a une quation en x1/4 quil sut de rsoudre e e x1/4 = 50 0, 67 10 = 43, 3.

Exercice 5.5 En supposant que les tailles en cm des tudiants dun pays ade mettent la distribution normale N (172; 2 = 9). On demande de dterminer le e pourcentage thorique : e a) dtudiants mesurant au moins 180 cm. e b) dtudiants dont la taille est comprise entre 168 et 180. e Solution a) 0,0038 ; b) 0,9044.

Exercice 5.6 Sur une route principale o` la vitesse est limite ` 80 km/h, un u e a radar a mesur la vitesse de toutes les automobiles pendant une journe. En e e supposant que les vitesses recueillies soient distribues normalement avec une e moyenne de 72 km/h et un cart-type de 8 km/h, quelle est approximativement e la proportion dautomobiles ayant commis un exc`s de vitesse ? e Solution La proportion dautomobiles ayant commis un exc`s de vitesse vaut e [ ] X x 80 72 P [X > 80] = 1P [X 80] = 1P = 1P [Z 1] = 0, 159, s 8 o` X reprsente la vitesse. u e

126CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES Exercice 5.7 Pour lassemblage dune machine, on produit des cylindres dont le diam`tre varie dapr`s une loi normale de moyenne 10 cm et dcart-type 0,2 e e e cm. On groupe les cylindres en 3 catgories : e A : dfectueux et inutilisable si le diam`tre est 9.95, le cylindre est alors e e dtruit. e B : utilisable et vendu au prix rduit de Fr. 5.-, si 9,95 le diam`tre 9,99. e e C : correspond aux normes et est vendu Fr. 15.-, si le diam`tre est 9,99. e a) Calculer les proportions de cylindres produits de chaque type A, B et C. b) La production dun cylindre cote Fr. 7.-. Quel est le prot moyen par cylindre u produit ? Solution a) Soit X le diam`tre, ainsi X N (10, 0.22 ) e ] [ X 10 P [X 9.95] = P 0.25 = 0.401 0.2 [ ] X 10 P [9.95 < X 9.99] = P 0.25 < 0.05 = 0.079, 0.2 P [X > 9.99] = 1 (P [X 9.95] + P [9.95 < X 9.99] = 0.52. b) prot= 5 0.079 + 15 0.52 7 = 1.195 fr.

Exercice 5.8 Donnez les quantiles dordre 99%, 97.5% et 95% : 1. dune variable normale centre rduite ; e e 2. dune variable Khi-carre ` 17 degrs de libert ; e a e e 3. dune variable de Student ` 8 degrs de libert ; a e e 4. dune variable de Fisher (uniquement dordre 95%) ` 5 et 7 degrs de a e libert. e Solution 1. ` 99% : 2.3263, ` 97.5% : 1.9600, ` 95% : 1.6449 ; a a a 2. ` 99% : 33.41, ` 97.5% : 30.19, ` 95% : 27.59 ; a a a 3. ` 99% : 2.896, ` 97.5% : 2.306, ` 95% : 1.860 ; a a a 4. ` 95% : 3.972. a

Chapitre 6

Sries temporelles, ltres, e moyennes mobiles et dsaisonnalisation e


6.1
6.1.1

Dnitions gnrales et exemples e e e


Dnitions e

Dnition 6.1 Une srie temporelle est une suite dobservations dune quantit e e e rpte dans le temps. e ee On nonce en gnral lhypoth`se que les intervalles de temps sont quidistants. e e e e e La srie temporelle est note e e y1 , . . . , yt , . . . , yT . On note galement T = {1, 2, . . . , t, . . . , T } lensemble des instants auxquels les e observations sont ralises. e e Une srie temporelle peut se composer de : e une tendance Tt , une composante cyclique Ct (nous ntudierons pas cette question), e une composante saisonni`re St , e un rsidu Et (partie inexplique). e e On tudie deux types de mod`les : e e Le mod`le additif : e yt = Tt + Ct + St + Et Le mod`le multiplicatif : e yt = Tt Ct St Et . Il peut tre intressant de dcomposer la srie, ce qui consiste ` sparer les e e e e a e composantes Tt , Ct , St , Et . 127

128CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

6.1.2

Traitement des sries temporelles e

Le traitement des sries temporelles peut avoir plusieurs objectifs. e isoler et estimer une tendance, isoler et estimer une composante saisonni`re, et dsaisonnaliser la srie, e e e raliser une prvision pour des valeurs inconnues manquantes, futures ou e e passes, e construire un mod`le explicatif en terme de causalit, e e dterminer la dure dun cycle. e e

6.1.3

Exemples

Exemple 6.1 Extrait de The Data and Story Library Ces donnes trimese trielles, ont t produites par le service des statistiques dentreprise du Bureau ee of Census (Etats-Unis). Les donnes concernant les ventes reprennent le nombre e de biens expdis durant 32 trimestres. e e QTR : Quarter, trimestres depuis le 1er trimestre 1978 jusquau 4`me e trimestre 1985 DISH : Nombre de lave-vaisselles (dishwashers) expdis (milliers) e e DISP : Nombre de broyeurs dordures (disposers) expdis (milliers) e e FRIG : Nombre de rfrigrateurs expdis (milliers) e e e e WASH : Nombre de machines ` laver (washing machine) expdies (mila e e liers) DUR : Dpenses en biens durables USA (milliards de dollars de 1982) e RES : Investissement rsidentiel priv USA (milliards de dollars de 1982) e e
240 280 320 360 1978

DUR

1980

1982 Time

1984

1986

Figure 6.1 Dpenses en biens durables USA (milliards de dollars de 1982) e

Exemple 6.2 La variable nombre de rfrigrateurs vendus a manifestement e e une composante saisonni`re et une tendance. e

6.1. DEFINITIONS GENERALES ET EXEMPLES

129

Table 6.1 Biens manufacturs aux USA e QTR 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 DISH 841 957 999 960 894 851 863 878 792 589 657 699 675 652 628 529 480 530 557 602 658 749 827 858 808 840 893 950 838 884 905 909 DISP 798 837 821 858 837 838 832 818 868 623 662 822 871 791 759 734 706 582 659 837 867 860 918 1017 1063 955 973 1096 1086 990 1028 1003 FRIG 1317 1615 1662 1295 1271 1555 1639 1238 1277 1258 1417 1185 1196 1410 1417 919 943 1175 1269 973 1102 1344 1641 1225 1429 1699 1749 1117 1242 1684 1764 1328 WASH 1271 1295 1313 1150 1289 1245 1270 1103 1273 1031 1143 1101 1181 1116 1190 1125 1036 1019 1047 918 1137 1167 1230 1081 1326 1228 1297 1198 1292 1342 1323 1274 DUR 252.6 272.4 270.9 273.9 268.9 262.9 270.9 263.4 260.6 231.9 242.7 248.6 258.7 248.4 255.5 240.4 247.7 249.1 251.8 262.0 263.3 280.0 288.5 300.5 312.6 322.5 324.3 333.1 344.8 350.3 369.1 356.4 RES 172.9 179.8 180.8 178.6 174.6 172.4 170.6 165.7 154.9 124.1 126.8 142.2 139.3 134.1 122.3 110.4 101.2 103.4 100.1 115.8 127.8 147.4 161.9 159.9 170.5 173.1 170.3 169.6 170.3 172.9 175.0 179.4

En langage R QTR=c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25, 26,27,28,29,30,31,32) DISH=c(841,957,999,960,894,851,863,878,792,589,657,699,675,652,628, 529,480,530,557,602,658,749,827,858,808,840,893,950,838,884,905,909) DISP=c(798,837,821,858,837,838,832,818,868,623,662,822,871,791,759,734,706, 582,659,837,867,860,918,1017,1063,955,973,1096,1086,990,1028,1003)

130CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

FRIG

1000 1978

1400

1980

1982 Time

1984

1986

Figure 6.2 Nombre de rfrigrateurs vendus de 1978 ` 1985 e e a

FRIG=c(1317,1615,1662,1295,1271,1555,1639,1238,1277,1258,1417,1185,1196, 1410,1417,919,943,1175,1269,973,1102,1344,1641,1225,1429,1699,1749,1117 1242,1684,1764,1328) WASH=c(1271,1295,1313,1150,1289,1245,1270,1103,1273,1031,1143,1101,1181, 1116,1190,1125,1036,1019,1047,918,1137,1167,1230,1081,1326,1228,1297, 1198,1292,1342,1323,1274) DUR=c(252.6,272.4,270.9,273.9,268.9,262.9,270.9,263.4,260.6,231.9,242.7,248.6, 258.7,248.4,255.5,240.4,247.7,249.1,251.8,262,263.3,280,288.5,300.5, 312.6,322.5,324.3,333.1,344.8,350.3,369.1,356.4) RES=c(172.9,179.8,180.8,178.6,174.6,172.4,170.6,165.7,154.9,124.1,126.8, 142.2,139.3,134.1,122.3,110.4,101.2,103.4,100.1,115.8,127.8,147.4,161 159.9,170.5,173.1,170.3,169.6,170.3,172.9,175,179.4) plot(QTR,DUR,type="l") plot(QTR,FRIG,type="l")

Exemple 6.3 Le tableau 6.2 reprend lindice des prix ` la consommation (base a 100 en juillet 1970). La Figure 6.3 reprend lindice brut yt tel quil est prsent e e dans le Tableau 6.2. La Figure 6.4 prsente le rapport mensuel de cet indice e yt /yt1 . Enn, la Figure 6.5 prsente le rapport en glissement annuel yt /yt12 . e

En langage R # # Indices des prix # Diffrences dordre 1 et 12 # e Iprix=c(97.9,98.2,98.5,99,99.4,99.8,100,100.4,100.8,101.2,101.6,101.9, 102.5,103,103.4,104,104.7,105.1,105.6,106,106.5,107.1,107.5,108, 108.3,108.9,109.4,109.8,110.4,111,111.9,112.5,113.2,114.2,114.9,115.5, 115.5,115.8,116.4,117.2,118.3,119.2,120.2,121,122.1,123.4,124.5,125.3,

6.1. DEFINITIONS GENERALES ET EXEMPLES

131

Table 6.2 Indice des prix ` la consommation (France) a pt janvier fvrier e mars avril mai juin juillet aot u septembre octobre novembre dcembre e 1970 97.9 98.2 98.5 99.0 99.4 99.8 100.0 100.4 100.8 101.2 101.6 101.9 1971 102.5 103.0 103.4 104.0 104.7 105.1 105.6 106.0 106.5 107.1 107.5 108.0 1972 108.3 108.9 109.4 109.8 110.4 111.0 111.9 112.5 113.2 114.2 114.9 115.5 1973 115.5 115.8 116.4 117.2 118.3 119.2 120.2 121.0 122.1 123.4 124.5 125.3 1974 127.4 129.1 130.6 132.7 134.3 135.8 137.5 138.6 140.1 141.8 143.1 144.3 1975 145.9 147.0 148.2 149.5 150.6 151.7 152.8 153.8 155.1 156.3 157.3 158.2 1976 159.9 161.0 162.4 163.8 164.9 165.6 167.2 168.4 170.2 171.8 173.2 173.8 1977 174.3 175.5 177.1 179.4 181.1 182.5 184.1 185.1 186.7 188.2 188.9 189.4 1978 190.3 191.7 193.4 195.5 197.4 198.9 201.5 202.5 203.8 205.7 206.8 207.8

Iprix

100 1970

140

180

1972

1974 Time

1976

1978

Figure 6.3 Indice des prix ` la consommation pt a


Iprix/lag(Iprix, 1)

1.000 1970

1.010

1972

1974 Time

1976

1978

Figure 6.4 Rapport mensuel des indices de prix pt /pt1 127.4,129.1,130.6,132.7,134.3,135.8,137.5,138.6,140.1,141.8,143.1,144.3, 145.9,147,148.2,149.5,150.6,151.7,152.8,153.8,155.1,156.3,157.3,158.2, 159.9,161,162.4,163.8,164.9,165.6,167.2,168.4,170.2,171.8,173.2,173.8,

132CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

Iprix/lag(Iprix, 12)

1.06

1.10

1.14

1972

1974 Time

1976

1978

Figure 6.5 Rapport en glissement annuel des indices de prix pt /pt12 174.3,175.5,177.1,179.4,181.1,182.5,184.1,185.1,186.7,188.2,188.9,189.4, 190.3,191.7,193.4,195.5,197.4,198.9,201.5,202.5,203.8,205.7,206.8,207.8) Iprix <- ts(Iprix,start = c(1970, 1), frequency = 12) plot(Iprix) plot(Iprix/lag(Iprix,-1)) plot(Iprix/lag(Iprix,-12))

Exemple 6.4 Donnes du nombre de voyageurs-kilom`tres en deuxi`me classe e e e exprimes en millions de kilom`tres. e e Table 6.3 Trac du nombre de voyageurs SNCF
mois/anne e janv. fv. e mars avril mai juin juil. aot u sept. oct. nov. dc. e

1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980

1750 1710 1670 1810 1850 1834 1798 1854 2008 2084 2081 2223 2481 2667 2706 2820 3313 2848

1560 1600 1640 1640 1590 1792 1850 1823 1835 2034 2112 2248 2428 2668 2586 2857 2644 2913

1820 1800 1770 1860 1880 1860 1981 2005 2120 2152 2279 2421 2596 2804 2796 3306 2872 3248

2090 2120 2190 1990 2210 2138 2085 2418 2304 2522 2661 2710 2923 2806 2978 3333 3267 3250

1910 2100 2020 2110 2110 2115 2120 2219 2264 2318 2281 2505 2795 2976 3053 3141 3391 3375

2410 2460 2610 2500 2480 2485 2491 2722 2175 2684 2929 3021 3287 3430 3463 3512 3682 3640

3140 3200 3190 3030 2880 2581 2834 2912 2928 2971 3089 3327 3598 3705 3649 3744 3937 3771

2850 2960 2860 2900 2670 2639 2725 2771 2738 2759 2803 3044 3118 3053 3095 3179 3284 3259

2090 2190 2140 2160 2100 2038 1932 2153 2178 2267 2296 2607 2875 2764 2839 2984 2849 3206

1850 1870 1870 1940 1920 1936 2085 2136 2137 2152 2210 2525 2754 2802 2966 2950 3085 3269

1630 1770 1760 1750 1670 1784 1856 1910 2009 1978 2135 2160 2588 2707 2863 2896 3043 3181

2420 2270 2360 2330 2520 2391 2553 2537 2546 2723 2862 2876 3266 3307 3375 3611 3541 4008

6.2. DESCRIPTION DE LA TENDANCE

133

1500 2500 3500

trafic

1965

1970 Time

1975

1980

Figure 6.6 Trac du nombre de voyageurs SNCF

6.2
6.2.1

Description de la tendance
Les principaux mod`les e

Plusieurs types de mod`les peuvent tre utiliss pour dcrire la tendance. e e e e Mod`les dpendant du temps. La srie dpend directement du temps. Le e e e e mod`le peut tre additif e e yt = f (t) + Et , ou multiplicatif yt = f (t) Et . Mod`les explicatifs statiques : la srie chronologique dpend des valeurs e e e prises par une ou plusieurs autres sries chronologiques. e yt = f (xt ) + Et Le cas linaire est le plus facile ` traiter e a yt = b0 + b1 xt + Et . Mod`les auto-projectifs. La srie chronologique au temps t dpend de ses e e e propres valeurs passes e yt = f (yt1 , yt2 , yt3 , . . . , ytp ) + Et Mod`les explicatifs dynamiques : la srie chronologique dpend des valeurs e e e prsentes et passes dune ou de plusieurs autres sries chronologiques, par e e e exemple : yt = +1 yt1 +2 yt2 + +p ytp +1 xt1 +2 xt2 + +q xtq +Et .

134CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

6.2.2

Tendance linaire e

La tendance la plus simple est linaire. On peut estimer les param`tres au e e moyen de la mthode des moindres carrs. Cest une rgression simple. e e e Tt = a + bt.

6.2.3

Tendance quadratique

On peut utiliser une tendance parabolique. Les param`tres peuvent tre e e estims au moyen de la mthode des moindres carrs. Cest une rgression avec e e e e deux variables explicatives. Tt = a + bt + ct2

6.2.4

Tendance polynomiale dordre q

On peut ajuster la srie par un polynme dordre q. Les param`tres peuvent e o e tre estims au moyen de la mthode des moindres carrs. Cest une rgression e e e e e avec q variables explicatives. Tt = b0 + b1 t + b2 t2 + + bq tq

6.2.5

Tendance logistique

La fonction logistique permet de modliser des processus ne pouvant dpasser e e une certaine valeur c (par exemple des taux). Tt = c o` a, b, c R+ u 1 + beat

Mme sil sagit dune tendance non-linaire, on peut se ramener ` un probl`me e e a e linaire. En posant zt = 1/Tt , on a e zt = 1 + beat c

zt+1

= = = =

1 + bea(t+1) c 1 + beat ea c 1 + (1 + beat )ea ea c 1 ea + zt ea . c 1 ea , et = ea . c

En posant =

6.2. DESCRIPTION DE LA TENDANCE on obtient zt+1 = + zt ,

135

ce qui est un mod`le auto-projectif. On peut alors dterminer les valeurs de et e e par une simple rgression linaire. Ensuite on dduit a de la mani`re suivante : e e e e a = log , et comme = on dtermine c par e c= Enn, on remarque que zt 1 beat = , c c 1 . 1 ea 1 = , c c

on peut dterminer autant de valeurs de b que lon a dobservations e bt = czt 1 . eat

On calcule alors la moyenne de ces valeurs b =


T 1 bt . T t=1

logis (x)

0.0

0.1

0.2

0.3

0.4

0.5

0 x

Figure 6.7 Exemple de fonction logistique avec c = 0.5

136CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

6.3
6.3.1

Oprateurs de dcalage et de dirence e e e


Oprateurs de dcalage e e

An de simplier la notation, on utilise des oprateurs de dcalage. On dnit e e e loprateur de dcalage retard (en anglais lag operator) L par e e Lyt = yt1 , et loprateur avance (en anglais forward operator) F e F yt = yt+1 . Loprateur identit est donn par e e e Iyt = yt . Loprateur avance est linverse de loprateur retard e e F L = LF = I. On peut donc crire e On a galement e L2 yt = LLyt = yt2 , Lq yt = ytq , F q yt = yt+q , L0 = F 0 = I, Lq yt = F q yt = yt+q . F 1 = L et L1 = F.

6.3.2

Oprateur dirence e e
= I L.

Loprateur dirence dordre un est un ltre linaire e e e

Loprateur dirence permet denlever une tendance linaire. En eet, si la e e e srie scrit e e yt = a + b t + Et , alors yt = a + b t + Et a b (t 1) Et1 = b + Et Et1 . Exemple 6.5 On gn`re une srie selon un mod`le linaire dpendant du temps e e e e e e yt = 10 + 0.3 t + Et , avec t = 1, . . . , 50. La srie brute yt est reprsente dans la graphique 6.8 et la dirence dordre 1 e e e e de la srie yt est reprsente dans le graphique 6.9. e e e En langage R

6.3. OPERATEURS DE DECALAGE ET DE DIFFERENCE

137

10 0

15

20

25

10

20

30

40

50

Figure 6.8 Srie avec une tendance linaire dpendant du temps e e e

2 0

0 1 2

10

20

30

40

50

Figure 6.9 Dirence dordre un de la srie avec une tendance linaire e e e # # Tendance linaire et diffrence # e e lin=10+0.3*(0:50)+rnorm(50,0,1) plot(lin,main="",xlab="",ylab="") Dlin=diff(lin) plot(Dlin,main="",xlab="",ylab="")

On peut construire loprateur dirence dordre deux en levant au carr : e e e e 2 = = I 2L + L2 Loprateur dirence dordre deux permet denlever une tendance quadratique. e e En eet, si la srie scrit e e yt = a + b t + c t2 + Et , alors 2 y t = (I 2L + L2 )yt = a + b t + c t2 + Et 2a 2b (t 1) 2c (t 1)2 2Et1 +a + b (t 2) + c (t 2)2 + Et2 = 2c + Et 2Et1 + Et2 . Une tendance polynomiale dordre q peut galement tre supprime grce ` q , e e e a a la dirence dordre q. e

138CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

6.3.3

Dirence saisonni`re e e
s = I Ls ,

Loprateur de dirence saisonni`re scrit : e e e e

o` s vaut 4 pour des donnes trimestrielles, 7 pour des donnes journali`res et u e e e 12 pour des donnes mensuelles : e Exemple 6.6 Si on applique une dirence saisonni`re dordre 4 sur les donnes e e e de ventes de rfrigrateurs, la composante saisonni`re dispara e e e t.

FRIGm4

300 1979

200

1980

1981

1982 Time

1983

1984

1985

1986

Figure 6.10 Dirence dordre 4 de la variable vente de rfrigrateurs e e e En langage R # # Vente de rfrigrateurs diffrence dordre 4 # e e e FRIGm4=FRIG-lag(FRIG,-4) plot(FRIGm4)

Exemple 6.7 Si on applique une dirence saisonni`re dordre 12 sur les e e donnes du nombre de voyageurs-kilom`tres yt en deuxi`me classe exprimes e e e e en millions de kilom`tres de la SNCF, la tendance saisonni`re dispara (voir e e t Figure 6.12). On a ainsi la nouvelle variable zt = 12 yt = (I L12 )yt = yt yt12 . Une autre mani`re de faire consiste ` prendre le logarithme de la variable et e a ensuite ` calculer la dirence, ce qui revient ` prendre le logarithme du rapport a e a de la variable (voir Figure 6.13). On dnit ainsi une nouvelle variable vt : e vt = 12 log yt = (I L12 ) log yt = log yt log yt12 = log yt . yt12

6.3. OPERATEURS DE DECALAGE ET DE DIFFERENCE

139

1500 2500 3500

trafic

1965

1970 Time

1975

1980

Figure 6.11 Trac du nombre de voyageurs SNCF

difftrafic

0.8

1.0

1.2

1965

1970 Time

1975

1980

Figure 6.12 Dirence dordre 12 sur la srie trac du nombre de voyageurs e e SNCF
0.2 raptrafic 0.2 0.0

1965

1970 Time

1975

1980

Figure 6.13 Logarithme du rapport dordre 12 sur la srie trac du nombre e de voyageurs SNCF

En langage R

140CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA trafic=c(1750,1560,1820,2090,1910,2410,3140,2850,2090,1850,1630,2420, 1710,1600,1800,2120,2100,2460,3200,2960,2190,1870,1770,2270, 1670,1640,1770,2190,2020,2610,3190,2860,2140,1870,1760,2360, 1810,1640,1860,1990,2110,2500,3030,2900,2160,1940,1750,2330, 1850,1590,1880,2210,2110,2480,2880,2670,2100,1920,1670,2520, 1834,1792,1860,2138,2115,2485,2581,2639,2038,1936,1784,2391, 1798,1850,1981,2085,2120,2491,2834,2725,1932,2085,1856,2553, 1854,1823,2005,2418,2219,2722,2912,2771,2153,2136,1910,2537, 2008,1835,2120,2304,2264,2175,2928,2738,2178,2137,2009,2546, 2084,2034,2152,2522,2318,2684,2971,2759,2267,2152,1978,2723, 2081,2112,2279,2661,2281,2929,3089,2803,2296,2210,2135,2862, 2223,2248,2421,2710,2505,3021,3327,3044,2607,2525,2160,2876, 2481,2428,2596,2923,2795,3287,3598,3118,2875,2754,2588,3266, 2667,2668,2804,2806,2976,3430,3705,3053,2764,2802,2707,3307, 2706,2586,2796,2978,3053,3463,3649,3095,2839,2966,2863,3375, 2820,2857,3306,3333,3141,3512,3744,3179,2984,2950,2896,3611, 3313,2644,2872,3267,3391,3682,3937,3284,2849,3085,3043,3541, 2848,2913,3248,3250,3375,3640,3771,3259,3206,3269,3181,4008) trafic <- ts(trafic,start = c(1963, 1), frequency = 12) plot(trafic) difftrafic=trafic-lag(trafic,-12) plot(difftrafic) raptrafic=log(trafic/lag(trafic,-12)) plot(raptrafic)

6.4
6.4.1

Filtres linaires et moyennes mobiles e


Filtres linaires e
p2 j=p1

Un ltre linaire dordre m = p1 + p2 + 1 est dni par e e FL = wj Lj

= wp1 Lp1 + wp1 +1 Lp1 1 + + w1 L + w0 I + w1 F + + wp2 1 F p2 1 + wp2 F p2 , o` p1 , p2 N et wj R. u

6.4.2

Moyennes mobiles : dnition e


p2 j=p1

Une moyenne mobile dordre m = p1 + p2 + 1 est un ltre linaire tel que e wj = 1, pour tout j = p1 , . . . , p2 .

Beaucoup de moyennes mobiles ont des poids wj positifs, mais pas toutes.

6.4. FILTRES LINEAIRES ET MOYENNES MOBILES Une moyenne mobile est symtrique si p1 = p2 = p, et e wj = wj , pour tout j = 1, . . . , p. Une moyenne mobile symtrique est dite non-pondre si e ee wj = cst pour tout j = p1 , . . . , p2 .

141

6.4.3

Moyenne mobile et composante saisonni`re e

Une moyenne mobile est un outil intressant pour lisser une srie temporelle e e et donc pour enlever une composante saisonni`re. On utilise de prfrence des e ee moyennes mobiles non-pondres dordre gal ` la priode, par exemple dordre ee e a e 7 pour des donnes journali`res, dordre 12 pour des donnes mensuelles. Par e e e exemple, pour enlever la composante saisonni`re due au jour de la semaine, on e peut appliquer une moyenne mobile non-pondre dordre 7. ee ) 1( 3 MM(7) = L + L2 + L + I + F + F 2 + F 3 . 7 Cette moyenne mobile accorde le mme poids ` chaque jour de la semaine. En e a eet, 1 (yt3 + yt2 + yt1 + yt + yt+1 + yt+2 + yt+3 ) . 7 Pour les composantes saisonni`res dune priode paire, il nexiste pas de e e moyennes mobiles centres non-pondres. Il existe deux types de moyenne moe ee bile centre pondre : e ee Si la priode est paire et gale ` m (m = 4 pour des donnes trimestrielles), e e a e on utilise une moyenne mobile dordre impair accordant un demi-poids aux deux extrmits. Par exemple, pour des donnes trimestrielles, la moyenne e e e mobile est dnie par e ) 1( 2 MM(4) = L + 2L + 2I + 2F + F 2 . 8 Ainsi, chaque trimestre conserve le mme poids. En eet, e MM(7)yt = 1 (yt2 + 2yt1 + 2yt + 2yt+1 + yt+2 ) . 8 Si la priode est paire et gale ` m, on peut aussi utiliser la compose de e e a e deux moyennes mobiles non-pondres et non-centres an dobtenir une ee e moyenne mobile centre : e )1( ) 1( 2 MMC = L +L+I +F L + I + F + F2 4 4 ) 1 ( 3 = L + 2L2 + 3L + 4I + 3F + 2F 2 + F 3 . 16 ` A nouveau, chaque trimestre est aect du mme poids, mais cette mthode e e e est moins avantageuse car la moyenne mobile est plus tendue. Donc, plus e des donnes seront perdues aux extrmits de la sries. e e e e MM(4)yt =

142CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA Exemple 6.8 La variable rfrigrateur est lisse grce ` une moyenne mobile e e e a a qui accorde le mme coecient de pondration ` chaque trimestre. e e a

` 6.5. MOYENNES MOBILES PARTICULIERES

143

FRIG

1000 1978

1400

1980

1982 Time

1984

1986

Figure 6.14 Nombre de rfrigrateurs et moyenne mobile dordre 4 e e

En langage R dec=decompose(FRIG) moving_average= dec$trend plot(FRIG) lines(moving_average)

Une moyenne mobile qui accorde le mme poids ` chaque saison permet e a denlever une tendance saisonni`re. e

6.5
6.5.1

Moyennes mobiles particuli`res e


Moyenne mobile de Van Hann
MMV H = 1 1 1 (I + F ) (L + I) = (L + 2I + F ) 2 2 4

6.5.2

Moyenne mobile de Spencer


1 1 (L + I + F + F 2 ) (L2 + L + I + F ) 4 4 1 1 2 (L + L + I + F + F 2 ) (3L2 + 3L + 4I + 3F 3F 2 ) 5 4 1 = (3L7 6L6 5L5 + 3L4 + 21L3 + 46L2 + 67L + 74I 320 +67F + 46F 2 + 21F 3 + 3F 4 5F 5 6F 6 3F 7 ) =

MMS

La moyenne mobile de Spencer supprime les composantes saisonni`res de priode e e 4 et 5 et conserve les tendances polynomiales jusqu` lordre 3. a

144CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

6.5.3

Moyenne mobile de Henderson

Les moyennes mobiles dHenderson conservent les tendances polynomiales de degr 2 tout en conservant une souplesse aux coecients de la moyenne e mobile. La souplesse est obtenue en minimisant la quantit e (I L)3 j .
j

Moyenne mobile de Henderson dordre 2m 3, o` m 4 u


m+1 j=m1

MMH = o` u j =

j Lj ,

315((m 1)2 i2 )(m2 i2 )((m + 1)2 i2 )(3m2 16 11i2 ) 8m(m2 1)(4m2 1)(4m2 9)(4m2 25)

Moyenne mobile de Henderson dordre 2m 3 = 5 (m = 4) 1 (21L2 + 84L + 160I + 84F 21F 2 ) 286 Moyenne mobile de Henderson dordre 2m 3 = 9 (m = 6)

1 (99L4 24L3 288L2 + 648L + 805I + 648F + 288F 2 24F 3 99F 4 ) 2431 Moyenne mobile de Henderson dordre 2m 3 = 11 (m = 7)

1 (2574L5 92378

2475L4 + 3300L3 + 13050L2 + 22050L + 25676I + 22050F + 13050F 2 + 3300F 3 2475F 4 2574F 5 )

Moyenne mobile de Henderson dordre 2m 3 = 15 (m = 9)

1 (2652L7 193154

4732L6 2730L5 + 4641L4 + 16016L3 + 28182L2 + 37422L + 40860I + 37422F + 28182F 2 + 16016F 3 + 4641F 4 2730F 5 4732F 6 2652F 7 )

6.6. DESAISONNALISATION

145

6.5.4

Mdianes mobiles e

Si les donnes contiennent des valeurs aberrantes ou extrmes, on peut reme e placer la moyenne mobile par une mdiane mobile. Par exemple la mdiane e e mobile dordre 5 est dnie par : e M ed(5)t = Mdiane(yt2 , yt1 , yt , yt+1 , yt+2 ). e

6.6
6.6.1

Dsaisonnalisation e
Mthode additive e

Soit une srie temporelle rgie par un mod`le additif du type e e e Yam = Tam + Sm + Eam . o` a = 1, . . . , A, reprsente par exemple lanne et m = 1, . . . , M reprsente u e e e par exemple le mois. La tendance est suppose connue soit par un ajustement, e soit par une moyenne mobile. On isole la composante saisonni`re en faisant, e pour chaque mois, la moyenne des dirences entre les valeurs observes et la e e tendance 1 (Yam Tam ). Sm = A1 a En gnral, on ne dispose pas du mme nombre dobservations, pour chaque e e e mois. On proc`de ` un ajustement an que la somme des composantes saie a sonni`res soit gale ` zro : e e a e
Sm = Sm

1 Sm . M m

On peut ensuite procder ` la dsaisonnalisation de la srie par e a e e


Yam = Yam Sm .

6.6.2

Mthode multiplicative e
Yam = Tam Sm Eam .

Soit une srie temporelle rgie par un mod`le multiplicatif du type e e e

o` a = 1, . . . , A reprsente par exemple lanne et m = 1, .., M reprsente par u e e e exemple le mois. La tendance est suppose connue soit par un ajustement, soit e par une moyenne mobile. On isole la composante saisonni`re en faisant, pour chaque mois, la moyenne e des rapports entre les valeurs observes et la tendance : e Sm = 1 Yam . A 1 a Tam

146CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA ` A nouveau, on ralise un ajustement an que la moyenne des composantes e saisonni`res soit gale ` 1. On corrige donc les coecients Sm par e e a
Sm = Sm 1 M

1
m

Sm

La dsaisonnalisation se ralise alors par une division e e Yam = Yam = Tam Eam Sm

Exemple 6.9 Lobjectif est de dsaisonnaliser la srie trimestrielle des ventes e e de rfrigrateurs. Le Tableau 6.4 contient la variable vente de rfrigrateurs, e e e e la moyenne mobile dordre 4, la composante saisonni`re et srie dsaisonnalise e e e e au moyen de la mthode additive. Le Tableau 6.6 prsente la dsaisonnalisation e e e au moyen de la mthode multiplicative. e Figure 6.15 Dcomposition de la srie de ventes de rfrigrateurs 6.1 e e e e
Decomposition of multiplicative time series
observed trend seasonal random

100 1978

100 0.85

1.00

1.15 1100

1300

1500 1000

1400

1980

1982

1984

1986

Time

En langage R deco=decompose(FRIG,type="multiplicative") plot(deco)

6.7. LISSAGE EXPONENTIEL

147

Table 6.4 Dcomposition de la variable FRIG, mthode additive e e QTR 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 FRIG 1317 1615 1662 1295 1271 1555 1639 1238 1277 1258 1417 1185 1196 1410 1417 919 943 1175 1269 973 1102 1344 1641 1225 1429 1699 1749 1117 1242 1684 1764 1328 MM FRIG-MM Desaison 1442.58 1505.13 1451.20 1490.09 1396.58 1445.13 1428.20 1433.09 1402.58 1148.13 1206.20 1380.09 1321.58 1300.13 1206.20 1114.09 1068.58 1065.13 1058.20 1168.09 1227.58 1234.13 1430.20 1420.09 1554.58 1589.13 1538.20 1312.09 1367.58 1574.13 1553.20 1523.09

1466.50 1453.25 1442.88 1432.88 1426.50 1390.13 1325.25 1290.88 1274.13 1283.00 1302.00 1268.75 1203.88 1142.88 1095.00 1083.25 1109.88 1150.88 1218.50 1296.50 1368.88 1454.13 1512.00 1512.00 1475.13 1449.88 1449.88 1478.13

195.50 -158.25 -171.88 122.13 212.50 -152.13 -48.25 -32.88 142.88 -98.00 -106.00 141.25 213.13 -223.88 -152.00 91.75 159.13 -177.88 -116.50 47.50 272.13 -229.13 -83.00 187.00 273.88 -332.88 -207.88 205.88

6.7
6.7.1

Lissage exponentiel
Lissage exponentiel simple

Une mani`re simple de raliser une prdiction est de raliser un lissage exe e e e ponentiel simple. On suppose que lon dispose de T observations X1 , . . . , XT indices par les dates 1, . . . , T. On veut raliser une prdiction pour les dates e e e suivantes T + k, k 1. La prdiction faite ` la date T pour la date T + k est e a

148CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

Table 6.5 Moyenne des composantes saisonni`res e


S1 126.50 S1 125.58 S2 108.95 S2 109.87 S3 209.88 S3 210.80 S4 196.02 S4 195.09 Total 3.70 Total 0.00

note XT (k) (prdiction au temps T et ` lhorizon k). Le lissage exponentiel e e a simple donne une prdiction ` lhorizon 1, et consiste ` raliser une moyenne e a a e des valeurs passes en aectant des poids moins importants aux valeurs qui sont e loignes de la prdiction : e e e XT (1) = (1 )
T 1 j=0

j XT j = (1 )

T 1 j=0

j Lj XT ,

o` est un coecient appartenant ` ]0, 1[. Comme u a XT 1 (1) = (1 ) on a XT (1) = (1 )


T 2 j=0 T 1 j=0

j XT 1j =

T 1 (1 ) j XT j , j=1

j XT j = (1 )XT + XT 1 (1).

Cette formule peut tre utilise pour mettre ` jour le lissage exponentiel simple. e e a An dinitialiser le lissage exponentiel on peut prendre X0 (1) = X1 . Le lissage exponentiel simple est adapt au cas ou la srie peut tre ajuste e e e e par une droite horizontale. Autrement dit, on suppose que XT a. Le lissage exponentiel peut tre obtenu au moyen de la mthode des moindres e e carrs en minimisant en a le crit`re e e Q=
T 1 j=0

j (XT j a) .

En annulant la drive par rapport ` a, on obtient e e a 2


T 1 j=0

j (XT j a) = 0,

6.7. LISSAGE EXPONENTIEL

149

Table 6.6 Dcomposition de la variable FRIG, mthode multiplicative e e QTR 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 FRIG 1317 1615 1662 1295 1271 1555 1639 1238 1277 1258 1417 1185 1196 1410 1417 919 943 1175 1269 973 1102 1344 1641 1225 1429 1699 1749 1117 1242 1684 1764 1328 MM FRIG/MM Desaison 1453.85 1493.76 1434.00 1516.45 1403.07 1438.26 1414.15 1449.70 1409.70 1163.56 1222.61 1387.64 1320.28 1304.15 1222.61 1076.15 1040.99 1086.79 1094.91 1139.39 1216.51 1243.10 1415.88 1434.48 1577.49 1571.45 1509.06 1308.01 1371.06 1557.58 1522.01 1555.09

1466.50 1453.25 1442.88 1432.88 1426.50 1390.13 1325.25 1290.88 1274.13 1283.00 1302.00 1268.75 1203.88 1142.88 1095.00 1083.25 1109.88 1150.88 1218.50 1296.50 1368.88 1454.13 1512.00 1512.00 1475.13 1449.88 1449.88 1478.13

1.13 0.89 0.88 1.09 1.15 0.89 0.96 0.97 1.11 0.92 0.92 1.11 1.18 0.80 0.86 1.08 1.14 0.85 0.90 1.04 1.20 0.84 0.95 1.12 1.19 0.77 0.86 1.14

ce qui donne T 1 XT (1) = a =


j j=0 XT j T 1 j j=0

(1 )

T 1 j=0

j XT j .

On peut choisir sur base de crit`res subjectifs, cependant on peut galement e e dterminer une valeur optimale au moyen de la mthode des moindres carrs. e e e

150CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

Table 6.7 Moyenne des composantes saisonni`res e S1 S2 S3 S4 Total


0.90 S1 1.08 S2 1.16 S3 0.85 S4 3.99 Total

0.91 1.08 1.16 0.85 4.00

On minimise alors en :
T 1 ( j=0

)2 XT j XT j1 (1) ,

ce qui aboutit ` un syst`me non-linaire quil est cependant possible de rsoudre a e e e numriquement. e

6.7.2

Lissage exponentiel double

Si la srie peut tre ajuste par une droite quelconque de type a + b(t T ). e e e On applique alors un lissage exponentiel double pour obtenir la prdiction e XT (k) = a + bk. Comme XT (j) = a bj, on obtient les valeurs de a et b au moyen de la mthode des moindres carrs en e e minimisant en a et b le crit`re e T 1 )2 T 1 ( 2 Q= j XT j XT (j) = j (XT j a + bj) .
j=0 j=0

En annulant les drives partielles par rapport ` a et b, on obtient e e a T 1 j 2 (XT j a + bj) = 0


j=0

T 1 j 2 (XT j a + bj) j = 0.
j=0

ce qui donne

T 1 T 1 T 1 j XT j a j + b j j = 0
j=0 j=0 j=0 T 1 T 1 T 1 j j XT j a j j + b j 2 j = 0. j=0 j=0 j=0

6.7. LISSAGE EXPONENTIEL Comme on a

151

j=0 j=0 j=0

j =

1 1 (1 )2 (1 + ) (1 )3

j j =

j2j =

on a

T 1 j b a + =0 XT j 1 (1 )2 j=0 T 1 a b(1 + ) j j XT j + = 0. 2 (1 ) (1 )3 j=0

(6.1)

1 En notant maintenant ST la srie lisse e e T 1 j=0 2 et ST la srie doublement lisse e e T 1 j=0

1 ST = (1 )

j XT j ,

2 ST

= (1 ) = (1 )

1 j ST j T 1j i=0

T 1 j=0

(1 )
j

i XT ji

= (1 )2 = (1 )2 = (1 )2 On obtient nalement
T 1 k=0

T 1 T 1j j=0 T 1 k=0 T 1 k=0 i=0

i+j XT ji

(k + 1) k XT k
1 k k XT k + (1 )ST .

k k XT k =

2 1 ST ST . 2 (1 ) (1 )1

152CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA Le syst`me (6.1) peut alors scrire e e 1 a b ST + =0 1 1 (1 )2 2 1 ST ST a b(1 + ) + = 0. 2 (1 ) 1 (1 )2 (1 )3 En rsolvant ce syst`me en a et b, on obtient nalement e e 1 2 a = 2ST ST 1 1 2 (ST ST ). b=

Exemple 6.10 Le tableau 6.8 rend compte du prix moyen du mazout pour 100 (achat entre 800 et 1500 ) en CHF pour chaque mois de 2004 ` 2007 (Source : a Oce fdral de la statistique, 2008). e e

Table 6.8 Prix moyen du Mazout pour 100 (achat entre 800 et 1500 ) mois/anne e janvier fvrier e mars avril mai juin juillet ao t u septembre octobre novembre dcembre e 2004 54.23 51.51 55.60 55.72 58.71 58.82 58.41 64.92 63.95 72.98 70.25 68.24 2005 63.00 67.32 75.52 79.83 73.22 75.38 83.97 84.23 97.29 99.31 89.88 87.18 2006 86.16 88.70 88.92 92.58 93.65 91.88 95.35 95.83 91.16 87.63 84.57 84.10 2007 79.39 81.32 82.06 88.05 88.24 88.95 92.10 91.65 95.35 97.54 106.94 108.94

Nous allons eectuer un lissage exponentiel double avec = 0.7. On ralise dabord un premier lissage en utilisant la formule rcursive e e Xt (1) = (1 ) Xt + Xt1 (1) , X0 (1) = X1 ,

6.7. LISSAGE EXPONENTIEL o` St = Xt (1). u 1 On obtient :

153

1 S1 = X1 (1) = (1 )X1 + X0 (1) = (1 0.7)X1 + 0.7X1 = X1 = 54.23, 1 S2 = X2 (1) = (1 )X2 + X1 (1) = 0.3 51.51 + 0.7 54.23 = 53.414, 1 S3 = X3 (1) = (1 )X3 + X2 (1) = 0.3 55.60 + 0.7 53.41 = 54.070,

et ainsi de suite. On ralise ensuite un second lissage que lon applique ` la srie lisse. e a e e
2 1 2 St = (1 )St + St1 , 2 1 S0 = S1 .

On cherche alors Xt (k) = a + bk pour chaque t. On prend ici k = 1, Xt (1) = a + b avec :


1 2 a = 2St St ) 0.3 ( 1 ) 1 ( 1 2 2 b = St St = St St 0.7

Le tableau 6.9 rend compte des rsultats pour les annes 2004 ` 2007. e e a La gure 6.16 reprsente la srie initiale, le lissage exponentiel simple et le e e lissage exponentiel double.

154CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

Table 6.9 Lissage exponentiel simple et double de la srie temporelle Prix e moyen du Mazout pour 100 litres (achat entre 800 et 1500 litres) en CHF
Anne e 2004 mois 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 Xt 54.23 51.51 55.60 55.72 58.71 58.82 58.41 64.92 63.95 72.98 70.25 68.24 63.00 67.32 75.52 79.83 73.22 75.38 83.97 84.23 97.29 99.31 89.88 87.18 86.16 88.70 88.92 92.58 93.65 91.88 95.35 95.83 91.16 87.63 84.57 84.10 79.39 81.32 82.06 88.05 88.24 88.95 92.10 91.65 95.35 97.54 106.94 108.94
1 St = XLES (1) 54.23 54.23 53.41 54.07 54.56 55.81 56.71 57.22 59.53 60.86 64.49 66.22 66.83 65.68 66.17 68.98 72.23 72.53 73.38 76.56 78.86 84.39 88.87 89.17 88.57 87.85 88.10 88.35 89.62 90.83 91.14 92.41 93.43 92.75 91.21 89.22 87.68 85.20 84.03 83.44 84.82 85.85 86.78 88.38 89.36 91.16 93.07 97.23 100.74 2 St 54.23 54.23 54.23 53.99 54.01 54.18 54.67 55.28 55.86 56.96 58.13 60.04 61.89 63.37 64.07 64.70 65.98 67.86 69.26 70.50 72.31 74.28 77.31 80.78 83.30 84.88 85.77 86.47 87.03 87.81 88.71 89.44 90.33 91.26 91.71 91.56 90.86 89.91 88.49 87.16 86.04 85.68 85.73 86.04 86.74 87.53 88.62 89.95 92.14

2005

2006

2007

2008

a 54.23 54.23 52.60 54.15 55.12 57.44 58.76 59.16 63.20 64.75 70.86 72.40 71.76 67.98 68.28 73.25 78.48 77.20 77.51 82.62 85.41 94.50 100.42 97.56 93.85 90.82 90.44 90.23 92.20 93.85 93.57 95.37 96.53 94.24 90.72 86.88 84.51 80.49 79.57 79.73 83.61 86.02 87.83 90.71 91.97 94.78 97.53 104.51 109.35

b 0 0 -0.350 0.036 0.238 0.699 0.877 0.832 1.572 1.669 2.727 2.649 2.114 0.988 0.902 1.834 2.679 2.002 1.768 2.599 2.805 4.333 4.952 3.597 2.262 1.273 1.000 0.805 1.108 1.294 1.041 1.269 1.329 0.638 -0.212 -1.003 -1.360 -2.019 -1.911 -1.592 -0.522 0.074 0.451 0.999 1.121 1.555 1.909 3.120 3.689

XLED (1) = a + b 54.23 54.23 52.25 54.19 55.36 58.14 59.63 59.99 64.77 66.42 73.58 75.05 73.87 68.97 69.18 75.09 81.16 79.20 79.28 85.22 88.21 98.83 105.37 101.16 96.11 92.09 91.44 91.03 93.31 95.14 94.61 96.64 97.86 94.88 90.51 85.88 83.15 78.47 77.66 78.14 83.09 86.10 88.28 91.71 93.09 96.34 99.44 107.63 113.04

6.7. LISSAGE EXPONENTIEL

155

prix

60

70

80

90

100

110

Lissage exponentiel simple Lissage exponentiel double

50 2004

2005

2006 temps

2007

2008

Figure 6.16 Evolution du prix du mazout en CHF (achat entre 800 et 1500 ), lissage exponentiel double et lissage exponentiel simple

156CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

Exercices
Exercice 6.1 Dsaisonnalisez la srie suivante (cest une srie trimestrielle sur e e e 3 annes) e 2417, 1605, 1221, 1826, 2367, 1569, 1176, 1742, 2804, 1399, 1063, 1755 par la mthode additive, en utilisant une moyenne mobile dordre 4. e Solution Il sagit de M A(4) = Nr. 1 2 3 4 5 6 7 8 9 10 11 12 Srie e 2417 1605 1221 1826 2367 1569 1176 1742 2804 1399 1063 1755 Trim. 1 2 3 4 1 2 3 4 1 2 3 4 MM(4) L2 + 2L + 2I + 2F + F 2 . 8 Srie-MM(4) e Desaison. 1589.53125 1864.71875 1791.96875 1822.78125 1539.53125 1828.71875 1746.96875 1738.78125 1976.53125 1658.71875 1633.96875 1751.78125 1 2 3 4 Total S 832.375 -254.8125 -566.0625 8.125 19.625 S 827.46875 -259.71875 -570.96875 3.21875 0

1761 1750.25 1740.125 1724 1768.125 1801.5 1766.125 1753.625

-540 75.75 626.875 -155 -592.125 -59.5 1037.875 -354.625

Exercice 6.2 En langage R utilisez la srie ldeaths qui est une srie qui e e se trouve dans le package de base datasets. Lisez la documentation, puis dsaisonnalisez cette srie par les mthodes additive et multiplicative. e e e

Chapitre 7

Tables statistiques

157

158

CHAPITRE 7. TABLES STATISTIQUES

Table 7.1 Table des quantiles zp = 1 (p) dune variable normale centre e rduite e

p 0 zp +

Ordre du quantile (p) 0.500 0.550 0.600 0.650 0.700 0.750 0.800 0.850 0.900 0.950 0.970 0.971 0.972 0.973 0.974

quantile (zp ) 0.0000 0.1257 0.2533 0.3853 0.5244 0.6745 0.8416 1.0364 1.2816 1.6449 1.8808 1.8957 1.9110 1.9268 1.9431

Ordre du quantile (p) 0.975 0.976 0.977 0.978 0.979 0.990 0.991 0.992 0.993 0.994 0.995 0.996 0.997 0.998 0.999

Quantile (zp ) 1.9600 1.9774 1.9954 2.0141 2.0335 2.3263 2.3656 2.4089 2.4573 2.5121 2.5758 2.6521 2.7478 2.8782 3.0902

159

Table 7.2 Fonction de rpartition de la loi normale centre rduite e e e (Probabilit de trouver une valeur infrieur ` u) e e a

p = (u) 0 u +

u 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4

0.0 .5000 .5398 .5793 .6179 .6554 .6915 .7257 .7580 .7881 .8159 .8413 .8643 .8849 .9032 .9192 .9332 .9452 .9554 .9641 .9713 .9772 .9821 .9861 .9893 .9918 .9938 .9953 .9965 .9974 .9981 .9987 .9990 .9993 .9995 .9997

.01 .5040 .5438 .5832 .6217 .6591 .6950 .7291 .7611 .7910 .8186 .8438 .8665 .8869 .9049 .9207 .9345 .9463 .9564 .9649 .9719 .9778 .9826 .9864 .9896 .9920 .9940 .9955 .9966 .9975 .9982 .9987 .9991 .9993 .9995 .9997

.02 .5080 .5478 .5871 .6255 .6628 .6985 .7324 .7642 .7939 .8212 .8461 .8686 .8888 .9066 .9222 .9357 .9474 .9573 .9656 .9726 .9783 .9830 .9868 .9898 .9922 .9941 .9956 .9967 .9976 .9982 .9987 .9991 .9994 .9995 .9997

.03 .5120 .5517 .5910 .6293 .6664 .7019 .7357 .7673 .7967 .8238 .8485 .8708 .8907 .9082 .9236 .9370 .9484 .9582 .9664 .9732 .9788 .9834 .9871 .9901 .9925 .9943 .9957 .9968 .9977 .9983 .9988 .9991 .9994 .9996 .9997

.04 .5160 .5557 .5948 .6331 .6700 .7054 .7389 .7704 .7995 .8264 .8508 .8729 .8925 .9099 .9251 .9382 .9495 .9591 .9671 .9738 .9793 .9838 .9875 .9904 .9927 .9945 .9959 .9969 .9977 .9984 .9988 .9992 .9994 .9996 .9997

.05 .5199 .5596 .5987 .6368 .6736 .7088 .7422 .7734 .8023 .8289 .8531 .8749 .8944 .9115 .9265 .9394 .9505 .9599 .9678 .9744 .9798 .9842 .9878 .9906 .9929 .9946 .9960 .9970 .9978 .9984 .9989 .9992 .9994 .9996 .9997

.06 .5239 .5636 .6026 .6406 .6772 .7123 .7454 .7764 .8051 .8315 .8554 .8770 .8962 .9131 .9279 .9406 .9515 .9608 .9686 .9750 .9803 .9846 .9881 .9909 .9931 .9948 .9961 .9971 .9979 .9985 .9989 .9992 .9994 .9996 .9997

.07 .5279 .5675 .6064 .6443 .6808 .7157 .7486 .7794 .8078 .8340 .8577 .8790 .8980 .9147 .9292 .9418 .9525 .9616 .9693 .9756 .9808 .9850 .9884 .9911 .9932 .9949 .9962 .9972 .9979 .9985 .9989 .9992 .9995 .9996 .9997

.08 .5319 .5714 .6103 .6480 .6844 .7190 .7517 .7823 .8106 .8365 .8599 .8810 .8997 .9162 .9306 .9429 .9535 .9625 .9699 .9761 .9812 .9854 .9887 .9913 .9934 .9951 .9963 .9973 .9980 .9986 .9990 .9993 .9995 .9996 .9997

.09 .5359 .5753 .6141 .6517 .6879 .7224 .7549 .7852 .8133 .8389 .8621 .8830 .9015 .9177 .9319 .9441 .9545 .9633 .9706 .9767 .9817 .9857 .9890 .9916 .9936 .9952 .9964 .9974 .9981 .9986 .9990 .9993 .9995 .9997 .9998

CHAPITRE 7. TABLES STATISTIQUES

Table 7.3 quantiles de la loi normale centre rduite e e (u : valeur ayant la probabilit dtre dpass en valeur absolue) e e e e

/2 u 0 +u

/2 +

160

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

0 1.6449 1.2816 1.0364 0.8416 0.6745 0.5244 0.3853 0.2533 0.1257

0.01 2.5758 1.5982 1.2536 1.0152 0.8239 0.6588 0.5101 0.3719 0.2404 0.1130

0.02 2.3263 1.5548 1.2265 0.9945 0.8064 0.6433 0.4958 0.3585 0.2275 0.1004

0.03 2.1701 1.5141 1.2004 0.9741 0.7892 0.6280 0.4817 0.3451 0.2147 0.0878

0.04 2.0537 1.4758 1.1750 0.9542 0.7722 0.6128 0.4677 0.3319 0.2019 0.0753

0.05 1.9600 1.4395 1.1503 0.9346 0.7554 0.5978 0.4538 0.3186 0.1891 0.0627

0.06 1.8808 1.4051 1.1264 0.9154 0.7388 0.5828 0.4399 0.3055 0.1764 0.0502

0.07 1.8119 1.3722 1.1031 0.8965 0.7225 0.5681 0.4261 0.2924 0.1637 0.0376

0.08 1.7507 1.3408 1.0803 0.8779 0.7063 0.5534 0.4125 0.2793 0.1510 0.0251

0.09 1.6954 1.3106 1.0581 0.8596 0.6903 0.5388 0.3989 0.2663 0.1383 0.0125

161

Table 7.4 Table des quantiles dune variable 2 ` n degrs de libert a e e


ordre du quantile 0.05 0.95 0.003932 3.841 0.103 5.991 0.352 7.815 0.711 9.488 1.145 11.07 1.635 12.59 2.167 14.07 2.733 15.51 3.325 16.92 3.940 4.575 5.226 5.892 6.571 7.261 7.962 8.672 9.390 10.12 10.85 11.59 12.34 13.09 13.85 14.61 15.38 16.15 16.93 17.71 18.49 19.28 20.07 20.87 21.66 22.47 23.27 24.07 24.88 25.70 26.51 28.14 29.79 31.44 33.10 34.76 43.19 51.74 60.39 69.13 77.93 86.79 95.70 18.31 19.68 21.03 22.36 23.68 25.00 26.30 27.59 28.87 30.14 31.41 32.67 33.92 35.17 36.42 37.65 38.89 40.11 41.34 42.56 43.77 44.99 46.19 47.40 48.60 49.80 51.00 52.19 53.38 54.57 55.76 58.12 60.48 62.83 65.17 67.50 79.08 90.53 101.88 113.15 124.34 135.48 146.57

n=1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 42 44 46 48 50 60 70 80 90 100 110 120

0.01 0.000157 0.02010 0.115 0.297 0.554 0.872 1.239 1.646 2.088 2.558 3.053 3.571 4.107 4.660 5.229 5.812 6.408 7.015 7.633 8.260 8.897 9.542 10.20 10.86 11.52 12.20 12.88 13.56 14.26 14.95 15.66 16.36 17.07 17.79 18.51 19.23 19.96 20.69 21.43 22.16 23.65 25.15 26.66 28.18 29.71 37.48 45.44 53.54 61.75 70.06 78.46 86.92

0.025 0.000982 0.05064 0.216 0.484 0.831 1.237 1.690 2.180 2.700 3.247 3.816 4.404 5.009 5.629 6.262 6.908 7.564 8.231 8.907 9.591 10.28 10.98 11.69 12.40 13.12 13.84 14.57 15.31 16.05 16.79 17.54 18.29 19.05 19.81 20.57 21.34 22.11 22.88 23.65 24.43 26.00 27.57 29.16 30.75 32.36 40.48 48.76 57.15 65.65 74.22 82.87 91.57

0.975 5.024 7.378 9.348 11.14 12.83 14.45 16.01 17.53 19.02 20.48 21.92 23.34 24.74 26.12 27.49 28.85 30.19 31.53 32.85 34.17 35.48 36.78 38.08 39.36 40.65 41.92 43.19 44.46 45.72 46.98 48.23 49.48 50.73 51.97 53.20 54.44 55.67 56.90 58.12 59.34 61.78 64.20 66.62 69.02 71.42 83.30 95.02 106.63 118.14 129.56 140.92 152.21

0.99 6.635 9.210 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.72 26.22 27.69 29.14 30.58 32.00 33.41 34.81 36.19 37.57 38.93 40.29 41.64 42.98 44.31 45.64 46.96 48.28 49.59 50.89 52.19 53.49 54.78 56.06 57.34 58.62 59.89 61.16 62.43 63.69 66.21 68.71 71.20 73.68 76.15 88.38 100.43 112.33 124.12 135.81 147.41 158.95

162

CHAPITRE 7. TABLES STATISTIQUES

Table 7.5 Table des quantiles dune variable de Student ` n degrs de libert a e e
ordre du 0.975 12.71 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.040 2.037 2.035 2.032 2.030 2.028 2.026 2.024 2.023 2.021 2.009 2.000 1.994 1.990 1.987 1.984 1.980 1.960 quantile 0.99 31.82 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.453 2.449 2.445 2.441 2.438 2.434 2.431 2.429 2.426 2.423 2.403 2.390 2.381 2.374 2.368 2.364 2.358 2.327

n=1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 50 60 70 80 90 100 120

0.95 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.696 1.694 1.692 1.691 1.690 1.688 1.687 1.686 1.685 1.684 1.676 1.671 1.667 1.664 1.662 1.660 1.658 1.645

0.995 63.66 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.744 2.738 2.733 2.728 2.724 2.719 2.715 2.712 2.708 2.704 2.678 2.660 2.648 2.639 2.632 2.626 2.617 2.576

163

Table 7.6 Table des quantiles dordre 0.95 dune variable de Fisher ` n1 et a n2 degrs de libert e e
n1 =1 161.4 18.51 10.13 7.709 6.608 5.987 5.591 5.318 5.117 4.965 4.844 4.747 4.667 4.600 4.543 4.494 4.451 4.414 4.381 4.351 4.325 4.301 4.279 4.260 4.242 4.225 4.210 4.196 4.183 4.171 4.149 4.130 4.113 4.098 4.085 4.034 4.001 3.920 3.841 2 199.5 19.00 9.552 6.944 5.786 5.143 4.737 4.459 4.256 4.103 3.982 3.885 3.806 3.739 3.682 3.634 3.592 3.555 3.522 3.493 3.467 3.443 3.422 3.403 3.385 3.369 3.354 3.340 3.328 3.316 3.295 3.276 3.259 3.245 3.232 3.183 3.150 3.072 2.996 3 215.7 19.16 9.277 6.591 5.409 4.757 4.347 4.066 3.863 3.708 3.587 3.490 3.411 3.344 3.287 3.239 3.197 3.160 3.127 3.098 3.072 3.049 3.028 3.009 2.991 2.975 2.960 2.947 2.934 2.922 2.901 2.883 2.866 2.852 2.839 2.790 2.758 2.680 2.605 4 224.6 19.25 9.117 6.388 5.192 4.534 4.120 3.838 3.633 3.478 3.357 3.259 3.179 3.112 3.056 3.007 2.965 2.928 2.895 2.866 2.840 2.817 2.796 2.776 2.759 2.743 2.728 2.714 2.701 2.690 2.668 2.650 2.634 2.619 2.606 2.557 2.525 2.447 2.372 5 230.2 19.30 9.013 6.256 5.050 4.387 3.972 3.687 3.482 3.326 3.204 3.106 3.025 2.958 2.901 2.852 2.810 2.773 2.740 2.711 2.685 2.661 2.640 2.621 2.603 2.587 2.572 2.558 2.545 2.534 2.512 2.494 2.477 2.463 2.449 2.400 2.368 2.290 2.214 6 234.0 19.33 8.941 6.163 4.950 4.284 3.866 3.581 3.374 3.217 3.095 2.996 2.915 2.848 2.790 2.741 2.699 2.661 2.628 2.599 2.573 2.549 2.528 2.508 2.490 2.474 2.459 2.445 2.432 2.421 2.399 2.380 2.364 2.349 2.336 2.286 2.254 2.175 2.099 7 236.8 19.35 8.887 6.094 4.876 4.207 3.787 3.500 3.293 3.135 3.012 2.913 2.832 2.764 2.707 2.657 2.614 2.577 2.544 2.514 2.488 2.464 2.442 2.423 2.405 2.388 2.373 2.359 2.346 2.334 2.313 2.294 2.277 2.262 2.249 2.199 2.167 2.087 2.010 8 238.9 19.37 8.845 6.041 4.818 4.147 3.726 3.438 3.230 3.072 2.948 2.849 2.767 2.699 2.641 2.591 2.548 2.510 2.477 2.447 2.420 2.397 2.375 2.355 2.337 2.321 2.305 2.291 2.278 2.266 2.244 2.225 2.209 2.194 2.180 2.130 2.097 2.016 1.938 9 240.5 19.38 8.812 5.999 4.772 4.099 3.677 3.388 3.179 3.020 2.896 2.796 2.714 2.646 2.588 2.538 2.494 2.456 2.423 2.393 2.366 2.342 2.320 2.300 2.282 2.265 2.250 2.236 2.223 2.211 2.189 2.170 2.153 2.138 2.124 2.073 2.040 1.959 1.880 10 241.9 19.40 8.786 5.964 4.735 4.060 3.637 3.347 3.137 2.978 2.854 2.753 2.671 2.602 2.544 2.494 2.450 2.412 2.378 2.348 2.321 2.297 2.275 2.255 2.236 2.220 2.204 2.190 2.177 2.165 2.142 2.123 2.106 2.091 2.077 2.026 1.993 1.910 1.831 12 243.9 19.41 8.745 5.912 4.678 4.000 3.575 3.284 3.073 2.913 2.788 2.687 2.604 2.534 2.475 2.425 2.381 2.342 2.308 2.278 2.250 2.226 2.204 2.183 2.165 2.148 2.132 2.118 2.104 2.092 2.070 2.050 2.033 2.017 2.003 1.952 1.917 1.834 1.752 14 245.4 19.42 8.715 5.873 4.636 3.956 3.529 3.237 3.025 2.865 2.739 2.637 2.554 2.484 2.424 2.373 2.329 2.290 2.256 2.225 2.197 2.173 2.150 2.130 2.111 2.094 2.078 2.064 2.050 2.037 2.015 1.995 1.977 1.962 1.948 1.895 1.860 1.775 1.692 16 246.5 19.43 8.692 5.844 4.604 3.922 3.494 3.202 2.989 2.828 2.701 2.599 2.515 2.445 2.385 2.333 2.289 2.250 2.215 2.184 2.156 2.131 2.109 2.088 2.069 2.052 2.036 2.021 2.007 1.995 1.972 1.952 1.934 1.918 1.904 1.850 1.815 1.728 1.644 20 248.0 19.45 8.660 5.803 4.558 3.874 3.445 3.150 2.936 2.774 2.646 2.544 2.459 2.388 2.328 2.276 2.230 2.191 2.155 2.124 2.096 2.071 2.048 2.027 2.007 1.990 1.974 1.959 1.945 1.932 1.908 1.888 1.870 1.853 1.839 1.784 1.748 1.659 1.571 30 250.1 19.46 8.617 5.746 4.496 3.808 3.376 3.079 2.864 2.700 2.570 2.466 2.380 2.308 2.247 2.194 2.148 2.107 2.071 2.039 2.010 1.984 1.961 1.939 1.919 1.901 1.884 1.869 1.854 1.841 1.817 1.795 1.776 1.760 1.744 1.687 1.649 1.554 1.459 254.3 19.50 8.526 5.628 4.365 3.669 3.230 2.928 2.707 2.538 2.404 2.296 2.206 2.131 2.066 2.010 1.960 1.917 1.878 1.843 1.812 1.783 1.757 1.733 1.711 1.691 1.672 1.654 1.638 1.622 1.594 1.569 1.547 1.527 1.509 1.438 1.389 1.254 1.000

n2 =1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 32 34 36 38 40 50 60 120

164

CHAPITRE 7. TABLES STATISTIQUES

Table 7.7 Table des quantiles dordre 0.99 dune variable de Fisher ` n1 et a n2 degrs de libert e e
n1 =1 4052 98.50 34.12 21.20 16.26 13.75 12.25 11.26 10.56 10.04 9.646 9.330 9.074 8.862 8.683 8.531 8.400 8.285 8.185 8.096 8.017 7.945 7.881 7.823 7.770 7.721 7.677 7.636 7.598 7.562 7.499 7.444 7.396 7.353 7.314 7.171 7.077 6.851 6.635 2 5000 99.00 30.82 18.00 13.27 10.93 9.547 8.649 8.022 7.559 7.206 6.927 6.701 6.515 6.359 6.226 6.112 6.013 5.926 5.849 5.780 5.719 5.664 5.614 5.568 5.526 5.488 5.453 5.420 5.390 5.336 5.289 5.248 5.211 5.179 5.057 4.977 4.787 4.605 3 5403 99.17 29.46 16.69 12.06 9.780 8.451 7.591 6.992 6.552 6.217 5.953 5.739 5.564 5.417 5.292 5.185 5.092 5.010 4.938 4.874 4.817 4.765 4.718 4.675 4.637 4.601 4.568 4.538 4.510 4.459 4.416 4.377 4.343 4.313 4.199 4.126 3.949 3.782 4 5625 99.25 28.71 15.98 11.39 9.148 7.847 7.006 6.422 5.994 5.668 5.412 5.205 5.035 4.893 4.773 4.669 4.579 4.500 4.431 4.369 4.313 4.264 4.218 4.177 4.140 4.106 4.074 4.045 4.018 3.969 3.927 3.890 3.858 3.828 3.720 3.649 3.480 3.319 5 5764 99.30 28.24 15.52 10.97 8.746 7.460 6.632 6.057 5.636 5.316 5.064 4.862 4.695 4.556 4.437 4.336 4.248 4.171 4.103 4.042 3.988 3.939 3.895 3.855 3.818 3.785 3.754 3.725 3.699 3.652 3.611 3.574 3.542 3.514 3.408 3.339 3.174 3.017 6 5859 99.33 27.91 15.21 10.67 8.466 7.191 6.371 5.802 5.386 5.069 4.821 4.620 4.456 4.318 4.202 4.102 4.015 3.939 3.871 3.812 3.758 3.710 3.667 3.627 3.591 3.558 3.528 3.499 3.473 3.427 3.386 3.351 3.319 3.291 3.186 3.119 2.956 2.802 7 5928 99.36 27.67 14.98 10.46 8.260 6.993 6.178 5.613 5.200 4.886 4.640 4.441 4.278 4.142 4.026 3.927 3.841 3.765 3.699 3.640 3.587 3.539 3.496 3.457 3.421 3.388 3.358 3.330 3.304 3.258 3.218 3.183 3.152 3.124 3.020 2.953 2.792 2.639 8 5981 99.37 27.49 14.80 10.29 8.102 6.840 6.029 5.467 5.057 4.744 4.499 4.302 4.140 4.004 3.890 3.791 3.705 3.631 3.564 3.506 3.453 3.406 3.363 3.324 3.288 3.256 3.226 3.198 3.173 3.127 3.087 3.052 3.021 2.993 2.890 2.823 2.663 2.511 9 6022 99.39 27.35 14.66 10.16 7.976 6.719 5.911 5.351 4.942 4.632 4.388 4.191 4.030 3.895 3.780 3.682 3.597 3.523 3.457 3.398 3.346 3.299 3.256 3.217 3.182 3.149 3.120 3.092 3.067 3.021 2.981 2.946 2.915 2.888 2.785 2.718 2.559 2.407 10 6056 99.40 27.23 14.55 10.05 7.874 6.620 5.814 5.257 4.849 4.539 4.296 4.100 3.939 3.805 3.691 3.593 3.508 3.434 3.368 3.310 3.258 3.211 3.168 3.129 3.094 3.062 3.032 3.005 2.979 2.934 2.894 2.859 2.828 2.801 2.698 2.632 2.472 2.321 12 6106 99.42 27.05 14.37 9.888 7.718 6.469 5.667 5.111 4.706 4.397 4.155 3.960 3.800 3.666 3.553 3.455 3.371 3.297 3.231 3.173 3.121 3.074 3.032 2.993 2.958 2.926 2.896 2.868 2.843 2.798 2.758 2.723 2.692 2.665 2.562 2.496 2.336 2.185 14 6143 99.43 26.92 14.25 9.770 7.605 6.359 5.559 5.005 4.601 4.293 4.052 3.857 3.698 3.564 3.451 3.353 3.269 3.195 3.130 3.072 3.019 2.973 2.930 2.892 2.857 2.824 2.795 2.767 2.742 2.696 2.657 2.622 2.591 2.563 2.461 2.394 2.234 2.082 16 6170 99.44 26.83 14.15 9.680 7.519 6.275 5.477 4.924 4.520 4.213 3.972 3.778 3.619 3.485 3.372 3.275 3.190 3.116 3.051 2.993 2.941 2.894 2.852 2.813 2.778 2.746 2.716 2.689 2.663 2.618 2.578 2.543 2.512 2.484 2.382 2.315 2.154 2.000 20 6209 99.45 26.69 14.02 9.553 7.396 6.155 5.359 4.808 4.405 4.099 3.858 3.665 3.505 3.372 3.259 3.162 3.077 3.003 2.938 2.880 2.827 2.781 2.738 2.699 2.664 2.632 2.602 2.574 2.549 2.503 2.463 2.428 2.397 2.369 2.265 2.198 2.035 1.878 30 6261 99.47 26.51 13.84 9.379 7.229 5.992 5.198 4.649 4.247 3.941 3.701 3.507 3.348 3.214 3.101 3.003 2.919 2.844 2.778 2.720 2.667 2.620 2.577 2.538 2.503 2.470 2.440 2.412 2.386 2.340 2.299 2.263 2.232 2.203 2.098 2.028 1.860 1.696 6366 99.50 26.13 13.46 9.020 6.880 5.650 4.859 4.311 3.909 3.602 3.361 3.165 3.004 2.868 2.753 2.653 2.566 2.489 2.421 2.360 2.305 2.256 2.211 2.169 2.131 2.097 2.064 2.034 2.006 1.956 1.911 1.872 1.837 1.805 1.683 1.601 1.381 1.000

n2 =1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 32 34 36 38 40 50 60 120

Liste des tableaux


1.1 1.2 1.3 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15 4.1 4.2 4.3 4.4 5.1 5.2 5.3 6.1 6.2 6.3 6.4 6.5 Codication de la variable Y . . . . . . . . . . . . . . . . . . . . Srie statistique de la variable Y . . . . . . . . . . . . . . . . . . e Tableau statistique complet . . . . . . . . . . . . . . . . . . . . . Tableau des eectifs njk . . . . . . . . . Tableau des frquences . . . . . . . . . e Tableau des prols lignes . . . . . . . . Tableau des prols colonnes . . . . . . Tableau des eectifs thoriques n e . . jk Tableau des carts ` lindpendance ejk e a e Tableau des e2 /n . . . . . . . . . . . jk jk Tableau de contingence : eectifs njk . . Tableau des frquences fjk . . . . . . . . e Tableau des prols lignes . . . . . . . . Tableau des prols colonnes . . . . . . . Tableau des eectifs thoriques n . . . e jk Tableau des carts ` lindpendance ejk e a e Tableau des e2 /n . . . . . . . . . . . jk jk Consommation de cr`mes glaces . . . . e e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 14 14 65 66 66 66 68 68 68 69 69 69 69 70 70 70 71 77 78 79 86 89 93 94 129 131 132 147 148

Tableau du prix dun bien de consommation de 2000 ` 2006 a Tableau de lindice simple du prix du tableau 4.1 . . . . . . Exemple : prix et quantits de trois bien pendant 3 ans . . e Mesures de lingalit par pays . . . . . . . . . . . . . . . . e e

Syst`me complet dvnements . . . . . . . . . . . . . . . . . . . e e e Illustration du thor`me des probabilits totales . . . . . . . . . . e e e Factorielle des nombres de 1 ` 10 . . . . . . . . . . . . . . . . . a Biens manufacturs aux USA . . . . . . . . . . . . . . e Indice des prix ` la consommation (France) . . . . . . a Trac du nombre de voyageurs SNCF . . . . . . . . . Dcomposition de la variable FRIG, mthode additive e e Moyenne des composantes saisonni`res . . . . . . . . . e 165 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

166 6.6 6.7 6.8 6.9

LISTE DES TABLEAUX Dcomposition de la variable FRIG, mthode multiplicative . . . e e Moyenne des composantes saisonni`res . . . . . . . . . . . . . . . e Prix moyen du Mazout pour 100 (achat entre 800 et 1500 ) . . Lissage exponentiel simple et double de la srie temporelle Prix e moyen du Mazout pour 100 litres (achat entre 800 et 1500 litres) en CHF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 150 152

154

7.1 7.2 7.3 7.4 7.5 7.6 7.7

Table des quantiles zp = 1 (p) dune variable normale centre e rduite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 e Fonction de rpartition de la loi normale centre rduite . . . . . 159 e e e quantiles de la loi normale centre rduite . . . . . . . . . . . . . 160 e e Table des quantiles dune variable 2 ` n degrs de libert . . . . 161 a e e Table des quantiles dune variable de Student ` n degrs de libert162 a e e Table des quantiles dordre 0.95 dune variable de Fisher ` n1 et a n2 degrs de libert . . . . . . . . . . . . . . . . . . . . . . . . . . 163 e e Table des quantiles dordre 0.99 dune variable de Fisher ` n1 et a n2 degrs de libert . . . . . . . . . . . . . . . . . . . . . . . . . . 164 e e

Table des gures


Diagramme en secteurs des frquences . . . . . . . . . . . . . . . e Diagramme en barres des eectifs . . . . . . . . . . . . . . . . . . Diagramme en secteurs des frquences . . . . . . . . . . . . . . . e Diagramme en barres des eectifs . . . . . . . . . . . . . . . . . Diagramme en barres des eectifs cumuls . . . . . . . . . . . . e Diagramme en btonnets des eectifs pour une variable quantia tative discr`te . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 1.7 Fonction de rpartition dune variable quantitative discr`te . . . e e 1.8 Histogramme des frquences . . . . . . . . . . . . . . . . . . . . . e 1.9 Histogramme des frquences avec les deux derni`res classes agrges e e e e 1.10 Fonction de rpartition dune distribution groupe . . . . . . . . e e 2.1 2.2 2.3 2.4 2.5 2.6 Mdiane quand n est impair . . . . . . . . . . . . . . . . . . . . . e Mdiane quand n est pair . . . . . . . . . . . . . . . . . . . . . . e Asymtrie dune distribution . . . . . . . . . . . . . . . . . . . . e Distributions msokurtique et leptokurtique . . . . . . . . . . . . e Bo ` moustaches pour la variable supercie en hectares (HAtes a poly) des communes du canton de Neuchtel . . . . . . . . . . . a Bo ` moustaches du revenu moyen des habitants des comtes a munes selon les provinces belges . . . . . . . . . . . . . . . . . . . Le nuage de points . . . . . . Exemples de nuages de points Le nuage de points, le rsidu e La droite de rgression . . . . e . . . . . . . . et coecients . . . . . . . . . . . . . . . . . . . . . . . . de corrlation e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 1.2 1.3 1.4 1.5 1.6 12 13 15 16 16 18 19 22 23 24 34 34 41 42 47 48 54 56 57 60 83 97 101 103 104 105

3.1 3.2 3.3 3.4 4.1 5.1 5.2 5.3 5.4 5.5

Courbe de Lorenz . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribution de faces obtenus. . . . . . . . . . . . . . . . . . . . Distribution dune variable alatoire binomiale avec n = 5 et e p = 0.6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribution dune variable de Poisson avec = 1. . . . . . . . . Probabilit que la variable alatoire soit infrieure ` a . . . . . . e e e a Fonction de densit dune variable uniforme . . . . . . . . . . . . e 167

168 5.6 5.7 5.8 5.9 5.10 5.11 5.12

TABLE DES FIGURES 106 108 109 109 111 117 118 118 119 119 128 130 131 131 132 133 135 137 137 138 139 139 139 143 146 155

Fonction de rpartition dune variable uniforme . . . . . . . . . . e Fonction de densit dune variable normale . . . . . . . . . . . . e Fonction de rpartition dune variable normale . . . . . . . . . . e Densit dune normale centre rduite, symtrie . . . . . . . . . . e e e e Fonction de densit dune variable exponentielle avec = 1. . . . e Densit dune variable de chi-carr avec p = 1, 2, . . . , 10 . . . . . . e e Densits de variables de Student avec p = 1, 2 et 3 et dune e variable normale . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.13 Densit dune variable de Fisher . . . . . . . . . . . . . . . . . . e 5.14 Densit dune normale bivarie . . . . . . . . . . . . . . . . . . . e e 5.15 Nuage de points de ralisations dune normale bivarie . . . . . . e e 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 6.10 6.11 6.12 6.13 6.14 6.15 6.16 Dpenses en biens durables USA (milliards de dollars de 1982) . e Nombre de rfrigrateurs vendus de 1978 ` 1985 . . . . . . . . . e e a Indice des prix ` la consommation pt . . . . . . . . . . . . . . . . a Rapport mensuel des indices de prix pt /pt1 . . . . . . . . . . . . Rapport en glissement annuel des indices de prix pt /pt12 . . . . Trac du nombre de voyageurs SNCF . . . . . . . . . . . . . . . Exemple de fonction logistique avec c = 0.5 . . . . . . . . . . . . Srie avec une tendance linaire dpendant du temps . . . . . . e e e Dirence dordre un de la srie avec une tendance linaire . . . e e e Dirence dordre 4 de la variable vente de rfrigrateurs . . . . e e e Trac du nombre de voyageurs SNCF . . . . . . . . . . . . . . . Dirence dordre 12 sur la srie trac du nombre de voyageurs e e SNCF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Logarithme du rapport dordre 12 sur la srie trac du nombre e de voyageurs SNCF . . . . . . . . . . . . . . . . . . . . . . . . . . Nombre de rfrigrateurs et moyenne mobile dordre 4 . . . . . . e e Dcomposition de la srie de ventes de rfrigrateurs 6.1 . . . . . e e e e Evolution du prix du mazout en CHF (achat entre 800 et 1500 ), lissage exponentiel double et lissage exponentiel simple . . . .

Index
analyse combinatoire, 94 arrangement, 95 axiomatique, 89 Bernoulli, 98 bernoullienne, 98 binme de Newton, 98 o bo ` moustaches, 46 te a Boudon, 68 boxplot, 46 changement dorigine et dunit, 42 e circularit, 78 e coecient dasymtrie de Fisher, 41 e dasymtrie de Pearson, 41 e dasymtrie de Yule, 41 e de corrlation, 56 e de dtermination, 56 e combinaison, 95 complmentaire, 88 e composante saisonni`re, 141 e corrlation, 56 e courbe de Lorenz, 82 leptokurtique, 42 msokurtique, 42 e platykurtique, 42 covariance, 55, 122 dcile, 36 e share ratio, 84 drives partielles, 58 e e dsaisonnalisation, 145 e densit e marginale, 123 diagramme en barres, 12 des eectifs, 15 en btonnets des eectifs, 18 a en boite, 46 en feuilles, 45 en secteurs, 12, 15 en tiges, 45 dirence, 88, 136 e saisonni`re, 138 e distance interquartile, 37 distribution binomiale, 98, 101 bivare, 120 e bivarie, 110 e conditionnelle, 112, 113 de probabilit, 97 e exponentielle, 110 groupe, 20 e leptokurtique, 42 msokurtique, 42 e marginale, 111, 112, 119, 120 normale bivarie, 120, 122 e domaine, 9 donnes observes, 64 e e droite de rgression, 57 e cart e ` lindpendance, 67 a e mdian absolu, 40 e moyen absolu, 40 cart-type, 38 e marginal, 55 eectif, 11 dune modalit, 11 e dune valeur disctincte, 11 marginal, 64 thorique, 67 e 169

170 ensemble parties dun ensemble, 89 syst`me complet, 89 e esprance, 97, 114 e conditionnelle, 121 dune variable binomiale, 99 indicatrice, 98 proprits, 114 ee tendue, 37 e vnements, 87 e e indpendants, 92 e mutuellement exclusifs, 88 exprience alatoire, 87 e e ltre linraire, 140 e fonction, 104 de densit, 108 e conditionnelle, 112 dune variable alatoire continue, e 104 dune variable exponentielle, 111 dune variable uniforme, 105 marginale, 111, 112 de rpartition, 19, 23, 33 e discontinue, 35 jointe, 111, 112 par palier, 34 forward operator, 136 frquence, 11 e groupe, 44 histogramme, 21 histogramme des frquence, 22 e homoscdastique, 122 e identit, 78 e indpendance, 113 e indice, 77 chaine, 81 dquirpartition, 84 e e de Fisher, 80 de Gini, 84 de Hoover, 84 de Laspeyres, 78 de Paasche, 80 de pauvret, 85 e de Sidgwick, 81 proprits, 78 ee selon les pays, 85 simple, 78 synthtique, 78 e intersection, 88 khi-carr, 67 e lag operator, 136 lissage exponentiel, 147 double, 150 simple, 147 loi normale bivarie, 118 e

INDEX

mdiane, 35 e mobile, 145 mthode e additive, 145 multiplicative, 145 mdiane, 33 e mesures dingalit, 77 e e mise en vidence, 30 e mod`le linaire, 136 e e modalits, 9 e mode, 27 moindres carrs, 58, 150 e moment, 40 a ` lorigine, 40 centr, 40, 41 e dordres suprieurs, 40 e moyenne, 27, 28, 31, 34, 43, 44, 55, 71 conditionnelle, 112, 113 gomtrique, 31, 81 e e harmonique, 31, 80 marginale, 55, 111, 112, 118, 120 mobile, 140 Henderson, 144 non-pondre, 141 ee Spencer, 143 symtrique, 141 e Van Hann, 143 pondre, 32, 44 ee

INDEX normale bivarie, 118 e oprateur e avance, 136 de dcalage, 136 e de dirence, 136 e forward, 136 identit, 136 e lag, 136 retard, 136 signe de sommation, 29 skewness, 41 somme dune constante, 29 des carrs, 30 e de la rgression, 61 e des rsidus, 58, 61 e totale, 61 statistique, 9 descriptive bivarie, 53 e univarie, 27 e syst`me complet dvnements, 89 e e e

171

param`tres e daplatissement, 42 de dispersion, 37 de forme, 41 tableau de position, 27 de contingence, 64 marginaux, 55 de frquences, 65 e percentile, 36 des prols colonnes, 66 permutation des prols lignes, 66 avec rptition, 95 e e statistique, 12, 13, 17, 19 sans rptition, 94 e e tendance, 133 piechart, 12 linaire, 134, 136 e probabilit, 87, 89 e logistique, 134 conditionnelle et indpendance, 92 e parabolique, 134 thor`me des probabilits totales, e e e polynomiale, 134 93 quadratile, 134 prols quadratique, 137 colonnes, 66 thor`me e e lignes, 66 de Bayes, 93 proprits, 116 ee de Huygens, 44 proprits des esprances et des variances, ee e transitivit, 78 e 114 quantile, 35, 36, 50, 55, 126, 158, 160 union, 87 units e 162 dobservation, 9 quartile, 36 statistiques, 9 quintile, 36 share ratio, 84 valeurs adjacentes, 46 rsidus, 60 e ajustes, 60 e rversibilit, 78 e e possibles, 9 variable, 9 srie e alatoire, 96 e chronologique, 133 continue, 103 statistique, 10 discr`te, 96, 97 e bivarie, 53 e indpendante, 113 e temporelle, 127

172 binomiale, 98 de Fisher, 117 de Poisson, 102 de Student, 117 esprance, 97 e indicatrice, 97 khi-carre, 116 e normale, 108 centre rduite, 108 e e ordinale, 13 qualitative, 9 nominale, 10, 11 ordinale, 10, 13 quantitative, 10, 53 continue, 10, 19 discr`te, 10, 17 e uniforme, 105 variance, 3739, 4244, 55, 61, 62, 97 99, 102104, 108, 109, 111 114, 116 conditionnelle, 112, 113, 121 dune variable binomiale, 99 indicatrice, 98 de rgression, 61, 62 e marginale, 55, 111, 112, 118, 120 proprits, 114 ee rsiduelle, 61, 63 e

INDEX

Vous aimerez peut-être aussi