Vous êtes sur la page 1sur 36

ELEMENTS DE STATISTIQUE MATHEMATIQUE ANNEE UNIVERSITAIRE 2009/2010

COURS 2 : RECUEIL, REPRESENTATION ET MODELISATION DE DONNEES

Gilles Stoltz 2009/2010

Ce document ne peut tre utilis, reproduit ou cd sans lautorisation de HEC Paris

Retrouvez ce polycopi sur

http://www.hec.fr/stoltz

CHAPITRE 6

Version rdige du cours


Objectifs. Il va sagir de comprendre et de mettre en application le mot desprit suivant :
Edwards Deming (universitaire amricain, consultant pour lindustrie, 190093) In God we trust, all others bring data.

En entreprise (pour lancer un produit) ou dans les dclarations gouvernementales (pour montrer limpact des rformes), on nest crdible que lorsque lon sappuie sur des donnes. Ce chapitre explique comment, partir de donnes recueillies 1 par exemple lors denqutes, dnir un modle statistique permettant une analyse mathmatique. On verra notamment que cela revient postuler la forme de la loi sous-jacente aux observations et la connatre quelques paramtres prs. Ltude ultrieure portera justement sur linfrence de ces paramtres. 1. Les dirents types de donnes On explique tout dabord comment lire un tableau de donnes et comment commencer la formalisation mathmatique. On verra plus tard comment bien recueillir des donnes. On commence par un exemple. Dans le chier hourlywagedata.sav (disponible sur le site web du cours), on a regroup les salaires horaires dinrmires (dun pays dterminer). Les donnes se prsentent comme indiqu la gure 1 : sous la forme dune matrice, donc. Chaque ligne correspond une inrmire dirente. Cest la convention dans les chiers de donnes : on utilise une ligne par groupe de valeurs observes. On remarque que la matrice ne comporte que des nombres. La minute SPPS 6.1. En cliquant sur longlet Affichage des variables, on dcouvre le sens de certains nombres et on peut acher ce que lon va appeler ci-dessous la table de correspondance. Ainsi, on voit que la premire colonne indique si linrmire travaille lhpital (0) ou en cabinet (1) ; la deuxime donne sa tranche dge (1 si elle a entre 18 et 30 ans, 2 entre 31 et 45 ans, 3 entre 46 et 65 ans) ; la troisime nous renseigne sur son anciennet dans le mtier (on lit un nombre entre 1 et 6, selon quelle exerce depuis moins de 5 ans, entre 6 et 10 ans, etc.) ; enn, la quatrime colonne donne son salaire horaire. Au nal, on peut crire la table de correspondance indique au tableau 1. Remarque 6.1. Il ny a pas de variable pour dcrire le sexe ! On semble donc navoir interrog que des femmes. Et les inrmiers, alors ?
1. Ce qui distingue la statistique de la voyance ? Le fait que la premire a besoin de donnes pour se prononcer. Rcemment, un ancien lve voulant lancer une start-up est venu me voir, il voulait que je laide modliser le march auquel il comptait sattaquer. Avait-il des donnes, issues de coups de sonde prliminaires ? Que nenni, mais jtais mathmaticien, alors forcment jallais savoir eectuer la modlisation, dans son esprit. Ne rptez pas sa mprise !

Gilles Stoltz Elments de statistique mathmatique

31

Retrouvez ce polycopi sur http://www.hec.fr/stoltz

Figure 1. Les 22 premires lignes dun chier de donnes en contenant 3 000. On peut noter les donnes de la ligne i par (pi , ai , yi , hi ). Par exemple, p5 = 0, a5 = 1, y5 = 3, h5 = 21.56. Le chier comporte 3 000 lignes, mais on voit que 89 cases de salaires ne sont pas renseignes. (Cela peut tre caus par la dicult lire des renseignements rcolts sur papier ou par des refus de rponse lenqute.) Il reste donc 2 911 quadruplets (pi , ai , yi , hi ) totalement exploitables. La minute SPPS 6.2. Pour compter les valeurs manquantes, on utilise Analyse / Statistiques descriptives / Effectifs. On va commencer par indiquer le type et ltendue des donnes. Le salaire est une donne dite quantitative, parce quelle mesure quelque chose (en loccurence, le salaire horaire). Ici, il est dicile de dire si la mesure eectue est discrte ou continue : on saute de centime en centime, la mesure est donc de facto discrte, mais au vu du grand nombre de
32 Gilles Stoltz Elments de statistique mathmatique

Retrouvez ce polycopi sur

http://www.hec.fr/stoltz

Nom de la variable position

Description Type dinstitution Age

Signications Hpital Cabinet Entre 18 et 30 ans Entre 31 et 45 ans Entre 46 et 65 ans

Valeurs 0 1 1 2 3 1 2 3 4 5 6

agerange

yrsscale

Anciennet dans le mtier

Infrieure 5 ans Entre 6 et 10 ans Entre 11 et 15 ans Entre 16 et 20 ans Entre 21 et 35 ans Plus de 36 ans

hourwage

Salaire horaire

Table 1. Table de correspondance pour les donnes de la gure 1.

valeurs possibles et de la nesse de la grille, cest presque une mesure continue ! Ltendue de ces donnes (i.e., lensemble des valeurs possibles) est, disons lintervalle [4, +[ (o 4 serait le salaire horaire minimum garanti, par exemple, sil existe). Dautres exemples de donnes quantitatives quon aurait pu recueillir pour ces inrmires seraient leur ge (quand il nest pas cod en catgories comme ici), le nombre denfants leur foyer, le nombre de kilomtres quelles parcourent pour se rendre leur hpital, etc. Les trois autres sries donnes du tableau 1 sont, elles, qualitatives : elles indiquent une catgorie. Les deuxime et troisime sries sont dites qualitatives ordinales : elles font rfrence des catgories que lon peut classer entre elles. Leurs tendues respectives sont {1, 2, 3} et {1, 2, 3, 4, 5, 6}. La premire srie de donnes, celle qui indique le type du lieu de travail, est nominale : on a deux catgories, mais sur lesquelles on na pas dordre vident (est-il mieux de travailler en cabinet ou lhpital ?). Pour ces trois sries de donnes, le lien entre la valeur de la variable et linformation sous-jacente (lieu dexercice, ge, temps dexprience) est ralis par ce que lon a appel ci-dessus une table de correspondance. Dans dautres registres, dautres exemples de variables qualitatives ordinales seraient la position dans une fratrie ou le rang dans un classement de performance de vendeurs, de mme que toute variable catgorisant une variable quantitative sous-jacente. Quant aux variables qualitatives nominales, on peut penser des variables dcrivant la marque du vhicule que lon conduit, la rgion dans laquelle on est n, etc. On rsume la discussion prcdente dans le tableau 1. La minute SPPS 6.3. Dans longlet Affichage des variables, on voit galement, dans la dernire colonne, intitule Mesure, le type de chacune des sries de donnes.
Gilles Stoltz Elments de statistique mathmatique 33

Retrouvez ce polycopi sur http://www.hec.fr/stoltz

Donnes Qualitatives Nominales Marque de voiture Sexe Statut conjugal Ordinales Rang dun classement Niveau dducation Degr de satisfaction Quantitatives Discrtes Nombre denfants Nombre de ventes Continues Salaire Taille

Table 2. Rsum de la discussion sur les dirents types de donnes. Note : les donnes qualitatives doivent tre codes par des entiers (1, 2, 3, etc.) lors de leur traitement sous un logiciel statistique.

2. Le recueil des donnes et son but On va expliquer maintenant comment bien recueillir des donnes ; pourquoi on veut recueillir des donnes. On verra que les deux questions sont fortement lies. 2.1. Pourquoi recueillir des donnes ? On veut tudier les caractristiques dune population donne. Dans lexemple prcdent, il sagit de lensemble des inrmires des Etats-Unis, pour qui lon veut connatre le salaire horaire moyen. Comme il est trop coteux en temps et en argent dinterroger absolument toutes les inrmires, on en tire un chantillon. (On verra plus bas quune bonne manire de choisir un chantillon est de le tirer au hasard.) On rsume ce principe dimpossibilit quasi-physique de connaissance de la population par limage de la gure 2. On constitue donc un lchantillon, compos dans lexemple introductif de 3 000 inrmires, on en interroge ses membres et on reporte les rponses dans le tableau de donnes. Evidemment, telle ou telle rponse est inexploitable, et cest ce qui donne les 2 911 groupes de donnes compltes de la gure 1. Remarque 6.2. Dune manire gnrale, cause de ces rponses inexploitables, il faut souvent interroger plus de gens que de rponses exploitables attendues. Pire, si lon veut slectionner un chantillon dans une sous-population bien particulire (par exemple, les parents ayant au moins trois enfants), il faudra interroger beaucoup plus de personnes que de rponses exploitables attendues, en commenant par leur demander sils ont, ou non, trois enfants au moins. Pensez aux sondeurs ou aux enquteurs de rue : ils commencent souvent par vous poser une ou deux questions an de savoir dans quelle sous-population vous ranger (selon votre ge, vos revenus, votre statut de locataire ou de propritaire). 2.2. Comment bien recueillir des donnes ? Au hasard ! Ne prolongeons pas le suspense : il sagit de collecter les individus de lchantillon au hasard (voir gure 3), par tirage alatoire uniforme dans la population. Ds que la population est susamment grande et/ou que lchantillon qui est en tir est susamment petit, alors on peut supposer que les donnes sont la ralisation de variables alatoires indpendantes et identiquement
34 Gilles Stoltz Elments de statistique mathmatique

Retrouvez ce polycopi sur

http://www.hec.fr/stoltz

Figure 2. Vous ntes pas des petites btes industrieuses : en consquence de quoi, vous ferez dsormais des sondages plutt que des dcomptes exhaustifs sur des populations immenses.

Gilles Stoltz Elments de statistique mathmatique

35

Retrouvez ce polycopi sur http://www.hec.fr/stoltz

Figure 3. La bonne manire de collecter des donnes : interroger au hasard ! distribues : cela procde de lapproximation dune suite de tirages sans remise par une suite de tirages avec remise. Exemple 6.1. Les donnes de salaire h1 , . . . , h2911 des inrmires peuvent tre considres comme la ralisation dun chantillon H1 , . . . , H2911 de variables alatoires indpendantes et identiquement distribues. La loi commune est celle qui gouverne le salaire dans la population ; elle est inconnue et cest justement lobjet de ce cours que de pouvoir tirer des choses sur elles partir des donnes observes. Remarque 6.3. On rappelle que lorsque lon passe des donnes observes la modlisation par des variables alatoires, on passe des symboles en minuscules h1 , . . . , h2911 ceux en majuscules, H1 , . . . , H2911 . Le caractre dobservations indpendantes et identiquement distribues provient donc de la mthode alatoire employe pour rcolter les donnes. Si lon a eectivement interrog des inrmires dans de nombreux lieux et services dirents, toutes choisies au hasard dans des lieux eux-mmes choisis au hasard, tout ira bien. (Il faut pour cela disposer dune liste nationale de toutes les inrmires et dun ordinateur y tirant des noms uniformment au hasard.) Si en revanche lon ne sest content que dun sondage alatoire dans un ou deux hpitaux, alors lchantillon risque de ntre reprsentatif que de ces hpitaux, et pas de lensemble de ceux du pays. On ne pourra alors rien dire de garanti statistiquement sur la loi dintrt (le salaire horaire moyen de toutes les inrmires amricaines). Il faut aussi faire attention la manire dinterroger : lindpendance entre les Hj provient galement, dune part, du fait quon interroge chaque inrmire chacune son tour (sinon, en grand groupe, les dires des uns inuencent ceux des autres) et dautre part, du fait quon nen prend pas trop dans le mme endroit (en un mme lieu, il y a des chelles de salaire locales ; ou alors la promotion de lune, donc le meilleur salaire de lune, empche la progression des autres, etc.).
36 Gilles Stoltz Elments de statistique mathmatique

Retrouvez ce polycopi sur

http://www.hec.fr/stoltz

Exemple 6.2 (Les sondages tlphoniques). On interroge 1 000 personnes au hasard au tlphone quant la notorit dun produit, en tirant des numros 10 chires au hasard dans lannuaire et en les composant automatiquement. Alors, les observations pourront bien tre modlises par des variables alatoires indpendantes et identiquement distribues : cest comme tirer des boules dans une grande urne. La probabilit de tirer telle couleur dpend de la proportion des boules de cette couleur dans lurne. Si on tire peu de boules, cest comme les tirer avec remise, ce qui fait quon part chaque fois du mme problme. Le seul point dattention serait ici la commune distribution : cest plutt la notorit moyenne de ceux qui ont une ligne de tlphone xe que lon essaie dvaluer ainsi. Pour mmoire, une bonne partie des jeunes de 18 30 ans ne dispose que de tlphones portables, et pas de lignes xes ! On ne peut donc les interroger par sondage... et cela commence devenir un vritable souci pour nos amis sondeurs, qui nont plus de moyens naturels (et alatoires) de contacter cette population. Un annuaire des tlphones portables leur serait dun grand secours ! Avec un peu dhumour, on peut aussi imaginer que ceux qui possdent plusieurs lignes faussent galement lchantillonnage (voir la gure 4).

Figure 4. Il est dicile dobtenir un chantillon alatoire bien reprsentatif lors dun sondage tlphonique alatoire : on na pas accs lopinion de ceux qui nont pas de tlphone et lopinion de ceux qui ont plusieurs lignes compte davantage ! Exemple 6.3 (Les enqutes de rue). Si lon interroge des gens dans un supermarch, alors dune part, les observations risquent dtre moins indpendantes (les clients qui se connaissent peuvent se passer le mot), et surtout, risquent dtre distribues selon une distribution qui dpend fortement du jour et de lheure. Le jeudi soir, surtout aux Galeries Lafayette, cest le soir des clibataires ; le lundi soir, celui des gens aiss partis en week-end la campagne et qui font les courses leur retour, ou des jeunes qui ont fait la fte tout samedi et tout dimanche ; le samedi, surtout avec la nouvelle semaine de quatre jours, cest
Gilles Stoltz Elments de statistique mathmatique 37

Retrouvez ce polycopi sur http://www.hec.fr/stoltz

le moment des familles... Pour harmoniser tout cela, il faut venir souvent et ninterroger quun nombre de clients raisonnables (pendant quinze minutes toutes les quatre heures par exemple ?). Cest, dailleurs, la mme chose pour les sondages tlphoniques : si lon appelait les gens la journe, on ne tomberait que sur les retraits et les chmeurs. Cest bien pour a que les sondeurs visent les alentours de 20h... Exemple 6.4 (Biais de motivation). La gure 5 illustre un biais classique dans la constitution dun chantillon, caus par le degr de motivation : on interroge les x premires personnes volontaires. Ce nest pas grave dans une enqute de rue si elle est faire sans ddommagement et que lon tente sa chance avec tout le monde ; a lest si lon a une grande ache promettant par exemple de pouvoir participer une tombola si lon prend le temps de rpondre au questionnaire (on cible les membres de la population aimant les jeux de hasard) ou si les passants (personnes ges, jeunes, familles avec enfants) ont des proportions de refus ou dacceptation de participation lenqute dirents (on risque de voir les jeunes ler et de sur-interroger les personnes ges qui ont envie de parler). Remarque 6.4. Tous les dtails sur le bon recueil des donnes (qui interroger, comment rdiger le questionnaire, etc.) vous seront donns en cours de marketing. Dans notre cours, nous nous eorcerons de justier le caractre indpendant et identiquement distribu des observations en expliquant dans chaque cas que le recueil des donnes a t bien fait, que tel ou tel cueil a t vit, et que lon a bien touch uniformment au hasard la population dintrt. Remarque 6.5 (Une autre mthode de sondage). La mthode de sondage par quotas, utilise par exemple dans les enqutes dopinion, repose sur une constitution raisonne de lchantillon. En partant du fait que les variables qui vont tre analyses dpendent dautres caractres connus de la population (par exemple la catgorie socioprofessionnelle), on tchera de respecter dans lchantillon les mmes proportions de chacune des catgories dans la population entire. Ensuite, on chargera chaque enquteur dinterroger un nombre donn dindividus de chaque catgorie. Empiriquement, les rsultats sont sans doute plus satisfaisants que ceux de la mthode alatoire, mais mathmatiquement, lanalyse de la prcision des sondages par quotas est dlicate. 3. Modlisation mathmatique : les lois classiques et le cas gnral Ce qui prcde nous a amen de donnes x1 , . . . , xn (o, en pratique, on connat bien sr la valeur de n) une modlisation de ces donnes comme la ralisation dun chantillon X1 , . . . , Xn de variables alatoires indpendantes et identiquement distribues selon une certaine loi, inconnue. On distingue deux cas : la forme de la loi commune est connue un ou deux paramtres prs, que lon voudrait connatre (nous donnerons des exemples ci-dessous) ; on na aucune ide de la forme de cette loi et on voudrait juste connatre son esprance (ou sa variance). Notons que dans ce dernier cas, lesprance de la loi est la moyenne dun certain caractre sur toute la population : cest par exemple la taille moyenne de tous les cornichons existant
38 Gilles Stoltz Elments de statistique mathmatique

Retrouvez ce polycopi sur

http://www.hec.fr/stoltz

Figure 5. Le sondeur part la qute des sonds, il nattend pas que ces derniers viennent lui : cela fausserait la reprsentativit de lchantillon.

dans le monde, celle que voulait calculer le castor de la gure 2. On introduit alors la notion de modle statistique. Quand on peut indiquer la forme de la loi, les modles tablis ci-dessous seront de la forme : X1 , . . . , Xn sont indpendantes et identiquement distribues selon une loi de paramtre 0 P . Le vrai paramtre 0 est inconnu, on sait simplement que cest un lment de . Les techniques des chapitres suivants permettront destimer 0 ; mais dans la description du modle, on se doit de prciser lensemble des valeurs que le paramtre pourrait prendre. Quand on na aucune ide sur la forme de la loi, on ne sintressera gnralement qu lesprance 0 de la loi commune, et, lorsquelle est dnie, sa variance 2 0 . Ici encore, on indice par un zro les quantits correspondant la population (et donc inconnues). On crira : X1 , . . . , Xn sont indpendantes et identiquement distribues selon une certaine loi, desprance 0 (et de variance 2 0 ).
Gilles Stoltz Elments de statistique mathmatique 39

Retrouvez ce polycopi sur http://www.hec.fr/stoltz

3.1. La loi de Bernoulli. Elle modlise le comportement dun quantit qui ne peut prendre que deux valeurs : homme ou femme, oui ou non, etc. Loi de Bernoulli Etendue Paramtre Nom Densit Esprance et variance {0, 1}

f(p)

p P = [0, 1]

P{X = 1} = p et P{X = 0} = 1 p
p et p(1 p), respectivement

Frquence p

Exercice 6.1. On voudrait savoir si les tudiants en cours de scolarit ont lu le rquisitoire Jai fait HEC et je men excuse de Florence Noiville. On conduit un sondage par tlphone sur le campus dHEC, en tirant au hasard 100 numros dans la liste tlphonique des rsidences. On obtient 94 rponses exploitables (6 mauvais coucheurs ayant raccroch le tlphone sans couter la question parce quils taient presss) : 51 sonds ont lu le livre et 43 ne lont pas lu. Ecrivez le modle statistique correspondant. Voici la solution : 1. Population vise : les tudiants HEC en cours de scolarit et vivant sur le campus. 2. Table de correspondance : on note dans la suite 1 lorsque le livre a t lu, 0 lorsquil ne la pas t. 3. Donnes : x1 , . . . , x98 , appartenant lensemble {0, 1}. 4. Description des donnes : on observe une moyenne sur lchantillon de x98 = 1 98
98

xi =
i=1

51 94

% 54.3 % .

5. Modlisation : vu le tirage alatoire, vu ltendue {0, 1}, on peut considrer que les donnes sont issues de la ralisation de X1 , . . . , X98 indpendantes et identiquement distribues selon une loi de Bernoulli de paramtre p0 P [0, 1]. 6. Interprtation : p0 est la proportion des tudiants HEC en cours de scolarit et vivant sur le campus ayant lu le livre. Remarque 6.6 (Attention !). p0 est inconnue ! La quantit 54.3 % est une estime de p0 , mais avec les moyens qui sont les ntres pour linstant, on ne sait pas encore quantier combien cette estime est potentiellement proche ou pas de la vraie valeur inconnue p0 . 3.2. La loi normale. Elle est la loi dobservations quantitatives qui rsultent de la combinaison de nombreux eets ; cest le thorme de la limite centrale qui explique pourquoi elle est si frquente.

40

Gilles Stoltz Elments de statistique mathmatique

Retrouvez ce polycopi sur

http://www.hec.fr/stoltz

Loi normale Etendue Paramtres Noms Densit

x (, 2)

R (mais en pratique, [ 3, + 3] avec probabilit 1 3 ) (, ) P = R R +


Esprance et variance 2 (cart-type ) 1 x 1 f(x) = p exp 2 2
2  2 3

pour x P R

Exemple 6.5 (Retour lexemple des salaires des inrmires). La gure 6 reprsente la rpartition des donnes h1 , . . . , h2911 de salaires horaires dclars par les inrmires sondes. On a galement trac la densit de la loi normale (de paramtres estims sur les donnes). On conclut que graphiquement, il ressort limpression que la loi commune des salaires H1 , . . . , H2911 est normale, de paramtres 0 et 0 inconnus (mais estims par 20 et 4 environ). 0 reprsente le salaire moyen des inrmires sur lensemble des Etats-Unis.

Figure 6. Histogramme des salaires horaires dclars par lchantillon dinrmires sondes. La minute SPPS 6.4. Pour obtenir lhistogramme de la gure 6, il sut de cliquer sur Graphes / Botes de dialogue [...] / Histogramme (et de cocher la case demandant si lon veut que la courbe de la densit gaussienne soit trace). Remarque 6.7 (Tests de normalit). Lajustement de la rpartition des valeurs observes une loi normale nous a sembl tout fait raisonnable : cest un argument subjectif. On verra plus tard comment quantier la qualit de cet ajustement, dans le chapitre sur
Gilles Stoltz Elments de statistique mathmatique 41

Retrouvez ce polycopi sur http://www.hec.fr/stoltz

les tests : par les tests de Kolmogorov-Smirnov ( adapter pour tenir compte dune estimation pralable) et de Shapiro-Wilk. La mise en uvre de ces deux tests formera un argument objectif. Que la loi des salaires lintrieur dune profession soit normale procde du thorme de la limite centrale. En eet, le salaire, profession donne, dpend de lhistoire personnelle de chacun, de sa formation initiale, des relations quil a ou na pas, de ses talents de ngociateur lors de son embauche, etc. Or une telle somme de petits phnomnes alatoires conduit une loi normale : cest ce que dit le thorme de la limite centrale. On peut citer comme autres exemples courants doccurrences de la loi normale : les erreurs de mesures physico-chimiques ; la pluviomtrie annuelle, qui est la somme de 365 pluviomtries journalires, et qui dpend des conditions climatiques gnrales, qui elles-mmes sont alatoires comme combinaisons de nombreux facteurs ; la taille dune population, puisque la taille dpend des gnes, mais aussi de lenvironnement, et notamment, de lalimentation ; le rendement dun champ, qui dpend de lexposition de la parcelle, de la pluviomtrie, de la qualit de la terre. 3.3. La loi log-normale. Par dnition, Y suit une loi log-normale si on peut lcrire comme eX , o X suit une loi normale. Le tableau de paramtres, etc., de la loi log-normale se dduit donc de celui de la loi normale. Remarque 6.8 (Test de log-normalit). Des tests de log-normalit se dduisent bien sr des tests de normalit. Partant de donnes x1 , x2 , . . ., il sut de voir si les transformes ln x1 , ln x2 , . . . peuvent tre dites distribues selon une loi normale (voir la remarque 6.7). La loi log-normale apparat dans les problmes o il y a un facteur dchelle, et notamment dans la distribution des salaires dans un chantillon inter-professionnel. (On prend donc des salaris de toutes professions, cette fois.) Les mieux pays sont vraiment (exponentiellement) mieux pays que les employs de base. Cela dcoule, l encore, du thorme de la limite centrale : on ngocie souvent les augmentations en facteurs multiplicatifs, de la forme 1 + a % ea , o a est de lordre de quelques pourcents (sauf changement de poste) ; et chaque anne t correspond une telle augmentation at , alatoire, et assez indpendante des prcdentes augmentations. Des versions gnralises du thorme de la limite centrale peuvent alors tre appliques. La minute SPPS 6.5. Chargez le chier Salaires.sav (disponible sur le site web du cours) et tudiez-le sous SPSS avec Analyse / Statistiques descriptives / Effectifs. Calculez la moyenne et la mdiane, le minimum et le maximum, ainsi que quelques quantiles 2 (les dciles 80 % et 90 %, puis le quantile 95 % par exemple), faites acher un histogramme des donnes. Vous devez obtenir quelque chose de similaire la gure 7. Remarque 6.9 (Mdiane). La mdiane est le nombre tel que la moiti des observations lui soit suprieure et lautre moiti lui soit infrieure (quantile 50 %.) En pratique, il sut de classer les observations, et lorsque lon en a un nombre pair, de prendre la moyenne des deux observations les plus centrales, et en cas de nombre impair, prendre simplement
2. On rappelle que le quantile 90 % est un nombre q90 % tel que 90 % des donnes soient infrieures q90 % et 10 % soient suprieures q90 % ; en particulier, on appelle mdiane le quantile 50 %.

42

Gilles Stoltz Elments de statistique mathmatique

Retrouvez ce polycopi sur

http://www.hec.fr/stoltz

Statistiques SalaireMensuel N Valide Manquante Moyenne Mdiane Ecart-type Variance Minimum Maximum Centiles 80 90 95

2000 0 1,965100 1,533100 1,6062763 2,580 ,1484 16,3780 2,749860 3,660740 4,977220

Figure 7. Statistiques descriptives des donnes simules de salaires mensuels nets (en milliers deuros). lobservation centrale. Lavantage de la mdiance par rapport la moyenne, cest quelle est moins sensible aux observations extrmes, elle dcrit de manire plus robuste une certaine tendance centrale. Lorsque lon parle du pouvoir dachat, il vaut donc mieux raisonner en termes de mdiane que de moyenne, messieurs les hommes politiques ! Ce chier de donnes (simules) est assez typique des salaires franais ; on remarque notamment lcart entre la moyenne et la mdiane : la moyenne des salaires mensuels nets est aux alentours de 1 900 euros, mais la mdiane se situe vers 1 500 euros. Cela est caus par les quelques salaires levs qui tirent la moyenne vers le haut, tandis que la mdiane est tire vers le bas par les salaires minimum garantis lgalement. En revanche, les dciles ( 80 % et 90 %) sont trop levs sur ces donnes simules. Ainsi, daprs lINSEE (voir le tableau de la gure 8), les 10 % de salaris les mieux pays gagnaient en 2004 plus de 35 513 euros nets annuels, soit environ 2 960 euros nets par mois. Le dcile 90 % est donc autour de 3 350 euros nets actuels environ, si lon tient compte dune volution moyenne de ces hauts salaires de 2.5 % par an depuis ce moment, pour compenser lination (cest sans doute plus : les carts ont tendance se creuser entre les trs bas et les trs hauts salaires). Pour information, le dcile 80 % en 2004 (le seuil tel que seuls 20 % des salaris gagnent plus) pourra vous surprendre : il est 26 788 euros nets annuels, soit environ 2 230 euros nets mensuels (seulement ?, pourrez-vous penser, ou pas). Pour mieux reter le ressenti de la majorit des interrogs, on introduit les botes moustaches. Leur principe, ainsi que leur application aux donnes considres dans ce paragraphe, est expliqu la gure 2. On retiendra notamment que le ressenti des 50 % les plus centraux de la population est dcrit par la bote centrale.

Gilles Stoltz Elments de statistique mathmatique

43

2004. Compte tenu de lacdes prix de 2,1 % en uelle, le Smic brut, tout mic net, progressent de os constants. Cette forte largement suprieure re moyen, a tendance ntail des salaires.

Ensemble Cadres1 Prof. interm. Employs Ouvriers Smic (169h)

12,80 27,92 15,37 9,92 10,60 7,01

13,16 28,21 15,70 10,19 10,88 7,40

0,7 - 1,1 0,0 0,5 0,5 3,5

9,79 21,18 11,72 7,61 8,17 5,52

10,02 21,26 11,91 7,77 8,33 5,83

0,2 - 1,7 - 0,5 0,0 - 0,2 3,5

100,0 9,3 18,8 46,2 25,7 -

100,0 9,6 18,9 47,1 24,3 -

Retrouvez ce polycopi sur http://www.hec.fr/stoltz 1. Y compris chefs d'entreprise salaris.


Champ : salaris du secteur priv et semi-public. Source : DADS, Insee (fichier 2004 semi-dfinitif).

tail des salaires erre lgrement

Distribution des salaires annuels nets de tous prlvements


en euros courants Ensemble 2003 11 744 13 158 14 464 15 875 17 497 19 494 22 128 26 340 34 841 3,0 2004 12 055 13 466 14 753 16 166 17 802 19 813 22 498 26 788 35 513 2,9 2003 12 218 13 739 15 124 16 598 18 322 20 463 23 460 28 286 38 119 3,1 Hommes 2004 12 511 14 018 15 409 16 892 18 622 20 805 23 850 28 769 38 832 3,1 2003 11 114 12 335 13 405 14 571 16 002 17 748 19 951 23 005 28 877 2,6 Femmes 2004 11 430 12 680 13 745 14 893 16 310 18 073 20 299 23 425 29 436 2,6

Dciles D1 D2 D3 D4 Mdiane D6 D7 D8 D9 D9/D1

ations des salaires minisent essentiellement dans rarchie salariale. Ainsi, en es salaris temps com moins de 1 005 euros s (tableau 3) : le premier distribution augmente, en de 0,5 % par rapport e bout de lchelle, 10 % s de 2 959 euros : le derminue de 0,2 % en euros hirarchie des salaires se grement, avec un rapport

Champ : salaris temps complet du secteur priv et semi-public. Lecture : en 2004, 10 % des salaris temps complet du secteur priv et semi-public gagnent un salaire annuel net infrieur 12 055 euros, 20 % un salaire infrieur 13 466 euros. Source : DADS, Insee (fichier 2004 semi-dfinitif).

Figure 8. Donnes de salaires annuels prsentes par lINSEE (la source , BD ADOLPHE PINARD - PARIS CEDEX 14 - TL. : 33 (0) 1 41 17 50celle 50 eectue par est la DADS : dclaration annuelle des donnes sociales, les entreprises aux organismes paritaires).

Figure 9. Botes moustaches : principe et application.

44

Gilles Stoltz Elments de statistique mathmatique

Retrouvez ce polycopi sur

http://www.hec.fr/stoltz

CHAPITRE 7

Complments pour tudiants avancs


1. La loi de Poisson Elle modlise les succs issus dun grand nombre dessais individuels, comme, par exemple, le nombre de contrats (fentres, oprations de dscalisation) vendus par un tlvendeur ou le nombre de rponses un spam. Dans les deux cas, les direntes rponses aux requtes tant indpendantes les unes des autres, et supposant un tirage au hasard des n personnes sollicites, le nombre de succs est a priori donn par une loi binmiale fin(n, p) de paramtres n et p, o p est le taux moyen de rponses quobtient un vendeur. Or, on sait quon a la convergence en loi

fin(n, pn)

()

lorsque npn ,

ce qui justie que lon puisse approximer la loi de ce nombre de succs par une loi de Poisson. Cela forme lapproximation dite binmiale-Poisson, ou loi des petits nombres. (En pratique, on le fait quand n > 30 et 1 6 npn 6 10.) Loi de Poisson Etendue Paramtres Noms Densit

()

P = R + Esprance (et variance 2 = )

P{X = k} = e k /k! pour k P N

Exemple 7.1 (Comparaison de performances de vendeurs). Un service dvaluation des ressources humaines veut comparer deux tlvendeurs doprations de dscalisation (ceux qui vous demandent, juste aprs vous avoir salu, si vous payez plus ou moins de 3 000 euros dimpts). Sur un mois, on note chaque jour leurs performances, et on suppose quon sait que les performances sont indpendantes des jours (pas meilleures le vendredi que le lundi par exemple). On a des valeurs observes x1 , . . . , x21 pour le premier et y1 , . . . , y19 pour le second (qui a pris deux jours de congs). On peut modliser les premiers rsultats comme tant la ralisation dun 21-chantillon X1 , . . . , X21 distribu selon une certaine loi de Poisson, et faire de mme pour la seconde srie, Y1 , . . . , Y19 . Le but du traitement statistique sera alors de voir si les paramtres inconnus sous-jacents x et y sont dirents ou non. Si cest le cas, on parle de paramtres statistiquement dirents, et cela prouvera quun vendeur est meilleur que lautre. Exercice 7.1. Expliquez pourquoi chacun de nous reoit un nombre poissonien de lettres, dappels tlphoniques ou de mails chaque jour.
Gilles Stoltz Elments de statistique mathmatique 45

Retrouvez ce polycopi sur http://www.hec.fr/stoltz

Remarque 7.1 (Test dajustement une loi de Poisson). Ici encore, on peut tester lajustement une loi de Poisson, en recourant au test du 2 , qui sera tudi dans un chapitre part. En pratique, on souponne avoir aaire une loi de Poisson lorsque la moyenne des valeurs observes est proche de leur variance. 2. La loi exponentielle Elle est beaucoup utilise dans les tudes mdicales ou dans les tudes de abilit, pour modliser les dures de survie ( une aection grave, comme un cancer) ou celles avant la prochaine panne (prochain pneu crev sur une voiture, prochaine dfaillance dune machine sur une chane industrielle). Son intrt rside dans le fait quelle est dite sans mmoire : si X suit une loi exponentielle, alors pour tous temps t1 , t2 > 0,

X > t1 + t2  X > t1 = P{X > t2 } .

Le taux de panne est constant : la survenue ou non dune panne (ou dun dcs) linstant prsent ne dpend pas du nombre de pannes passes (ou du temps de survie actuel). Cette modlisation nest donc pas valable durant les phases de rdage (mise en place dun nouveau protocole thrapeutique) ou dusure (une voiture tend, aprs un certain nombre dannes et de kilomtres, voir ses dirents lments mcaniques lcher les uns aprs les autres). Des observations suivant la loi exponentielle peuvent faire penser la loi des sries, cause de ce phnomne dabsence de mmoire. On peut pendant un temps long navoir aucune panne puis subitement, deux ou trois pannes coup sur coup. Loi exponentielle i () Etendue Paramtres Noms Densit P = R + Esprance 1/ (et variance 2/2 ) f(x) = ex pour x > 0 et f(x) = 0 pour x 6 0

R+

Remarque 7.2 (Test dajustement une loi exponentielle). Ici encore, on peut tester lajustement de donnes une loi exponentielle, en recourant une version du test de Kolmogorov-Smirnov avec estimation pralable (voir un chapitre ultrieur). 3. Il existe dautres lois usuelles... On pourrait, pour chacune des lois usuelles, binmiale, uniforme, gomtrique, etc., dcrire le contexte dans lequel elle apparat naturellement, en donner un exemple concret, et rappeler sa forme. Soyez patients, elles apparatront en leur temps !

46

Gilles Stoltz Elments de statistique mathmatique

Retrouvez ce polycopi sur

http://www.hec.fr/stoltz

CHAPITRE 8

Exercices et quizz de lan dernier


1. Exercices Exercice 8.1. Traitez la question 1 de lexercice II de lexamen principal de 2008 (lexercice sur lassurance ddie aux tudiants). Exercice 8.2. Eectuez les modlisations correspondant aux donnes prsentes dans lexamen de rattrapage de 2008 (tant pour le montant des achats pour Nol 2008 que lors de ltude en 2007 et 2008 de la concurrence lie Internet). Exercice 8.3. Traitez la question 1 de lexercice I de lexamen principal de 2007 (lexercice sur la socit de vente par correspondance). Exercice 8.4. Modlisez la situations et les donnes introduites lexercice II de lexamen de rattrapage de 2007 (lexercice sur loptimisme des Franais et le montant de leurs dpenses de loisirs).

Gilles Stoltz Elments de statistique mathmatique

47

Retrouvez ce polycopi sur http://www.hec.fr/stoltz

48

Gilles Stoltz Elments de statistique mathmatique

Retrouvez ce polycopi sur

http://www.hec.fr/stoltz

Gilles Stoltz Elments de statistique mathmatique

49

Retrouvez ce polycopi sur http://www.hec.fr/stoltz

50

Gilles Stoltz Elments de statistique mathmatique

Retrouvez ce polycopi sur

http://www.hec.fr/stoltz

Gilles Stoltz Elments de statistique mathmatique

51

Retrouvez ce polycopi sur http://www.hec.fr/stoltz

52

Gilles Stoltz Elments de statistique mathmatique

Retrouvez ce polycopi sur

http://www.hec.fr/stoltz

2. Quizz Vous trouverez galement aux pages suivantes lnonc, le corrig et la distribution des notes du premier quizz de lanne 200809. Faites-le pour vous entraner et mditez bien la correction que jen avais faite : mon exprience me montre que la plupart des erreurs que je souligne se rpercutent malgr tous mes eorts de promotion en promotion !

Gilles Stoltz Elments de statistique mathmatique

53

Retrouvez ce polycopi sur http://www.hec.fr/stoltz

Quizz 1 Elments de statistique mathmatique

Question de cours
Enoncez le thorme de la limite centrale.

Aucun document autoris


54

Question subsidiaire et facultative ( ne traiter que sil vous reste du temps) : Lorsque les observations sont gaussiennes, que pouvez-vous dire du rsultat du thorme de la limite centrale ?

Un premier exercice de modlisation


(Une histoire inspire par une vieille rumeur.) Il y a longtemps de cela, les tudiants dHEC se sont vus proposer la construction sur le campus ou dune glise ou dune piscine. Pour savoir sils devaient faire une campagne active de lobbying, les gros bras du bureau des sports se sont posts la cantine et ont interrog tous les tudiants qui passaient par l. Ils ont obtenu 135 rponses, dont 63 en faveur de la piscine. Modlisez ce problme : prcisez la population, indiquez les donnes, proposez une modlisation et indiquez le ou les paramtre(s) dintrt.

Un second exercice de modlisation


Vous tes nutritionniste au Ministre de la Sant et vous intressez au nombre moyen de fruits et lgumes que consomment les Franais chaque jour. Vous commandez une enqute, qui indique une consommation moyenne de 4.37 de fruits et lgumes par jour, pour les 1 068 personnes ayant accept (ou su) rpondre. Modlisez ce problme (mmes commentaires que ci-dessus).

Gilles Stoltz Elments de statistique mathmatique

Retrouvez ce polycopi sur

http://www.hec.fr/stoltz

Rpartition des notes : plutt satisfaisante ! - La mdiane est B - Plus de 4 tudiants sur 5 ont A, B ou C

Gilles Stoltz Elments de statistique mathmatique

55

Retrouvez ce polycopi sur http://www.hec.fr/stoltz

56

Gilles Stoltz Elments de statistique mathmatique

Retrouvez ce polycopi sur

http://www.hec.fr/stoltz

Gilles Stoltz Elments de statistique mathmatique

57

Retrouvez ce polycopi sur http://www.hec.fr/stoltz

58

Gilles Stoltz Elments de statistique mathmatique

Retrouvez ce polycopi sur

http://www.hec.fr/stoltz

Gilles Stoltz Elments de statistique mathmatique

59

CHAPITRE 9

Fiche de synthse
1. A retenir pour le reste de votre carrire Avant de vous lancer sur un march, il faut identier une population cible puis la cerner, coups de sondages (alatoires). Vous dnissez un questionnaire puis en reportez les rponses dans une grande matrice, en codant les donnes qualitatives selon une certaine table de correspondance. La matrice ainsi obtenue constituera le matriau brut de votre tude statistique et sera la source de votre crdibilit : In God we trust, all others bring data. Et surtout, ne faites pas comme cet ancien lve qui est venu me voir, sans donnes, sans tude pralable, et qui voulait que je laide modliser le march auquel il sintressait : la statistique se fonde sur des donnes, ce nest pas de la voyance ! 2. A retenir pour la suite du cours De ce chapitre, il sut de retenir quelques grandes ides. Premirement, il faut tre conscient des dirents types de donnes possibles. Donnes Qualitatives Nominales Marque de voiture Sexe Statut conjugal Ordinales Rang dun classement Niveau dducation Degr de satisfaction Quantitatives Discrtes Nombre denfants Nombre de ventes Continues Salaire Taille

Table 1. Rsum de la discussion sur les dirents types de donnes. Note : les donnes qualitatives doivent tre codes par des entiers (1, 2, 3, etc.) lors de leur traitement sous un logiciel statistique. Ensuite, il faut connatre le principe de la chane de recueil, description et traitement des donnes, dcrite la gure 1 ; les sances suivantes du cours porteront sur les statistiques infrentielles mentionnes dans la dernire case. Nous avons en revanche vu comment recueillir, dcrire et modliser des donnes. Pour la reprsentation graphique des donnes, une mthode nouvelle est apparue en la personne des botes moustaches, dont il faut connatre le principe de construction.

Lachanedesdonnes
Retrouvez ce polycopi sur http://www.hec.fr/stoltz

Figure 1. La chane de recueil, description et traitement des donnes.

Recueil
1.Ecrituredunquestionnaire 2.Sondagealatoire(essayerde tirerun nchantillon reprsentatif) 3.Reportdesrponsesdans unematrice,aveccodagedes donnesqualitatives

Description
1.Donnesdchantillon(xi,yi,.) 2.Statistiquesdescriptives (moyenned dchantillon chantillon,mdiane dchantillon,etc.) 3.Reprsentationsgraphiques (histogramme,botemoustaches)

Traitement

1.Modlisation(Xi,Yi,.)

2.Statistiquesditesinfrentielles (intervallesdeconfiance,tests statistiques)

Impressions Questions (cf.comportement del d lchantillon) h till )

Quantifications

(cf.comportement del d lapopulation) l ti )

62

Gilles Stoltz Elments de statistique mathmatique

Retrouvez ce polycopi sur

http://www.hec.fr/stoltz

Figure 2. Principe de construction des botes moustaches.

Pour le recueil et la modlisation des donnes, on retiendra les faits suivants : lors du recueil des donnes, il est notamment bon dinterroger des individus au hasard, dans une grande population : cela conduit une modlisation des donnes x1 , . . . , xn comme la ralisation de variables alatoires X1 , . . . , Xn indpendantes et identiquement distribues selon une loi commune, qui est celle qui gouverne la population ; les deux lois particulires que nous verrons le plus souvent pour cette loi de population sont la loi normale (de paramtres 0 et 2 0 ) et la loi de Bernoulli (de paramtre p0 ) : la premire modlise des situations o un grand nombre de paramtres inuent sur la valeur dune donne, la seconde est utilise pour les sondages ; lorsque lon ne sait pas la forme de la loi de la population, on va juste sintresser son esprance 0 ou son cart-type 0 . En pratique, sur un exercice, la modlisation est une dmarche en six temps, rappele dans la gure suivante.
Gilles Stoltz Elments de statistique mathmatique 63

Retrouvez ce polycopi sur http://www.hec.fr/stoltz

La dmarche de modlisation 1. Dnir la population eectivement vise. 2. Rappeler la table de correspondance (comment on code les donnes qualitatives proposes par lnonc, lorsquil y en a) ; 3. Prciser les donnes (leur donner un nom, rappeler leur nombre, dnir leur tendue, i.e., lensemble des valeurs pouvant tre prises). 4. Dcrire les donnes (rappeler les statistiques dchantillon disponibles). 5. Modliser les donnes, au vu de la mthode de recueil utilise : souvent, sous la forme de ralisations de variables alatoires indpendantes et identiquement distribues, selon une loi dont on prcisera si on en connat la forme (normale, Bernoulli) ou pas. 6. Prciser les paramtres dintrt de cette loi et surtout, les interprter en termes de comportement de la population (en une phrase, donner le sens et le but de la connaissance de ces paramtres).

Figure 3. Dmarche de modlisation reprendre avant de traiter tout exercice.

64

Gilles Stoltz Elments de statistique mathmatique

Vous aimerez peut-être aussi