Vous êtes sur la page 1sur 6

Pr ecis de Statistiques a ` lusage des non-math ematiciens

10 d ecembre 2012

Conventions typographiques
Les expressions sont mises en gras pour souligner leur importance, ils ne cachent pas de concepts math ematiques. Les mots en italique correspondent ` a des notions pr ecises, mais qui sortent du cadre du cours ou du chapitre. Il serait bon de les garder en t ete et de les rattacher ` a un contexe, mais il nest pas indispensable de conna tre leur d enition pr ecise. Les mots en italique surlign e d esignent des notions-cl es d enies dans le chapitre courant.

R esum e du cours 00 - Eveil ` a lesprit statistique


0.1 Introduction
La statistique est une science appliqu ee qui vise ` a d ecrire et expliquer des donn ees exp erimentales faisant intervenir le hasard, ainsi qu` a eectuer des pr edictions bas ees sur ces donn ees. La d enomination science appliqu ee indique quil sagit dune discipline qui traite exclusivement des donn ees dexp erience, la science exacte de laquelle eorie des probabilit es . On y retrouve des traces de d erive la statistique est la th disciplines plus abstraites comme la th eorie de la mesure ou la th eorie des distributions. Selon son but ou son degr e dabstraction, le domaine des statistiques utilis e nest pas le m eme, il est donc courant dentendre parler de statistiques au pluriel, pour d esigner ces di erents domaines. Par exemple, on di erencie la statistique descriptive , qui permet de d ecrire les donn ees, de la statistique inf erentielle , qui permet de r ealiser des analyses explicatives et pr edictives (dans ce dernier cas on parle egalement daide ` a la d ecision). Il existe egalement un domaine interm ediaire particuli` erement int eressant, la statistique math ematique , qui permet de faire le lien entre les comportements parfaits des probabilit es et les donn ees de terrain. Ainsi, si la th eorie des probabilit es nous permet de calculer nos chances ` a un jeu de pile ou face parfait, cest la statistique math ematique qui va nous dire dans quelle mesure nous pourrons utiliser les r esultats probabilistes, et sils sappliquent ` a notre exp erience de pile ou face r eelle. Si nous sommes conants dans 1

notre exp erience et que nous la r ealisons, la statistique descriptive nous permettra de calculer notre proportion de pile ou de face, la moyenne du nombre de pile cons ecutifs, ainsi que toute autre combinaison des donn ees dexp erience. La statistique inf erentielle nous dira par exemple quel est le temps dattente attendu avant dobtenir six face cons ecutifs, ou bien si notre pi` ece est truqu ee et pr esente un biais. Chacune des disciplines mentionn ees manipulent des concepts qui font r ef erence aux m emes notions, mais dont le degr e dabstraction di` ere. Par exemple on parlera de moyenne th eorique en probabilit es, destimateur de la moyenne en statistique math ematique et de moyenne empirique en statistique descriptive. La moyenne th eorique est une donn ee abstraite, qui caract erise le mod` ele parfait dont on suppose quil est suivi par notre exp erience. Elle est souvent inconnue ou di erente de la moyenne empirique, qui est celle que nous calculons sur nos donn ees. La di erence entre la r ealit e et le mod` ele, ainsi que la conance que lon peut apporter ` a notre calcul de moyenne empirique est donn e par les caract eristiques de lestimateur de la moyenne. Mentionnons egalement une discipline connexe, mais qui poss` ede une imporerience , qui permet au statistitance primordiale en statistiques : le plan dexp cien en herbe de concevoir et dajuster son exp erience pour quelle permette de r esoudre au mieux le probl` eme pos e. Nous traiterons les principaux concepts du plan dexp erience dans la deuxi` eme partie de ce cours, la premi` ere traitera des bases de la statistique math ematique.

0.2

Les variables

Les probabilit es nous fournissent un certain nombre de lois pour manipuler ecacement un grand nombre de r esultats th eoriques dexp erience parfaites. Certains de ces r esultats, comme la loi des grands nombres, ont une importance colossale en statistiques. Tous les r esultats des probabilit es se fondent sur un concept cl e, celui de variable al eatoire (commun ement abr evi e en v.a.). On les utilise pour d esigner le r esultat dexp eriences dont lissue nest pas connue : par exemple notre jeu de pile ou face. Ces variables ne sont pas d eterministes : elles ne prennent quune seule valeur (soit pile , soit face dans lexemple), et on ne conna t pas cette valeur ` a lavance. Lensemble des valeurs possibles pour une variable al eatoire est appel ee lensemble des eventualit es et est not e . Cest ici quinterviennent les probabilit es proprement dites : on a beau ne pas conna tre la valeur prise par la v.a. X ` a lavance, on peut d enir et conna tre la probabilit e que X prenne chacune des valeurs A dans ; on la note P (X = A) ou par extension P (A). Remarque 1. Lensemble de ces probabilit es pour une variable al eatoire d enit ce quon appelle une distribution 1 . Il existe plusieurs types de distributions, chacune correspondant ` a un type de hasard pr ecis. Par exemple, un d e` a jouer a la
1. notion qui sera d enie avec plus de pr ecision dans le chapitre suivant

m eme chance de tomber sur chacune de ses faces (on parle de distribution uniforme discr` ete), mais une telle equiprobabilit e reste relativement rare. En eet, si lon mesure en centim` etres la taille dune population humaine, on na pas des chances egales de tomber sur 170cm et sur 220cm (dans ce cas pr ecis, il sagit dune loi normale). On dit que X suit une distribution particuli` ere D, et on ecrit X D.Il existe plusieurs fa cons de repr esenter les distributions, que nous traiterons dans le chapitre sur les repr esentations graphiques. Remarquons que lon se trouve encore dans le domaine des probabilit es, et que les distributions telles que nous venons de les d enir nont rien ` a voir avec quoi que ce soit dexp erimental ou de statistique (pour linstant). Eviter donc des expressions telles que distribution des donn ees, qui peuvent pr eter a ` confusion. Quel est le lien entre ces variables et nos donn ees ? La statistique math ematique nous dit que chaque valeur observ ee au cours dune exp erience peut etre vue ependante (le r esultat dune mesure comme la r ealisation dune variable ind ninuence pas la suivante). Attention, nous parlons bien de chaque valeur observ ee. Par exemple, si nous mesurons lexpression de plusieurs g` enes selon la valeur dun facteur, cest chaque niveau dexpression mesur e, ind ependamment du g` ene, qui est la r ealisation dune variable al eatoire ind ependante de toutes les autres. En statistique pure, le concept de variable est l eg` erement di erent, et est rattach e au domaine dapplication : dans notre exemple, on sint eresse ` a la variation de lexpression dun g` ene particulier dans di erents types cellulaires. Il est important de comprendre que de telles variables statistiques sont en r ealit e des s eries de r ealisations de variables al eatoires identiquement distribu ees (leur distribution suppos ee et sous-jacente est identique). Cela revient ` a consid erer une variable Y telle que Y = (X1 , . . . , Xn ), avec y = (x1 , . . . , xn ) sa r ealisation. Contrairement ` a lintuition qui voudrait nous faire consid erer n observations successives du m eme ph enom` ene comme n r ealisations dune variable al eatoire X , les Xi sont ici toutes des variables al eatoires di erentes soutenues par la m eme distribution, elles ne sont observ ees quune fois. Y et y sont donc des vecteurs de dimension n, qui d esigne la taille de l echantillon (respectivement vecteur de variables et de r ealisations). Remarque 2. Nous ne traitons ici que le cas o` u on ne consid` ere quun seul Y . Si nous travaillons avec non pas une, mais plusieurs variables exp erimentales, nous entrons dans le domaine de la statistique multidimensionnelle ou multivari ee. enition pr ec edente, nous aurons : Au lieu de la d Y1 = (X1,1 , . . . , X1,n ) . . Y = ene aux tableaux de donn ees , ce qui nous am` . Ym = (Xm,1 , . . . , Xm,n ) . . . y1,n . .. . . . . Tout ce que ym,1 . . . ym,n nous dirons dans ce chapitre se g en eralise au cas multidimensionnel. y1,1 . bidimensionnels que nous connaissons bien : . . Ces deux concepts primordiaux pour r ealiser le pont entre statistique et probabilit es sont r esum es sous lacronyme i. i. d. pour identiquement et ind ependamment distribu es . 3

0.2.1

Types de variables statistiques

Maintenant que nous sommes familiers avec les concepts de variable al eatoire, de r ealisation et de variable statistique, int eressons nous plus pr ecis ement au type des valeurs de A, cest a ` dire au type dinformation que fournit chaque variable. Variable qualitative, quantitative Les variables al eatoires peuvent soit d esigner des quantit es, soit lappartenance ` a une ou plusieurs cat egories. Dans eme de variable le premier cas, on parle de variable quantitative , dans le deuxi` qualitative ou cat egorique (on parle aussi de facteur, factor en anglais). La taille dun individu humain et son sexe correspondent respectivement ` a une variable quantitative et qualitative. Les variables qualitatives prennent toujours leurs valeurs dans des ensembles nis ; ces valeurs sont appel ees modalit es , classes ou niveaux (de langlais levels ). Variables quantitatives : continues ou discr` etes On dit dune variable quantitative quelle est continue lorsquelle prend ses valeurs dans R ou tout sous-ensemble non d enombrable (par exemple [0, 1], dans lequel le nombre de valeurs possible est inni). Une variable discr` ete , quant ` a elle, prend ses valeurs dans un sous-ensemble de N (il y a un nombre distinct de valeurs possibles) 2 . Cette distinction est non-n egligeable. Les probabilit es d emontrent que pour une variable continue, P (X = A) = 0, A . Une cons equence notable est que leectif, i.e. le nombre dobservations poss edant la m eme valeur, est au maximum 1. Par exemple, si on observe la masse et la taille chez un echantillon humain (sans arrondir), il est tr` es peu probable dobserver deux fois la m eme valeur (puisquon dispose dune pr ecision innie). Par contre, si lon arrondit au centim` etre comme on la fait pr ec edemment, la taille devient une variable discr` ete, car plusieurs individus auront de facto la m eme taille mesur ee. On dit souvent que les donn ees issues dune mesure sont continues, alors que celles issues dun d enombrement ou dune num erotation sont discr` etes. Variables qualitatives : nominales ou ordinales Les cat egories dune variable qualitative peuvent poss eder un ordre naturel ou non : si le statisticien nest pas misogyne ni f eministe, on ne peut pas armer que M asculin > F eminin ou le contraire : le sexe est donc une variable est nominale . Par contre, si lon classe des el` eves selon leur niveau T res Bon, Bon, M oyen, M auvais, Cancre, il existe un ordre naturel entre ces di erents niveaux : cest une variable ordinale . Remarque 3. Exclusivit e des classes - On a admis implicitement quun homme ne pouvait poss eder les deux sexes, ou quun enfant ne pouvait pas etre ` a la fois bon et tr` es bon. Il existe des cas o` u il est possible quun individu appartienne ` a plusieurs cat egories. Par exemple, on peut citer la couleur des grains de ma s : certains epis seront tout jaunes, dautres tout rouges, mais certains poss` ederont les deux couleurs. De telles classes sont mal g er ees par les analyses statistiques, il est souhaitable de les transformer. Habituellement, on cr ee
2. Cette distinction vient de la th eorie des ensembles et de ses cons equences sur la th eorie de la mesure qui fonde les probabilit es. Voir en particulier les notions dinni d enombrable et inni non d enombrable.

une troisi` eme cat egorie (dans lexemple Jaune et Rouge) pour les individus en question, cest notamment le comportement par d efaut de R. 3

0.3

Population, echantillon, exp erience

Nous avons ` a plusieurs reprises d ej` a utilis e le mot echantillon, sans le d enir explicitement. Cest une erreur, car il correspond ` a une d enition tr` es pr ecise, que nous avons fort heureusement toujours respect ee jusqu` a pr esent. Ce mot fait erience partie dun environnement que lon nomme commun ement le plan dexp (experiment design en anglais). Cest une discipline qui d epasse largement le cadre de ce cours, et dont lobjectif est de sp ecier des protocoles exp erimentaux rigoureux. Nous introduisons ici les concepts les plus importants, qui ont trait a llorganisation des donn ` ees exp erimentales. Nous avons vu plus haut le formalisme entourant la variable al eatoire, le plan dexp erience correspond ` a celui de la variable statistique. On peut le r esumer par un certain nombre de phrases simples : Une ou plusieurs variables sont mesur ees sur un individu ; Lensemble de tous les individus observables constitue la population , qui peut etre innie ; Lensemble des individus eectivement mesur es par lexp erience constitue l echantillon , qui ne peut pas l etre ; Le processus de mesure sur tous les individus de l echantillon sappelle lexp erience . Un plan dexp erience comprenant tous ces termes devrait etre clairement d eni avant chaque analyse statistique. Malgr e cette d enomination rigoureuse, la notion dexp erience ne se rapporte pas forc ement ` a lexp erience physique r ealis ee par lop erateur. Les manuels de statistique conseillent de planier toute lanalyse, donc de d enir exactement la population, les individus et l echantillon avant de commencer ` a mesurer ; cette approche est rigoureuse, mais souvent trop optimiste en sciences de la vie. On se retrouve souvent devant des panels de donn ees organis es dune mani` ere qui fait sens pour le biologiste, mais qui nen a aucun pour le statisticien. Cette situation nest pas productive ; il convient donc de garder ` a lesprit que les analyses statistiques demandent des conditions dapplication sp eciques pour produire des r esultats : on la vu, les probabilit es exigent ` a la fois du nombre et du hasard. Vous ne pourrez rien conclure sur des echantillons de taille faible, ou si vous consid erez des variables enti` erement d eterministes. Remarque 4. A propos du hasard - Pas de panique, la deuxi` eme condition est relativement facile ` a satisfaire. Des donn ees apparemment d eterministes ne le sont souvent pas enti` erement. Par exemple, un domaine statistique sp ecique traite de lanalyse en s eries temporelles, o` u lon eectue des mesures r ep et ees
3. Notons que cette approche est pratique, mais ne permet plus de consid erer ces individus jaunes et rouges comme appartenant egalement a ` la cat egorie jaune, ou ` a la cat egorie rouge. Si lon souhaite garder cette information, par exemple pour cibler tous les individus contenant du jaune, on peut r ealiser un bitmask, une notion h erit ee de linformatique et abondamment document ee en ligne.

dune quantit e` a des intervalles de temps successifs. Apparemment, les donn ees Y ne sont pas soumises au hasard, il est toutefois courant d ecrire Y = T + , o` u d esigne une erreur de mesure de moyenne nulle ; cela rend imm ediatement possible lanalyse statistique de cette exp erience. La premi` ere des deux conditions (le nombre dindividus mesur es ` a un temps t) est donc la plus dicile ` a satisfaire. Il est donc souhaitable de r eorganiser les donn ees de sorte ` a ce que lanalyse soit possible. Cela peut simplement se r esumer ` a pivoter un tableau, mais on peut egalement aller jusqu` a r eunir plusieurs jeux de donn ees apparemment distincts, en les normalisant. La seule condition ` a v erier est que la nature du hasard des di erents jeux doit etre identique. Par exemple, si lon souhaite d eterminer les biais de mesure dun spectrom` etre lors dune exp erience, et que les mesures dont nous disposons ne susent pas, il est tout ` a fait autoris e de rassembler des mesures faites par le m eme appareil dans des conditions similaires, m eme si lexp erience r ealis ee na rien ` a voir avec celle qui nous occupe. Attention cependant, en faisant cela, on change la population, donc egalement lexp erience : une telle exp erience modi ee a beau etre plus rigoureuse, elle ne d emontre pas la m eme chose quavant. Dans notre exemple nous mesurions, par exemple, des variations de compositions chimiques au cours du temps ; ` a pr esent nous consid erons la population de toutes les mesures de concentration susceptibles d etre faites sur cet appareil au cours de son utilisation, que nous echantillonnons ` a conditions identiques, avec un eectif donn e. Ainsi, plut ot de voir le plan dexp erience comme un protocole exp erimental, on gagnera a le consid ` erer comme une fa con de g en erer, voir et combiner des donn ees (qui existent potentiellement d ej` a). On le voit, la statistique est une science extr emement arrangeante : il sagit l` a dune arme ` a double tranchant. Ce qui est comparable en statistique est beaucoup plus vaste que ce qui est comparable, par exemple, en biologie. Cela signie que lon peut ais ement comparer nimporte quoi et en tirer des conclusions fausses, mais egalement rendre comparables des choses qui ne l etaient pas, par exemple en augmentant articiellement les eectifs. La question de leectif nous am` ene ` a une question tr` es souvent pos ee par les exp erimentateurs, ` a savoir quelle est la taille minimale dun echantillon pour pouvoir tirer quelque chose dun jeu de donn ees. La r eponse ` a cette question est tr` es rami ee, au poins que nous y consacrons le chapitre suivant.