Vous êtes sur la page 1sur 7

1

Statistique : Introduction Quelles sont les comptences ncessaires la mise en uvre de tels logiciels pour analyser, modliser, interprter des corpus de donnes de plus en plus complexes et volumineux produits par une entreprise ou un laboratoire ?

Statistique : Introduction
Rsum

Les enjeux sont en effet majeurs ; les rsultats inuent directement sur les prises de dcision du management ou la validation de rsultats scientiques et Introduction la Statistique et ses mthodes. Contexte et objectifs (descripleur valorisation par des publications. tif, explicatif, prdictif) dune analyse statistique ; les comptences ncessaires. Ce cours est structur en deux niveaux principaux et quelques grands 2 Terminologie thmes : L : Description et infrences statistiques lmentaires Le travail du statisticien est dabord un travail de communication avec des M : Exploration multivarie reprsentants dautres disciplines ou dautres mtiers. Ceci ncessite beaucoup M : Modle linaire et linaire gnral de rigueur et donc de prcision dans lemploi des mots et concepts lorsquil M : Apprentissage et modlisation sagit de traduire en phrases intelligibles des rsultats numriques ou graphiques. En effet, de ces interprtations dcouleront des prises de dcision.

Le mtier de statisticien

2.1

Statistique, statistiques, statistique

Le dveloppement continu des moyens informatiques de saisie, de stockage (bases de donnes) et de calcul permet la production, la gestion, le traitement et lanalyse densembles de donnes de plus en plus volumineux. Par exemple, les 600 Mb de donnes produites en une dizaine dheures par lun des squenceurs actuels reprsentent lquivalent de la production mondiale dpose dans GenBank entre 1982 et 1996. Les squenceurs arrivant sur le march en 2010 produisent en 5 jours 200Gb par traitement. Le perfectionnement des interfaces graphiques offrent aux utilisateurs, statisticiens ou non, des possibilits de mise en uvre trs simples des outils logiciels de plus en plus "conviviaux". Cette volution, ainsi que la popularisation de nouvelles mthodes algorithmiques (rseaux de neurones, support vector machine, agrgation de modles...) et outils graphiques, conduisent au dveloppement et la commercialisation de logiciels gnraux, ou spciques des mtiers, qui intgrent un sous-ensemble de mthodes statistiques et algorithmiques plus ou moins exhaustif.

Le mot statistiques avec un "s" est apparu au XVIIIme sicle pour dsigner des quantits numriques : des tables ou tats, issus de techniques de dnombrement et dcrivant les ressources conomiques (impts...), situations dmographiques (conscription...), dun pays. La Statistique est une sous-discipline des Mathmatiques qui sest dveloppe depuis la n du XIXme sicle notamment la suite des travaux de lcole anglaise (K. Pearson, W. Gosset (Student), R. Fisher, J. Neyman...). Une statistique est une quantit dnie par rapport un modle (i.e. une statistique de test) permettant dinfrer sur son comportement dans une situation exprimentale donne.

2.2

Statistique descriptive, infrentielle et apprentissage

De manire approximative, il est possible de classer les mthodes statistiques en trois groupes : celui des mthodes, celui des mthodes infrentielles Une question merge alors de faon trs prsente ; elle est fondamentale et celui rcent de lapprentissage. pour lemplois et les dbouchs des tudiants, la gestion des ressources humaines et les investissements conomiques des entreprises ou encore les stra La Statistique descriptive regroupe les mthodes dont lobjectif princitgies scientiques des laboratoires de recherche. pal est la description des donnes tudies ; cette description des donnes se fait travers leur prsentation (la plus synthtique possible), leur rePrcdente Suivante Premire Dernire Retour Quitter

Statistique : Introduction

prsentation graphique, et le calcul de rsums numriques. Dans cette optique, il nest pas fait appel des modles probabilistes. On notera que les termes de statistique descriptive, statistique exploratoire et analyse des donnes sont quasiment synonymes. La statistique infrentielle. Ce terme regroupe les mthodes dont lobjectif principal est de prciser un phnomne sur une population globale, partir de son observation sur une partie restreinte de cette population, lchantillon. Il sagit donc dinduire (ou encore dinfrer) du particulier au gnral avec un objectif principalement explicatif. Ce passage ne peut se faire quaux moyens de modles et dhypothses probabilistes. Les termes de statistique infrentielle, statistique mathmatique, et statistique inductive sont eux aussi quasiment synonymes. Lapprentissage statistique est issu de linterface entre deux disciplines : Statistique et Machine Learning (apprentisage machine). Lobjectif est principalement la construction dun modle, statistique tradiditionnel ou algorithmique sans ncessairemnt dhypothse probabiliste, en prvivilgiant la prvision dune variables qualitative (discrimination ou classication supervise) ou quantitative (rgression). Le contexte est souvent celui de donnes de grandes dimensions avec comme d majeur le cas o le nombre de variables explicatices p est considrablement plus important que le nombre n dobservations ou taille de lchantillon dit dapprentissage. Pour continuer sur la statistique descriptive.

Enqute (statistique) : opration consistant observer (ou mesurer, ou questionner. . . ) lensemble des individus dun chantillon. Recensement : enqute dans laquelle lchantillon observ est la population tout entire (enqute exhaustive). Sondage : enqute dans laquelle lchantillon observ est un sousensemble strict de la population (enqute non exhaustive). Variable (statistique) : E si qualitative R si quantitative caractristique (ge, salaire, sexe, glycmie. . . ), dnie sur la population et observe sur lchantillon ; mathmatiquement, il sagit dune application dnie sur lchantillon. Si la variable est valeurs dans R (ou une partie de R, ou un ensemble de parties de R), elle est dite quantitative (ge, salaire, taille. . . ) ; sinon elle est dite qualitative (sexe, catgorie socioprofessionnelle. . . ).
X

Donnes (statistiques) : ensemble des individus observs (chantillon), des variables considres, et des observations de ces variables sur ces individus. Elles sont en gnral prsentes sous forme de tableaux (individus en lignes et variables en colonnes) et stockes dans un chier informatique. Lorsquun tableau ne comporte que des nombres (valeurs des variables quantitatives ou codes associs aux variables qualitatives), il correspond la notion mathmatique de matrice.

Dun point de vue mthodologique, la statistique descriptive prcde la sta- 3 Dmarche du statisticien tistique infrentielle ou lapprentisage statistique dans une dmarche de traitement de donnes : ces diffrents aspects de la statistique se compltent bien Le crdo de lenseignement de statistique consiste rpter inlassablement : plus quils ne sopposent une fois que le ou les objectifs : dscriptif, explicatif, un statisticien (ou les comptences quils reprsentent) doit tre associ praprdictif sont explicits. lablement une tude, des exprimentations, une enqute... De la qualit du recueil et de lorganisation des donnes dpendra bien videmment la pertiPopulation (ou population statistique) : ensemble (au sens mathmatique nence des rsultats de lanalyse. Plusieurs questions sont pralables : du terme) concern par une tude statistique. On parle parfois de champ de ltude. 3.1 Exprimentation Individu (ou unit statistique) : tout lment de la population. Quelle est la question biologique, sociologique, pidmiologique lachantillon : sousensemble de la population sur lequel sont effectivement quelle je veux apporter une rponse ? En particulier, quel est lobjectif ralises les observations. (descriptif, explicatif, prdictif ou une combinaison) ? Taille de lchantillon n : cardinal du sous-ensemble correspondant. Quelle est la population tudie ? Prcdente Suivante Premire Dernire Retour Quitter

Statistique : Introduction

Comment planier des expriences ou des recueils dinformations dans 4 Quel logiciel ? des bases pr-existantes ? Deux logiciels sont privilgis : lun commercial SAS car le plus rpandu Quels sont les chantillons ? et le plus demand dans les offres demplois ; lautre, R, en distribution libre Prcision des conditions exprimentales (licence GNU) comme outil de dveloppement des dernires avances mtho Observations et mesures dologiques du monde universitaire.

3.2

Exploration pour un objectif descriptif

Cette tape est de toute faon un pralable tout autre objectif. Les donnes recueillies sont elles de qualit sufsante ? Sont-elles bien exemptes de biais ou artefacts ? Leurs grandes structures (groupes, corrlations...) sont elles en accord avec les conaissances acquises sur le sujet ? Valeurs manquantes, errones ou atypiques Modalits trop rares Distributions anormales Incohrences, liaisons non linaires Transformations, imputation, codage...

4.1

SAS

Mis part le module SAS/IML de langage matriciel trs peu utilis, SAS est un logiciel de type "bote noire" superposant des couches basses, pour lesquelles lutilisateur crit des lignes de code dans une syntaxe complexe, et des interfaces graphiques conviviales (SAS/INSIGHT, SAS User Guide, Sas Enterprise Miner...). Sa diffusion est telle quil apparat en situation de quasi monopole dans certaines branches dactivit comme lindustrie pharmaceutique. Paradoxalement, sa complexit et son cot sont des atouts pour lemploi de statisticiens indispensables sa bonne utilisation et donc sa rentabilisation. Son apprentissage est incontournable.

3.3

Dcision pour un objectif explicatif

Telle variable ou tel facteur a-t-il une inuence sur la variable dintrt ? Le modle thorique est-il en accortd avec les rsultats exprimentaux ? Explicitation de lhypothse statistique rpondant la question biologique, Dtermination du modle statistique correspondant, Estimation des paramtres du modl et calcul de la statistique de test, Prise de dcision : rejet ou acceptation de lhypothse.

4.2

3.4

Apprentissage pour un objectif prdictif

Un modle explicatif construit dans ltape prcdente peut tre un bon candidat comme modle prdictif mais, pas ncessairement. Paradoxalement, un modle vrai nest pas ncessairement un meilleur modle prdictif sil est trop complexe, pas assez parcimonieux . Une quantit impressionnante de mthodes ont t dveloppes ces dernires annes sans quil soit possible de dterminer, a priori, celle qui conduira aux meilleures prvisions sur le problme et les donnes tudies.

A loppos et lexception des traitements les plus rudimentaires pilotes par menu, R est avant tout un langage de programmation pour la manipulation des objets du statisticien : vecteurs matrices, bases de donnes, liste de rsultats, graphiques. Dun point de vue pdagogique, sa mise en uvre oblige lindispensable comprhension des mthodes et de leurs limites. Il fait bien admettre quil ne suft pas dobtenir des rsultats, il faut leur donner du sens. Rien ne nous semble en effet plus dangereux que des rsultats ou des graphiques obtenus laide de quelques clics de mulot dont ni les techniques, ni les options, ni leurs limites ne sont clairement explicites ou contrles par lutilisateur. Il est par ailleurs risqu de se laisser enfermer par les seules mthodes et options offertes par un logiciel. En pratique, le ragencement ou la rorganisation de quelques commandes R offrent une combinatoire trs ouvertes de possibilits contrairement un systme clos de menus prdnis. Il offre par ailleurs, grce de nombreuses librairues facilement accessibles et continuellement mises jour, un ensemble exhaustif des techniques et de leurs options ainsi que des interfaces des gestionnaires de bases de donnes ou des outils spciques certaines disciplines (Biologie). Dernire Retour Quitter

Prcdente

Suivante

Premire

Statistique : Introduction

de lINRA de Toulouse. Il concerne 40 souris rparties en 2 gnotypes (sauvages et gntiquement modies : PPAR dcientes) et 5 rgimes alimenEn rsum, il est bien et utile de savoir utiliser ces deux types de logiciels et taires (dha, efad, lin, ref, tsol). Le plan est quilibr complet : quatre souris par il est important de comprendre que lapprentissage syntaxique dun logiciel est combinaison des deux facteurs. indispensable mais secondaire. Une fois les mthodes comprises et apprhendes, il est techniquement facile de passer dun logiciel lautre, leurs fonc- dha rgime enrichi en acides gras de la famille Omga 3 et particulirement en acide docosahexanoque (DHA), base dhuile de poisson ; tionnalits tant structurellement les mmes. La difcult principale ne rside pas dans lobtention de sorties ou rsultats mais dans leur comprhension. efad (Essential Fatty Acid Decient) : rgime constitu uniquement dacides gras saturs, base dhuile de coco hydrogne ;

4.3

Quel choix ?

Domaines dapplication

lin rgime riche en Omga 3, base dhuile de lin ; ref rgime dont lapport en Omga 6 et en Omga 3 est adapt des Apports Nutritionnels Conseills pour la population franaise, sept fois plus dOmga 6 que dOmga 3 ; tsol riche en Omga 6, base dhuile de tournesol. Les expressions des gnes ainsi que des concentrations de 21 acides gras sont mesures au niveau du foie aprs euthanasie. Ce jeu de donnes aux problmatiques statistiques trs riche est trs souvent repris tout au long des prsentations des diffrentes mthodes.

Toutes les mthodes et techniques utilises ncessitent dtre illustres sur des exemples simples ou "acadmiques", pour ne pas dire simplistes, an den comprendre les fondements. Nanmoins, leur apprentissage effectif requiert leur utilisation effective sur des jeux de donnes en vraie grandeur, issus de diffrents domaines dapplications. Ce nest qu cette condition que peuvent tre apprhendes les difcults de mise en uvre, les limites, les stratgies dinterprtation mais aussi la grande efcacit de ces outils. Ils sont tirs des principaux domaines dapplication de la Statistique.

5.1

Sciences de le Vie

5.2

Marketing

Depuis les travaux pionniers de Sir Ronald Fisher, les disciplines des Sciences de la Vie ont toujours motiv les dveloppements de la Statistique : modles de dure de vie, modles pidmiologiques, dynamique de population... Les techniques de squenage et les technologies dinstrumentation haut dbit (transcriptomique, protomique, mtabolomique...) viennent renforcer lourdement cette tendance en posant des ds redoutables au statisticien : que faire lorsque les transcriptions (quantits dARN messagers) de milliers de gnes (les variables statistiques) sont simultanment observs pour seulement quelques dizaines dchantillons biologiques ? La gure : 1 est un exemple original demploi de lanalyse canonique (objectif descriptif). Cette mthode permet de mettre en relation deux paquets de variables (gnes et concentrations dacides gras) observes sur les mmes individus (souris). Le jeu de donnes utilis provient de lUnit de Pharmacologie-Toxicologie

La prospection ou fouille de donnes (data mining) est une appellation issue des services marketing spcialiss dans la gestion de la relation client (GRC) (client relation management ou CRM). Elle dsigne un ensemble de techniques statistiques souvent regroupes dans un logiciel spcialement conu cet effet et vendu avec un slogan racoleur (SAS Enterprise Miner) : Comment trouver un diamant dans un tas de charbon sans se salir les mains. Les entreprises commerciales du tertiaire (banques, assurances, tlphonie, marketing directe, publipostage, ventes par correspondance...) sont en effet trs motives pour tirer parti et amortir, par une aide la dcision quantie, les cots de stockage des teras octets que leur service informatique semploie administrer. Le contexte informationnel de la fouille de donnes est celui des data wharehouses. Un entrept de donnes, dont la mise en place est assure par un gesDernire Retour Quitter

Prcdente

Suivante

Premire

Statistique : Introduction

tionnaire de donnes (data manager), est un ensemble de bases relationnelles extraites des donnes brutes de lentreprise et relatives une problmatique.
C22.6n.3 C20.5n.3 GSTpi2 CYP3A11 C22.5n.3 CYP2c29 C18.0 G6Pase CYP4A14 SPI1.1 CYP4A10 GSTmu C20.3n.3 C18.2n.6 Tpalpha PMDCI mHMGCoAS CBS AOX C16.0 C18.3n.3 C16SR PECI THIOL IL.2 PPARd THB MCAD Tpbeta C20.3n.6 GSTa Pex11a LCE BACT apoE HPNCL ACOTH BIEN CACP ACAT1 CAR1 ALDH3 M.CPT1 PXR i.BABP PPARg L.FABP apoB X36b4 OCTN2 CPT2 Waf1 ACBP ACAT2 CIDEA CYP26 RXRb2 i.BAT SHP1 MDR1 LXRb TRa C20.2n.6PON cMOAT BSEP PAL CYP8b1 LPL mABC1 CYP27b1 RXRa VLDLr CYP2b10 FXR MTHFR NURR1 ADISP MRP6 Lpin2 FAS ACC1 SIAT4c GS COX1 AM2R Lpin ap2 C20.4n.6 Lpin3 CYP27a1 apoC3 Lpin1 LXRa C20.1n.9 Bcl.3 hABC1 LPK PDK4 TRb NGFiB C22.4n.6 CYP7a MS MDR2 RXRg1 GK PPARa CYP2b13 RARa ADSS1 UCP3 RARb2 C22.5n.6 COX2 CYP24 VDR c.fos eif2g i.NOS apoA.I UCP2 C18.3n.6 FDFT SR.BIFAT G6PDH Ntcp i.FABP cHMGCoAS LDLr S14 C14.0 C20.3n.9 HMGCoAred C16.1n.9 C16.1n.7 ACC2 PLTP C18.1n.9 C18.1n.7

Dimension 2

Chaque banque, assurance... dispose dun chier client qui, pour des raisons comptables, enregistre tous leurs mouvements et comportements. Les donnes anonymes en provenance dune banque dcrivent tous les soldes et produits nanciers (emprunt, contrats dassurance vie...) dtenus par les clients ainsi que lhistorique mensuel des mouvements, nombre doprations, de jours dcouvert... La base initiale tudie comprend 1425 clients dcrits par 32 variables explicites la vignette dcrivant les donnes. Le graphique reprsent est un grand classique du marketing bancaire. Lobjectif (descriptif) de statistique multidimensionnelle est de construire des classes ou segments de clients homognes quant leur comportement bancaire. Une fois les classes construites et lensemble des clients affects, lagent commercial sait quel langage adopter, quels produits proposer au client quil a en face de lui. Aprs une analyse factorielle des correspondances multiples, les clients caractriss par leur nouvelles coordonnes sont regroups en classes dont lexplicitation est facilite par la reprsentation des modalits de ces classes dans le plan factoriel de lanalyse des correspondances multiples (gure 2). Un autre objectif (apprentissage) est abord sur ces mmes donnes pour la recherche de scores dapptences ou dattrition. Les applications marketing sont trs nombreuses (intrts de certains clients pour des produits nanciers, risque pour dautre client de changer de fournisseur en tlphonie). Elles le sont galement dans les appalications nancires : risque de dfaut de paiement dun client, de ruine dune entreprise.

1.0 1.0

0.5

0.0

0.5

1.0

0.5

0.0 Dimension 1

0.5

1.0

dha

0.2

WT PPAR

dha dha dha dha

dha dha dha lin lin lin lin

0.1

Dimension 2

lin

0.0

tsol lin tsol tsol

lin lin tsol ref ref efad ref ref efad

ref ref ref ref tsol tsol tsol tsol

Pour des raisons culturelles et historiques trop longues dvelopper (culture dterministe des coles dingnieurs...), la Statistique a une place trs miefad neures dans lindustrie franaise sauf en cas dobligation lgale : essais cli0.4 0.3 0.2 0.1 0.0 0.1 0.2 niques pour lautorisation de mise sur le march des mdicaments, contrle Dimension 1 de qualit et abilit des matriaux pour la conformit aux normes ISO... La Statistique est ainsi plus vcue comme une contrainte, un contrle, que comme F IGURE 1 Souris : premier plan des facteurs canoniques : reprsentation une aide la dcision. Dautre part, les exemples dvelopps dans le cadre conjointe des relations gnes et acides gras puis des souris selon le gnotype de thses sont, outre les questions de condentialit, souvent trop complexes et le rgime suivi. expliciter pour sadapter la simple illustration de ce cours. Nanmoins, il
0.2
efad efad efad efad efad

Prcdente

0.1

5.3

Industrie

Suivante

Premire

Dernire

Retour

Quitter

Statistique : Introduction

faut tre conscient que chacune des techniques abordes, en particulier de biostatistique, se transposent directement : dure de vie et abilit des matriaux, fouille de donnes et traabilit pour la dtection de dfaillances... Le contexte est souvent techniquement trs complexe en terme de modlisation physique mais plus favorable sur le plan statistique : beaucoup plus dobservations que dans le domaine de la sant. Les entreprises industrielles sont confrontes la mme situation que celles du tertiaire : afux et stockage massif de donnes, la situation et donc les mtiers de la Statistique voluent favorablement dans ce domaine.

Quelles comptences ?

Les comptences acquises doivent permettre de rpondre avec assurance aux questions suivantes ou alors conduire une proposition de rdnition de la problmatique envisage si celle-ci est trop mal engage. Quelle est prcisment la question pose ? Quelle mthode utilise avec quelles limites ? Comment la mettre en uvre ? Comprendre les sorties du logiciel utilis. Quelle dcision ? Un argument tendancieux est souvent avanc : il nest pas besoin dtre mcanicien pour conduire une voiture. Cest vrai, il nest pas ncessaire dtre informaticien pour utiliser un ordinateur. En revanche, toute tude statistique ncessite des choix fondamentaux : transformation des donnes, slection de variables, choix de mthodes, valeurs des options et paramtres de ces mF IGURE 2 Banque : reprsentation des classes de clients, w1 w5, dans le thodes... quil nest pas prudent de laisser faire, par dfaut, au logiciel utilis. Ces choix ne sont pas anodins et autrement plus difciles dterminer que le premier plan factoriel de lanalyse des correspondances multiples choix du carburant dans une voiture. Ils doivent tre conduits en connaissance de cause par opposition une stratgie de Shadok (cf. gure 3) qui est un mode dapprentissage de type "jeux vidos". Elles est utile, mais pas en toute circonstance, car il ne suft pas dobtenir un rsultat pour quil soit pertinent ou mme simplement juste.

Prcdente

Suivante

Premire

Dernire

Retour

Quitter

Statistique : Introduction

F IGURE 3 Shadok : devise numro 1

Prcdente

Suivante

Premire

Dernire

Retour

Quitter