Vous êtes sur la page 1sur 74

Gilles HUNAULT

2005

quelques Rep` eres en STATISTIQUES pour Doctorants

Universit e dAngers

c gilles.hunault@univ-angers.fr

http ://www.info.univ-angers.fr/pub/gh/

Le principe consistant a ` ne pouvoir armer que des di erences et jamais des identit es sapplique aussi a ` la vie courante. Une ressemblance peut toujours etre fortuite ; seule une di erence permet une conclusion (n egative) s ure. Ainsi jai perdu un bouton de ma blouse en faisant mon cours et, me penchant, jen aper cois un par terre. Sil nest pas de la m eme couleur que les miens, il est certain que ce nest pas le bouton qui me manque (test couleur n egatif). Sil est de la bonne couleur (test positif), le bouton est peut- etre le mien, mais ce nest pas certain. En eet, sil nest pas de la bonne taille (test taille n egatif), ce nest pas le mien. Sil est de la bonne taille, cest peut- etre le mien, mais ce nest pas encore certain et ainsi de suite...

S. Frontier, D. Davoult, V. Gentilhomme, Y. Lagadeuc Statistique pour les sciences de la vie et de lenvironnement Ch. 5 : Tests dhypoth` eses sur les moyennes, p. 141

ii

Table des mati` eres

1. Introduction 1.1 1.2 Des chires et des lettres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Contenu du manuel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1 1 2

2. Statistiques descriptives 2.1 2.2 2.3 2.4 Des donn ees aux variables, des variables aux calculs . . . . . . . . . Analyse s epar ee (univari ee) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3 3 5

Analyse conjointe (bivari ee) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Analyse multidimensionnelle (multivari ee) . . . . . . . . . . . . . . . . . 14

3. Statistiques inf erentielles et tests 3.1 3.2 3.3

15

Estimation et intervalles de conance . . . . . . . . . . . . . . . . . . . . . . 15 Tests param etriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Tests non param etriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4. Graphiques, protocoles, r edaction et logiciels 4.1 4.2 4.3

27

Courbes et graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Protocoles et R edaction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Logiciels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 iii

Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 R ef erences Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 Formules math ematiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 Exemples de programmes et sorties informatiques . . . . . . . . . . . . 49

iv

Chapitre 1. Introduction
1.1 Des chires et des lettres

La r ealisation et la r edaction dune analyse statistique pour un article de recherche ou dans le simple but de rendre compte du travail eectu e mettent en jeux deux domaines de comp etence : - le calcul statistique avec ses termes techniques et ses formules, leurs conditions dapplications, les conclusions math ematiques licites auxquelles elles aboutissent, - l ecriture du rapport danalyse via la pr esentation du protocole et des donn ees (voire des hypoth` eses sous-jacentes), la mise en forme de tout ou partie des r esultats et la r edaction des conclusions, interpr etations et commentaires pour les sp ecialistes du domaine, pour l equipe de recherche ou pour le grand public. Une analyse statistique ne se r eduit donc pas a ` une suite de calculs, m eme justes et justi es. La r edaction est un art dicile. Elle est souvent b acl ee par les [pseudo]scientiques qui confondent phrases, litt erature, verbiage et production litt eraire. Or, la qualit e dun article de recherche, dun rapport dexp erimentation transparait au l des paragraphes. Le choix des termes employ es renforce chez le lecteur ou le correcteur la conviction que le travail fait a et e bien fait, que les m ethodes statistiques sont maitris ees, que le passage des chires (comme m = 12.3 jours) aux lettres (un dur ee moyenne aussi faible qu` a lhabitude ) est le fruit dun m ure r eexion... 1

Chapitre 1.

Introduction

1.2

Contenu du manuel

On trouvera dans ces quelques pages un guide pour conduire des analyses statistiques usuelles avec au passage quelques conseils pour la r edaction et la mise en forme des r esultats. La partie purement math ematique (formules, d emonstrations...) a et e r eduite au minimum an de focaliser lattention sur les concepts et m ethodes. Nous avons donc fait le pari d ecrire un texte lisible sans equation ni int egrale. Les principales formules statistiques, notamment pour les intervalles de conance sont toutefois fournies en n de manuel. On pourra toujours retrouver les formules et les d emonstrations manquantes dans les ouvrages cit es dans la bibliographie ou dans nos cours. Une remarque similaire sapplique aux loix probabilistes utilis ees, comme 2 la loi normale de Laplace-Gauss, la loi du ou la loi de Student. Nous supposons que le lecteur et la lectrice savent que ces lois correspondent a ` des mod` eles th eoriques, a ` des cas parfaits ou id eaux et que leurs fonctions de r epartition directe ou inverse servent de r ef erence au m eme titre que les equations de droite, parabole, sinus ou exponentielle servent de r ef erence dans l etude des fonctions r eelles (sans que lon sache forc ement ecrire les equations de ces fonctions de r epartition). Le chapitre 2 est centr e sur la notion de variable statistique et de traitement descriptif associ e pour les deux grandes classes de variables que sont les QT (quantitatives) et les QL (qualitatives). Le chapitre 3 passe en revue les divers intervalles de conance fournis par la th eorie de lestimation ainsi que les principaux tests de la statistique inf erentielle, leurs utilisations et la lecture de leurs r esultats, quils soient param etriques ou non. Enn, le chapitre 4 reprend les divers graphiques quil est bon de savoir aujourdhui maitriser (sans oublier de rappeler les erreurs graphiques a ` ne pas commettre) avant de rappeler les incontournables et autres garde-fous li es aux protocoles dexp erimentation et a ` la r edaction. Nous avons egalement ajout e en n de manuel une bibliographie courte plut ot orient ee cours traditionnel et ouvrages avec exercices corrig es que nous avons compl et ee par une liste volontairement courte aussi de r ef erences W eb plus g en erales. En particulier celle de SMEL, qui signie Statistique M edicale En Ligne et qui correspond a ` lURL http ://www.math-info.univ-paris5.fr/smel/ devrait etre protable a ` tous ceux et celles qui ont a ` inclure des rapports d etudes statistiques dans des articles m edicaux. 2

Chapitre 2. Statistiques descriptives


2.1 Donn ees, variables et calculs

Le poids dun individu exprim e en kilogrammes, la pr esence ou labsence dune tumeur ne sont pas des donn ees de m eme nature. Cest pourquoi on d esigne par le vocable variable quantitative ou QT toute s erie de chires se rapportant a ` une quantit e mesurable pour laquelle la notion de moyenne a un sens. De m eme, on d esigne par le vocable variable qualitative ou QL toute s erie de chires se rapportant a ` des qualit es cest a ` dire a ` des etats distincts et en nombre ni. Il est important de reconnaitre les types de variables car le vocabulaire et les traitements statistiques sont di erents pour ces deux types de variables. Il est plus imag e et sans doute plus facile a ` m emoriser dutiliser les appellations variables a ` unit es sommables pour les QT et variables a ` codes arbitraires pour les QL. Il faut noter au passage quon nomme aussi cat egorie ou modalit e chacune des valeurs possibles pour les etats des QL. Il existe bien s ur dautres types de variables. Ainsi les variables hi erarchiques ou rangs dont les valeurs indiquent un ordre de pr ef erence ou de classement, les variables textuelles qui fournissent des phrases plut ot que des nombres, les variables multi-r eponses qui g en eralisent les QL... En Biologie comme en M edecine, de nombreuses variables ne sont ni des QT ni des QL et il serait imprudent de les traiter comme telles. Rentrent dans cette cat egorie tous les indices, index et autres proportions ou pourcentages non sommables comme les densit es et lIMC (indice de masse corporelle).

eventuellement obtenus par recodage, comme les classiques 0 et 1 pour oui et non.

Chapitre 2.

Statistiques descriptives

Lusage veut quen statistiques descriptives on analyse s epar ement les variables avant de les traiter conjointement cest a ` dire par paires. Ce qui signie quon commence par traiter les diverses colonnes de chires dans les chiers comme sil sagissait de colonnes s epar ees, le regroupement de ces colonnes ne se faisant quau travers dun tableau r ecapitulatif de leurs caract eristiques avant de les passer en revue comme si les chiers etaient constitu es de deux colonnes seulement. Il ne sagit pas dune vue de lesprit mais dune d emarche progressive : on eectue les calculs en dimension 1 (analyse univari ee) avant de passer a ` la dimension 2 (analyse bivari ee). Nous leurs pr ef erons les termes moins conventionnels mais plus explicites danalyse s epar ee et danalyse conjointe. Les calculs en dimensions sup erieures font appel a ` des calculs plus g en eraux, souvent vectoriels, regroup es sous les termes danalyse multidimensionnelle ou danalyse des donn ees (` a la fran caise) ou encore analyse multivari ee, ce qui inclut les m ethodes factorielles, les techniques de classication, r egression, discrimination, segmentation... Il est tout a ` fait naturel de vouloir comparer les r esultats de ces analyses a ` une, deux dimensions ou plus, de vouloir quantier le degr e de conance quon peut accorder a ` ces r esultats do` u la notion d intervalle de conance et de test statistique qui donne un cadre math ematique rigoureux a ` ces notions de conance et de comparaison. Nous pr esenterons les tests dans le chapitre suivant. Pour ne pas encombrer la lecture de formules math ematiques, nous avons regroup e celles-ci en n de manuel. Rappelons que lutilisation de logiciels ne dispense pas de connaitre et de savoir interpr eter ces formules. Elle autorise seulement a ` ne pas les connaitre par coeur et remplace le calcul manuel le calcul, avons-nous ecrit, pas la r eexion pas plus que linterpr etation et la r edaction.

Chapitre 2.

Statistiques descriptives

2.2

Analyse s epar ee (univari ee)

Comme les valeurs num eriques ou codes dune QL sont arbitraires, les calculs associ es se r esument a ` des comptages. Pour faire compliqu e l` a o` u on peut faire simple, les statisticiens ont invent e un vocabulaire pr ecis et pas toujours intuitif. Ainsi on nomme eectif absolu de la modalit e i pour la variable j le nombre de fois o` u on trouve le code num ero i de cette variable. Ce simple d enombrement est aussi appel e comptage ou fr equence de la modalit e. La somme des eectifs absolus pour la variable j est nomm ee eectif total de la variable et le rapport eectif absolu/eectif total pour chaque modalit e est nomm e eectif relatif ou proportion ou pourcentage de la modalit e. Le regroupement de ces calculs est nomm e tri a ` plat de la variable en fran cais (et table de fr equences en anglais). Le mode (masculin) dune QL est alors la modalit e de plus grand eectif. En principe a ` chaque modalit e de chaque QL est associ e un label ou intitul e plus ou moins court qui doit gurer a ` la place de chaque code dans les tableaux de r esultats. Lorsquon sint eresse a ` la distribution ou r epartition th eorique des valeurs on calcule aussi les eectifs cumul es qui induisent la fonction de r epartition empririque de la variable. Ces calculs sont en g en eral doubl es de graphiques comme les histogrammes et polygones de fr equences que nous traiterons au chapitre 4. Une erreur classique (parfois volontaire) est doublier dindiquer la taille totale n des donn ees trait ees : 20 % de 5 personnes ne signient pas la m eme chose que 20 % pour 500 personnes. Et que dire de 10 % des patients... quand on ne sait pas combien il y a de patients en tout ? La taille des donn ees joue un role important pour les analyses de type enqu ete. Par exemple en France, en-dessous de 1000 personnes une enqu ete ne peut se dire nationale au sens repr esentative de lensemble de la population fran caise. Dans le cas d etudes sur des pathologies, il arrive quon ne dispose que dun nombre de donn ees faible ou tr` es faible soit parce quelles sont [tr` es] peu disponibles soit parce que les obtenir coute cher. Il faut en tenir compte au niveau des conclusions et de la r edaction qui devront etre plus nuanc ees quavec un grand nombre de valeurs. De nombreux logiciels se contentent dun achage des eectifs absolus par ordre croissant de num ero de modalit e. Cest bien s ur insussant : il vaut mieux fournir un achage par eectif relatif d ecroissant de fa con a ` favoriser la comparaison des variables, quitte a ` elaguer les modalit es de faible eectif (quon fournira eventuellement sous forme de document annexe). 5

Chapitre 2.

Statistiques descriptives

Il y a un ordre statistique de pr esentation pour un tableau r ecapitulatif des tris a ` plat de variables QL : cest celui o` u les variables sont pr esent ees a ` raison dune variable par ligne, chaque ligne contenant les eectifs relatifs avec leur label rang es par ordre d ecroissant, les lignes etant tri ees par mode d ecroissant. Cet achage fait ressortir les variables les plus marqu ees, voire a ` modalit es majoritaires de celles plus faiblement ou plus uniform ement r eparties. Lors de calculs sous Excel, il est courant de voir des tableaux de r esultats sans aucune r ef erence aux noms des variables et des modalit es et donc aussi incompr ehensibles que V1 V2 0 3 % 0 35 % 1 6 % 1 65 % 2 30 % 3 21 % 4 39 %

Cest impardonnable. Un tableau r ecapitulatif des QL se doit d etre presque totalement auto-descriptif comme par exemple le tableau suivant qui pr esente les m emes r esultats que le tableau pr ec edent :
Tableau 1 : r ecapitulatif des tris a ` plat pour les 99 individus Variable SEXE ETUDES Mode Pourcent | 2` eme mod. Homme 65 % | Femme Sup. 39 % | Bepc Pourcent 35 % 30 % | 3` eme mod. Pourcent | | Bac. 21 %

...

Lanalyse des valeurs num eriques dune QT demande des calculs beaucoup plus techniques que pour une QL et aboutit a ` de nombreuses valeurs nomm ees param` etres. Commen cons par supposer que nos valeurs correspondent a ` lensemble de la population observ ee. Le premier param` etre a ` fournir concerne la taille des donn ees et sexprime simplement comme le nombre n de valeurs mises en jeu. Comme on le verra au chapitre suivant, ce nombre est important car certains calculs sont di erents suivant quon dispose dun petit ensemble de valeurs ou dun grand. Les param` etres de position (ou encore de tendance, de tendance centrale) sont principalement la moyenne [et la m ediane] alors que les param` etres principaux de dispersion sont l ecart-type (dispersion absolue) et le coecient de variation (dispersion relative) [et la distance interquartile]. La moyenne m de n valeurs xi est un r esum e tr` es imparfait : elle remplace ces valeurs par un seul nombre via la somme et le nombre de ces valeurs puisque la bonne d enition de la moyenne m est : n m = xi . 6

Chapitre 2.

Statistiques descriptives

La m ediane permet de s eparer lensemble tri e par ordre croissant des valeurs en deux sous-ensembles avec le m eme nombre (50 %) de valeurs. La variance V est le carr e de l ecart-type et quantie la dispersion ou variation moyenne autour de la moyenne d enie comme la moyenne des carr es des di erences entre les valeurs xi et leur moyenne m. Il est dusage de fournir au minimum le nombre de valeurs, la moyenne et l ecart-type lors de lanalyse dune QT sans oublier de rappeler lunit e de mesure [sommable]. Nous conseillons tr` es fortement dadjoindre le coecient de variation /m exprim e en % (voire la m ediane lorsque cest possible). Lachage de la variance peut parfois pr eter a ` confusion : elle ne sexprime pas avec la m eme unit e que la variable mais avec celle de son carr e. Il faut se rappeler quune moyenne seule ne d ecrit pas susamment les donn ees. Ainsi les quatre s eries A, B, C et D ci-dessous ont la m eme moyenne a ` savoir la valeur 10 alors quelles sont tr es di erentes en termes de dispersion :
A B C D 10 10 10 10 10 10 10 10 10 10 9 11 9 11 9 11 9 11 9 11 9 9 9 9 9 11 11 11 11 11 2 18 2 18 2 18 2 18 2 18

L ecart-type permet de quantier globalement la variation absolue autour de la moyenne. Ainsi (A) = 0, (B ) = (C ) = 1, (D ) = 8. La s erie A est donc constante, les donn ees de la s erie D varient plus que les donn ees de la s erie B qui, elle, varie autant que la s erie C. L ecart-type ne permet pas de comparer la dispersion de deux s eries dont les moyennes sont di erentes. De plus l ecart-type est li ea ` lunit e de msure et a ` lordre de grandeur des valeurs. On pourrait imaginer qu` a un grand ecart-type correspond une grande dispersion. Cest bien sur faux dans labsolu. Cest pourquoi le coecient de variation /m est un bon indicateur de dispersion relative : si E correspond a ` la s erie D multipli ee par 10 alors la moyenne et l ecart-type de E sont dix fois plus grands que la moyenne et l ecart-type de D. Par contre, les coecients de variation sont les m emes. Noublions pas non plus que ni la moyenne ni l ecart-type ne rendent compte de l evolution des valeurs lorsque celles-ci sont ordonn ees par exemple chronologiquement : m et sont invariantes par permutation et ne rendent donc pas compte de la progression (ou evolution) des valeurs de la s erie C. De m eme quil y avait un ordre intelligent pour lachage des r esultats des QL il y a un bon ordre pour les QT : cest celui qui pr esente les variables par ordre d ecroissant de coecient de variation. 7

Chapitre 2.

Statistiques descriptives

Ainsi les r esultats pour nos 4 s eries devraient etre pr esent es comme suit S erie D B C A Moyenne 10 g 10 g 10 g 10 g Ecart-type 8.00 1.00 1.00 0.00 Coecient de variation 80 % 10 % 10 % NaN

R esultats tri es par cdv pour les n = 10 valeurs de poids de lexemple Cet ordre est bien sur le seul l egal lorsque les variables sont exprim ees dans des unit es di erentes : on ne met pas la taille dindidivus adultes exprim ee en centim` etres avant leur poids en kilogrammes sous pr etexte que la moyenne des tailles est plus grande que la moyenne des poids ! Lordre chronologique dentr ee des variables lorsquil nest pas bien pens e nest pas sp ecialement int eressant : on ne commence pas par commenter la variable hauteur des pissenlits seulement parce que cest la premi` ere variable du chier. Il faut parfois compl eter cet achage par des extraits tri es des r esultats notamment lorsque plusieurs variables comparables mettent en jeu les m emes unit es. Ou respecter lordre impos e par un protocole ou par un ordre alphab etique lorsquon manipule de tr es nombreuses variables... Si les valeurs analys ees ne repr esentent pas toute la population mais seulement un echantillon de la population, alors on reprend les m emes indicateurs de taille et de moyenne mais le calcul de la variance est l eg` erement modi e: on utilise la variance estim ee qui correspond a ` la variance pr ec edente (dite exacte ou empirique) multipli ee par n/(n 1). Cela induit de grandes di erences pour n petit mais cela ne change pas grand chose pour les grandes valeurs de n comme le montre le tableau suivant o` u r vaut n/(n 1)
n r r 5 1.250000 1.118034 10 1.111111 1.054093 20 1.052632 1.025978 50 1.020408 1.010153 100 1.010101 1.005038 500 1.002004 1.001002

Il y a malheureusement toute une opp ee dautres param` etres statistiques disponibles et parfois indispensables pour etudier une s erie de valeurs QT, notamment lorsquon suppose que la distribution est normale. Par exemple nous voulons traiter les valeurs suivantes 1.440 1.115 1.620 1.272 1.121 1.039 exprim ees en g correspondant au poids absolu du coeur pour des rats t emoins ag es de 10 a ` 12 semaines ([cf. G. JOHNSON ]). 8

Chapitre 2.

Statistiques descriptives

Le minimum statistique a ` fournir pour analyser ces donn ees dans labsolu est sans doute (abstraction faite pour linstant du choix du nombre de d ecimales) n 6 m 1.2678333 g med 1.1965000 g 0.2240370 g /m 17.6708539 %

alors que pour un article on fournira seulement (et en anglais), a ` lint erieur dun tableau plus complet les valeurs ... ... N ame mean SEM Heart (g ) 1.3 0.1 ... ...

La plupart des logiciels statistiques fournissent syst` ematiquement de nombreux param` etres comme Statbox qui ache pour les m emes donn ees : Indicateur Nbr de valeurs utilis ees Nbr de valeurs ignor ees Nbr de val. min. % de val. min. Minimum 1er quartile M ediane 3` eme quartile Maximum Etendue Total Moyenne Moyenne g eom etrique Moyenne harmonique Aplatissement (Pearson) Asym etrie (Pearson) Aplatissement Asym etrie CV ( ecart-type/moyenne) Variance d echantillon Variance estim ee Ecart-type d echantillon Ecart-type estim e Ecart absolu moyen Ecart-type de la moyenne 9 V aleur 6 0 1 16,67 1,04 1,12 1,20 1,44 1,62 0,58 7,61 1,27 1,25 1,24 -1,68 0,45 -0,69 0,80 0,18 0,04 0,05 0,20 0,22 0,18 0,09

Chapitre 2.

Statistiques descriptives

Le grand logiciel SAS nest pas en reste non plus pour si peu de donn ees :

The SAS System The UNIVARIATE Procedure Moments N Mean Std Deviation Skewness Uncorrected SS Coeff Variation 6 1.26783333 0.22403698 0.80198676 9.895371 17.6708539 Sum Weights Sum Observations Variance Kurtosis Corrected SS Std Error Mean 6 7.607 0.05019257 -0.689441 0.25096283 0.09146271

Basic Statistical Measures Location Mean Median Mode 1.267833 1.196500 . Variability Std Deviation Variance Range Interquartile Range 0.22404 0.05019 0.58100 0.32500

Tests for Location: Mu0=0 Test Students t Sign Signed Rank -Statistict M S 13.86175 3 10.5 -----p Value-----Pr > |t| Pr >= |M| Pr >= |S| <.0001 0.0313 0.0313

A la vue de ces divers calculs, il est facile de comprendre que souvent lusage fait loi pour les articles de recherche : on met en g en eral les m emes param` etres que ceux fournis dans les autres articles du domaine, m eme si parfois les habitudes sont a ` la limite du discutable statistique... Nous conseillons cependant de mettre en annexe ce genre de r esultats d etaill es pour les experts... 10

Chapitre 2.

Statistiques descriptives

2.3

Analyse conjointe (bivari ee)

Traiter deux QL ensemble se dit eectuer un tri crois e des variables. Le r esultat est un tableau croisant toutes les modalit es dune variable avec toutes les modalit es de lautre variable. La valeur obtenue pour chaque case peut etre absolue ou relative. Si elle est relative, ce peut etre de trois fa cons : exprim ee comme pourcentage du total g en eral, du total par ligne, du total par colonne. Le choix de lun de ces trois types de division est en g en eral arbitraire, a ` moins que lune des variables soit consid er ee a priori comme d eterminante. Cest pourquoi certains logiciels comme SAS les fournissent syst ematiquement :
Table of UI (rows) by HT (columns) for Low Birth Rate Study http://www-unix.oit.umass.edu/~statdata/statdata/data/lowbwt.txt UI (Presence of Uterine Irritability) HT (History of Hypertension)

Frequency Percent Row Pct Col Pct

| No | Yes | Total ---------+---------+---------+ No | 149 | 12 | 161 | 78.84 | 6.35 | 85.19 | 92.55 | 7.45 | | 84.18 | 100.00 | ---------+---------+---------+ Yes | 28 | 0 | 28 | 14.81 | 0.00 | 14.81 | 100.00 | 0.00 | | 15.82 | 0.00 | ---------+---------+---------+ Total | 177 | 12 | 189 | 93.65 | 6.35 | 100.00

Lorsquon dispose de beaucoup de QL on renonce en g en eral a ` faire tous les tris crois es : n variables QL repr esentent n(n 1)/2 tableaux de croisements ce qui devient vite fastidieux. Ainsi pour 10 variables QL et ce, quelque soit le nombre de lignes trait ees, il y a en tout 45 tableaux de tris crois es. On con coit que pour une page de donn ees (disons 50 ou 60 lignes), pr esenter 45 tableaux de tris crois es nest pas un r esum e des plus concis ! 11

Chapitre 2.

Statistiques descriptives

La situation est toute autre pour les QT car a ` chaque couple de QT on associe non pas un tableau mais un seul nombre, not e et nomm e coecient de corr elation lin eaire. Ce nombre qui par construction varie entre -1 et 1 r e` ete la tendance des donn ees a ` se pr esenter sous forme dune droite : plus || est proche de 1, plus les donn ees sont lin eaires. Le signe de indique alors la croissance r eciproque ( positif) ou la d ecroissance ( n egatif). Il est tr` es facile de repr esenter lensemble des coecients de corr elation lin eaire sous forme dune matrice triangulaire inf erieure pour avoir une id ee de lensemble des liaisons lin eaires possibles mais il faut passer en revue les valeurs d ecroissantes de || pour savoir quelles relations lin eaires il faut retenir. On ne s etonnera donc pas de voir par exemple des sorties num eriques o` u seules les relation lin eaires les plus fortes sont accompagn ees des equations correspondantes comme par exemple pour cette etude dimportation de 18 cat egories de vins cibl ee sur 8 pays :
Matrice des coefficients de corr elation lin eaire pour les 8 pays (ou "Matrice des Corr elations") pour les importations BELG 1,00 0,87 0,87 0,59 0,94 0,34 0,87 0,81 NEDE 1,00 0,58 0,29 0,70 0,52 0,68 0,46 RFA ITAL UK SUIS USA CANA

BELG NEDE RFA ITAL UK SUIS USA CANA

1,00 0,70 0,97 0,20 0,85 0,95

1,00 0,69 0,31 0,72 0,66

1,00 0,25 0,89 0,93

1,00 0,47 -0,02

1,00 0,75

1,00

Liste tri ee des corr elations | | RFA UK 0,9693 | RFA CANA 0,9476 | BELG UK 0,9416 | UK CANA 0,9256 | UK USA 0,8935 | BELG NEDE 0,8702 | BELG USA 0,8699 | BELG RFA 0,8692 | RFA USA 0,8477 | BELG CANA 0,8143 | USA CANA 0,7469 | ITAL USA 0,7172 | RFA ITAL 0,6998 | ... | RFA SUIS 0,1984 | SUIS CANA -0,0246 |

Equations des meilleurs corr elations 0,9693 0.9693 0,9476 : RFA UK = 1,831 * UK - 5921,349 = 0,513 * RFA + 3903,587

: RFA = 4,857 * CANA + 6596,411 CANA = 0,185 * RFA - 932,386 : BELG = 0,398 * UK + 1772,722 UK = 2,225 * BELG - 2322,591 : UK = 2,511 * CANA + 7233,245 CANA = 0,341 * UK - 2064,845

0,9416

0,9256

12

Chapitre 2.

Statistiques descriptives

Le coecient ou plus exactement (X, Y ) si lon veut faire explictement r ef erence aux noms X et Y des deux variables QT mises en jeu r esulte dun calcul math ematique assez simple bas e sur des sommes, des produits et des divisions : on divise la covariance par le produit des ecart-types (la covariance etant lanalogue de la variance mais pour deux variables, soit la di erence entre la moyenne du produit des variables et le produit des moyennes). La relation math ematique binaire entre X et Y induite par |(X, Y )| = 1 est transitive et sym etrique ce qui peut avoir de lourdes cons equences : - deux variables corr el ees lin eairement a ` une m eme troisi` eme variable sont corr el ees lin eairement, ce qui est tr` es d elicat a ` d etecter et a ` commenter lorsque la troisi` eme variable nest pas pr esente dans le dossier d etude, - si deux variables sont corr el ees lin eairement, rien nindique sil y a un sens de liaison de lune a ` lautre. Si lon ajoute ladage c el` ebre corr elation [lin eaire] nest pas causalit e et si lon sait que liaison ne signie pas syst ematiquement corr elation [lin eaire] on aura compris que la corr elation lin eaire est simple pour les formules mais pas forc ement pour la pratique statistique et quelle ne couvre pas, loin sen faut, tous les cas de liaison. Ainsi trouver une liaison lin eaire entre le prix dun carnet de ticket de m etro et celui dun paquet de couches-culottes ou celui dune voiture est banal car la plupart des prix sont li es a ` une variable cach ee nomm ee ination. De m eme on ira chercher une causalit e entre le nombre hebdomadaire de chomeurs saisonniers en Anjou au mois de juillet et le nombre de mm de pluie tomb ee dans le bon sens si on connait un peu les cultures lig eriennes de mais et de tabac mais on ne dira surtout pas plus il y a de chomeurs, plus il pleut !

13

Chapitre 2.

Statistiques descriptives

2.4

Analyse multidimensionnelle (multivari ee)

Il est bien sur possible de faire des calculs a ` plus de deux variables, comme les tris dits multicrit` eres pour les QL et les r egressions partielles pour les QT mais rien nemp eche de panacher, par exemple de refaire les analyses univari ees et bivari ees des QT pour chaque modalit e de toutes les QL mais alors pour une page de chires en entr ee, on obtiendra une cinquantaine ou plus de pages de r esum e! Cest pourquoi des m ethodes vectorielles multidimensionnellles ont vu le jour. On les nommes classications (CAH, centres mobiles, nu ees dynamiques...), analyses factorielles (AFC, ACP, AFCM...). Leurs principes sont simples et la mise en oeuvre logicielle souvent facile mais la compr ehension des m ethodes, la v erication des conditons dapplication et linterpr etation des r esultats tant num eriques que graphiques demande un certain apprentissage. Notamment pour les m ethodes qui mettent en jeu des inerties car cette notion ne se lit pas directement sur un graphique : seule la composante distance, soit d dans la formule I = md 2 est repr esent ee sur un graphique. Au passage, on notera la similarit e des formules entre inertie I = md 2 et variance V = pX 2 , ce qui permet de comprendre lanalogie sous-jacente a ` de nombreuses m ethodes multivari ees entre m ecanique et statistique. Lorsque le nombre de variables commence a ` etre elev e (disons plus de quatre), il est n ecessaire de recourir a ` ces m ethodes pour avoir une bonne description des relations g en erales entre variables, ce qui nest pas forc ement le but des exp erimentations cliniques souvent plus orient ees vers la comparaisons des variables.

14

Chapitre 3. Statistiques inf erentielles et tests


3.1 Estimation et intervalles de conance

Lorsque les valeurs etudi ees ne correspondent pas a ` la population enti` ere mais seulement a ` un echantillon, il est judicieux de se demander quels r esultats induire sur la population a ` partir des r esultats sur l echantillon. La th eorie de lestimation permet de r epondre : il faut prendre mpop = mech et Vpop = Vech n/n 1 Pour savoir quel degr e de conance on peut accorder a ` ces r esultats, la th eorie statistique permet dobtenir des encadrements probabilistes des r esultats. Ainsi a ` laide du calcul de la moyenne m et de l ecart-type pour n valeurs on sait fournir un intervalle centr e autour de la moyenne [m ; m + ] nomm e intervalle de conance de la moyenne pour un risque derreur qui vaut g en eralement 5 % [ soit encore pour un niveau de conance 1- ]. Cela signie que sur la base de l echantillon etudi e, la probabilit e que lintervalle contienne la vraie moyenne de la population est 1-, quon exprime g en eralement en pourcent. Il faut retenir que les formules ne sont pas les m emes - selon que l echantillonnage seectue sans remise ou avec remise, - selon que n est petit ou grand. 15

Chapitre 3.

Statistiques inf erentielles et tests

Ainsi pour n 30 la demi-longueur est calcul ee a ` laide de la loi de Student au seuil /2 alors que pour n > 30 on la calcule a ` laide de la loi normale centr ee r eduite (toujours au seuil /2 ). Par exemple avec une moyenne m = 158.86 mm et un ecart-type = 6.09 pour la longueur de la rectrice centrale des g elinotes hupp ees ([Scherrer, p.335]), on pourra fournir les intervalles (L =lower, U = upper)

1 5 10

7.22462 4.96515 4.00387

Lm 151.635 153.895 154.856

Um 166.085 163.825 162.864

1 5 10

2.21845 1.68803 1.41664

Lm 156.642 157.172 157.443

Um 161.078 160.548 160.277

pour n = 9

pour n = 50

Il existe aussi des formules pour lintervalle de conance de la m ediane (rarement utilis ees), pour lintervalle de conance de la variance et pour lintervalle de conance de l ecart-type. Pour ces deux derniers intervalles, cest la loi 2 du qui intervient (on sen douterait si on savait quune loi de 2 ce nest jamais quune somme de carr es de lois normales !). Il est egalement possible de d eterminer lintervalle de conance dune proportion lorsquon sait si l echantillonnage seectue avec remise ou sans remise a ` condition de disposer de grands echantillons. Pour les petits echantillons, comme il nexiste pas de calcul pour la fonction de r epartition inverse de la loi binomiale, les calculs sont moins automatisables (sauf a ` savoir programmer). Ainsi pour les Ntot = 1000 cerfs de Virginie morts en 1975 ([McConell et coll.]) avec un echantillon de n = 146 cerfs morts dont i = 41 males (soit une proportion de p = 28.08 %), au risque de = 5 % on peut armer que lintervalle de conance pour le pourcentage de males morts est [ 20.98 % ; 35.18 % ]. Lorsquon retourne la relation entre , n et ou entre , n et p il est possible de d eterminer leectif n de l echantillon pour une pr ecision donn ee de la moyenne ou du pourcentage. Par exemple si nous reprenons les g elinottes pour avoir une pr ecision relative de % sur la longueur moyenne de la rectrice, il faut les eectifs suivants : 1 5 10 % % % % n (pr ecis) 97.7495 56.5948 39.8598 16 n (arrondi) 98 57 40

Chapitre 3.

Statistiques inf erentielles et tests

Un test dhypoth` ese est une proc edure statistique permettant daboutir, en fonction de certaines r` egles de d ecision, au rejet [ ou a ` lacceptation ] dune hypoth` ese statistique de d epart nomm ee hypoth` ese nulle et not ee classiquement H0 au d epend [ou au prot] de lautre hypoth` ese (hypoth` ese alternative). Un test param etrique suppose quon connait ou quon sait mod eliser les param` etres (m, V , , p...) des distributions li ees aux populations sous-jacentes alors que pour un test non param etrique il nest pas n ecessaire de les sp ecier. On utilise les tests non param etriques lorsque les echantillons sont tr es petits (n 7) ou lorsque les pr erequis des tests (variances bien estim ees, distributions normales, variances egales...) ne sont pas satisfaits. Il faut certainement 2 consid erer le test du dind ependance et le test du 2 dad equation comme des tests non param etriques (bien quils sadressent a ` des variables QL). Il est important de pr eciser si le test est unilat eral comme 1 > 2 ou bilat eral comme 1 = 2 car dans le premier cas les tables sont lues au seuil alors que dans le deuxi` eme elles le sont au seuil /2. Les tests permettent de comparer un echantillon (on emploie aussi le terme de s erie) a ` une distribution th eorique, deux echantillons ind ependants ou appari es (deux s eries de valeurs pour les m emes individus). Il y a sans doute en tout une centaine de tests, certains connus uniquement par une ultraminorit e de surexperts ( !). Voici un tout petit tableau de quelques tests c el ebres : Type Nom param etriques test t (Student) / test z (loi N ) analyse de la variance test F de Fisher test de Bartlett non-param etriques Kolgomorov-Smirnov Wilcoxon-Mann-Whitney test des signes Kruskal-Wallis pour deux moyennes petits / grands ech. plus de deux moyennes deux variances plus de deux variances fonctions de r epartition ( normalit e) egalit e des rangs pour deux populations egalit e de deux moyennes appari ees l egalit e de plus de deux populations

En g en eral un test statistique est accompagn e dune p-value ou probabilit e associ ee. Plus cette p-value est faible et plus le test est signicatif car on linterpr ete comme la probabilit e dobtenir au hasard un r esultat aussi extr eme. En pratique, on rejete lhypoth` ese nulle lorsque cette p-value est inf erieure au risque de premi` ere esp` ece . 17

Chapitre 3.

Statistiques inf erentielles et tests

Un test statistique et lhypoth` ese statistique qui en d ecoule est la traduction de lhypoth` ese biologique. Il faut bien s eparer les deux. Vouloir regarder si le produit A induit une d eg en erescence de... signie que lhypoth` ese statistique nulle sera un test unilat eral (mavec < msans ). Penser que telle sous-population r eagit di eremment dune autre signie que lhypoth` ese statistique d ebouche sur un test bilat eral (la moyenne est signicativement di erente de 0). Les logiciels fournissent en g en eral deux r esultats distincts pour les tests : un ecart (ou distance) que lon compare a ` un seuil th eorique en fonction du risque choisi et la p-value (ou probabilit e critique ) li ee au d epassement de cette valeur. Au vu de ces deux indicateurs la d ecision est la m eme mais la p-value donne une meilleure id ee de la comparaison. Prenons une analogie avec le sport en g eriartie. Courir le 100 m` etres a ` 70 ans en 25 secondes, cest bien si la moyenne th eorique est de 30 secondes. Par contre savoir que seul 3 % des personnes sont capables de faire mieux que 25 secondes quantie autrement ce r esultat. Il est parfois dicile de sy retrouver dans les tests statistiques - parce quil y a beaucoup de tests en tout, certains pour un m eme type de comparaison, - parce quil faut faire des choix sur les hypoth` eses avant dutiliser les tests, - parce que les conditions dapplication sont vari ees et pas toujours simples a ` v erier, - parce que les r esultats sont probabilistes (on refuse au seuil de ...%) et non pas binaires (on refuse). Pour un travail de recherche, il est en g en eral bon de se er a ` la communaut e et dutiliser un test connu, qui sera interpr etable rapidement par les experts du domaine. Lorsquon apprend un nouveau test, un truc simple pour se familiariser avec le test est de lappliquer - a ` des donn ees quasiment identiques comme 155 165 160 150 150 vs. 154 165 160 150 150 pour connaitre les bons cas, - a ` des donn ees tr` es di erentes comme 155 165 160 150 150 vs. 54 65 900 800 50 pour connaitre les cas extr emes. 18

Chapitre 3.

Statistiques inf erentielles et tests

3.2

Tests param etriques

Un test de conformit e compare les param etres observ es de l echantillon aux param` etres connus de la population (de r ef erence) comme par exemple la comparaison de la moyenne observ ee a ` la moyenne th eorique, la comparaion dune fr equence observ ee a ` une fr equence th eorique alors quun test dhomog en eit e viendra comparer les moyennes, fr equences... de deux echantillons. Pour la comparaison en conformit e de moyennes, on calcule en g en eral un ecart r eduit qui correspond a ` la division de la di erence des moyennes par un terme de variation. Le cas o` u la variance de la population de r ef erence est connue se traite di eremment du cas o` u elle est inconnue. Dans ce dernier cas, suivant que leectif est petit (n < 30) ou grand, on utilise une loi normale (test Z) ou une loi de Student a ` n 1 ddl (test t). Cest a ` peu pr` es la m eme chose pour un test dhomog en eit e de moyennes. On distingue cependant les echantillons ind ependants des echantillons appari es pour lesquels les donn ees sont li ees, comme les valeurs avant et apr` es pour un m eme individu, ou la partie droite et gauche dun m eme organe. Dans le premier cas, suivant que les variances sont suppos ees egales (donc connues) ou non, le d enominateur de l ecart r eduit est pooled ou estim e. On trouvera sur les pages qui suivent des exemples de tests avec l enonc e pr ecis et la r edaction de la solution, sans le d etail des calculs. Les formules utilis ees sont en n de manuel.

Exemples de tests de conformit e


Comparaison ` a une moyenne th eorique (variance connue) On rel` eve chez 9 patients une glyc emie moyenne m de 1,12 g/l. Ces patients font partie dune population pour laquelle la glyc emie moyenne suit une loi normale de moyenne m0 = 1,0 g/l et d ecart-type 0,1 g/l. L echantillon est-il repr esentatif de la population ? R eponse : lhypoth` ese nulle est ici bilat erale : m = m0 . Nous sommes en variance connue, l ecart-r eduit vaut = 3.6 ; au risque = 5 %, le seuil est 1.96 donc on rejette lhypoth` ese H0 a ` 5 %. La p-value associ ee a ` 3.6 est 0,0003 ce qui signie que dans 3 cas sur 10 000 la di erence est 3.6 ou plus, ce qui est tr` es rare. On rejete donc H0 en meilleure connaissance de cause. 19

Chapitre 3.

Statistiques inf erentielles et tests

Comparaison ` a une moyenne th eorique (variance inconnue) Pour etudier un lot de fabrication de comprim es, on pr el` eve au hasard 10 comprim es parmi les 30 000 comprim es fabriqu es dans la journ ee et on les p` ese. On obtient ainsi les valeurs de poids en grammes fournis par ce tableau :

0,81

0,84

0,83 0,80 0,85 0,86 0,85 0,83 0,84 0,80

Le poids moyen observ e est-il conforme a ` la moyenne de production standard pour le poids qui est 0,83 g ? R eponse : l` a encore lhypoth` ese nulle est ici bilat erale : m = m0 . Nous sommes par contre en variance inconnue mais avec une loi normale pour le poids (seule supposition minimaliste raisonnable). La moyenne de l echantillon est 0.831 g. L ecart-r eduit li ea ` une estimation de la variance aboutit a ` la valeur tobs = 0.14834. Pour un risque de 5 % avec 9 ddl, le seuil tseuil vaut 2.26216 donc on accepte lhypoth` ese H0 a ` 5 %. La p-value associ ee a ` 0.14834 est tr es fortement sup erieure a ` 0,05 donc l` a encore on accepte H0 en meilleure connaissance de cause. Biologiquement, on dira que l echantillon est conforme a ` la production standard.

Comparaison ` a une fr equence th eorique Une anomalie g en etique touche en France 1 individu sur 1000. On a constat e pour une r egion donn ee 57 personnes atteintes sur 50 000 naissances. Cette r egion est-elle repr esentative de la France enti` ere ? R eponse : lhypoth` ese statistique nulle est ici lhypoth` ese bilat erale : f = f0 . f vaut 57/50000 et f0 1/10000. Si la loi de lanomalie g en etique est une loi binomale (ce qui est la seule supposition minimaliste raisonnable) de param` etres n = 50000 et p = 1/1000 alors l ecart r eduit vaut 0.99044 et au risque de 5 % le seuil est 1.95996 donc on accepte H0 . La p-value associ ee a ` 0.99044 est 0.32 qui est largement sup erieure a ` 0.05 donc l` a encore on accepte H0 en meilleure connaissance de cause. 20

Chapitre 3.

Statistiques inf erentielles et tests

Exemples de tests dhomog en eit e


Comparaison de moyennes ( echantillons ind ependants) L etude du cornicule gauche de Myzus persicae pour deux echantillons A et B dans des conditions d elevage di erentes fournit les valeurs suivantes en unit es microm etriques : Ech. A 313 257 322 332 302 ... 290 Ech. B 346 279 228 306 246 ... 250 334 (30 valeurs) (29 valeurs)

Les conditions d elevage ont-elles une inuence sur la longueur du cornicule ? R eponse : l ecart r eduit est de 1.03 donc au risque de 5 % soit le seuil 1.96 on accepte lhypoth` ese que les conditions d elevage nont pas dinuence sur la longueur du cornicule. Comparaison de moyennes ( echantillons appari es) Lors dune etude sur un lot de 20 moules communes (Mytilus galloprovincialis ) on mesure les valves gauches et droites : V. gauche V. droite 89.0 88.0 109.0 105.6 101.9 ... 102.7 ... 121.6 124.6 (20 valeurs) (20 valeurs)

Les valves sont-elles sym etriques ? R eponse : on a aaire ici a ` des echantillons appari es puis la valve gauche num ero i et la valve droite num ero i appartiennent a ` la m eme moule. A laide de la variable di erence des longueurs on eectue un test t qui aboutit a ` une valeur 1,16 ; comme le seuil au risque de 5 % est de 2,1 on peut conclure quil ny a pas de di erences signicatives entre les parties droite et gauche des valves. Comparaison de variances (petits echantillons) Pour etudier laction de la digitonine sur des embryons de Rana platyrrhina on pr epare deux s eries d echantillons : une s erie t emoin et une s erie trait ee. 21

Chapitre 3.

Statistiques inf erentielles et tests

Les volumes en mm3 des embryons sont comme suit : Temoin Traitement 3.36 3.52 4.10 4.02 4.40 4.30 4.36 3.94 3.36 3.82 4.46 4.52 5.08 5.20 5.50 5.06

Peut-on dire que la digitonine agit sur le volume ? R eponse : le rapport de variance vaut 3,65 ; le seuil F au risque 5 % est 3,8. On accepte donc lhypoth` ese quil ny a pas de di erence. Comparaison de fr equences Un etudiant de Maitrise (soit aujourdhui le niveau Master 1 dans le cadre de la r eforme LMD) etudie un lot de cocons de Bombyx mori sous rayonnement X (2000 roentgen). Il a consign e sur deux p eriodes l eclosion des papillons normaux et mutants : Mutants 30 12 Normaux 220 150

Janvier Juillet

(p1 = 0.136) (p7 = 0.080)

Toutefois, comme il trouve que cela ne fait pas beaucoup, il d ecide de multiplier tous les r esultats par 10. Obtient-on la m eme conclusion ? R eponse : Bien s ur que non ! Une lecture soign ee des formules permet de voir que si les donn ees sont multipli ees par 10, les fr equences ne sont pas modi ees ees originales, cet mais que l ecart-r eduit est multipli e par 10. Avec les donn ecart vaut 1,68 donc inf erieur au seuil 1.96 et la d ecision est les fr equences de mutants sont egales alors quavec les donn ees multipli ees par 10 l ecart vaut 5,31 et donc la d ecision est les fr equences de mutants sont di erentes.

3.3

Tests non param etriques

Le premier test non param etrique a ` connaitre est le test de KolmogorovSmirnov. Il permet de comparer deux distributions de fr equences relatives cumul ees. On peut sen servir pour comparer deux echantillons par exemples pour des QT d ecoup ees en classes, mais on peut aussi lutiliser comme test de normalit e si on compare la distribution de la QT avec la fonction de r epartition de la loi normale. 22

Chapitre 3.

Statistiques inf erentielles et tests

Pour des petits echantillons deectif total n1 et n2 inf erieurs a ` 25, le test consiste a ` comparer n1 n2 Dobs et une valeur seuil nomm ee n1 n2 D lue dans une table o` u Dobs est la plus grande di erence entre eectifs relatifs cumul es. Pour les grands echantillons (n1 ou n2 sup erieur a ` 25), on compare directement Dobs au seuil K (n1 + n2 )/n1 n2 o` u le facteur de correction K se calcule par (log (/2)/2. Soient a ` traiter les donn ees suivantes concernant la supercie du domaine vital des ours noirs (Ursus americanus ) m ales et femelles, supercies en km2 Males Femelles 94 37 504 72 173 60 560 49 274 18 168 50

102

49

20

Apr` es avoir d eni des classes de surfaces (comme [18,20], ]20,37]...]504,560]) on ordonne les donn ees et on compte le nombre dobservations par classe pour chaque sexe et on cumule les eectifs relatifs obtenus pour chaque sexe. On cherche ensuite la plus grande di erence obtenue entre eectifs relatifs cumul es. On trouve ici Dobs = 0.888 ; comme il sagit de petits echantillons on multiplie par 69 ce qui nous donne 47.952. Au risque =5 % la table fournit le seuil 39 et on refuse donc lhypoth` ese que le domaine vital des males ne di ere pas de celui des femelles. Un deuxi` emes test non param etrique a ` connaitre [ou plutot a ` savoir utiliser via un logiciel statistique]) est celui de Wilcoxon, Mann et Whitney. Il se base sur lanalyse des rangs globaux des observations (rangs eventuellement fractionnaires) pond er es par un score qui est fonction du nombre dobservations di erentes et egales. Le cumul des scores aboutit a ` une valeur nomm ee U que lon compare a ` une valeur seuil dans une table. Ce qui complique un peu lutilisation de ce test cest le fait quil faut s eparer - les tr` es petits echantillons pour n1 et n2 inf erieurs a ` 8, - les petits echantillons pour n1 et n2 inf erieurs a ` 20, - les grands echantillons pour n1 ou n2 sup erieur a ` 20, Ainsi pour nos ours, on se pose la question de savoir si le domaine vital des ours noirs est plus etendu que celui des femelles. On formule donc lhypoth` ese H0 : p(xM > yF ) = 1/2 que la probabilit e quun domaine vital pris au hasard pour un mal soit sup erieur a ` celui dune femelle est egale a ` 0,5.

23

Chapitre 3.

Statistiques inf erentielles et tests

On ordonne nos donn ees et on calcule les scores, soit le tableau : V aleur 18 20 37 49 50 60 72 94 102 168 173 274 504 560 Sexe F F F F F F F M F M M M M M Score 0 0 0 0 0 0 0 8 1 9 9 9 9 9

Tous calculs faits, le test fournit les valeurs UF =1, UM =53. On prend donc U=1 et comme la valeur de la table est 12 au risque de 5 % (car le test est unilat eral), on rejette donc lhypoth` ese do` u : le domaine vital des ours noirs est plus etendu que celui des femelles. Le grand test non param etrique pour les echantillons appari es est le test des signes. Au lieu, comme en param etrique de reposer sur lhypoth` ese que la di erence entre donn ees appari ees suit une loi normale, ce test suppose que les di erences entre donn ees appari ees ont autant de chances d etre positives que n egatives et lhypoth` ese nulle est donc H0 : p(d > 0) = p(d < 0) = 1/2 et on se ram` ene donc a ` une loi binomiale de param` etres n et p = 1/2. Atttention : ici le nombre n ne d esigne pas leectif commun mais le nombre de couples pour lesquels la di erence est non nulle. Pour les grands echantillons (n 30) on utilise lapproximation normale de la loi binomiale alors que pour les petits echantillons il faut faire des calculs de bouts de chandelle (voir [Scherrer] page 525). Il existe aussi : - un test non param etrique de comparaison de m edianes, qui aboutit a ` 2 un calcul dont le seuil maximal autoris e est une valeur de , - un test non param etrique de Wilcoxon pour echantillons appari es, conseill e lorsque les conditions dapplication du test param etrique de comparaison de moyennes ne sont pas respect ees. 24

Chapitre 3.

Statistiques inf erentielles et tests

Un autre test qui nest pas traditionnellement consid er e comme un test non param etrique est le test du 2 . Il se d ecline en deux versions : - le 2 dad equation (ou 2 dajustement) qui permet de comparer une distribution de fr equences observ ees a ` une distribution de fr equences th eoriques, - le 2 dind ependance qui compare les distributions relatives a ` deux caract` eres (quantitatifs group es en classe ou qualitatifs) pr esentant plusieurs modalit es et d enis sur une m eme population qui sont compar ees ; les donn ees utilis ees correspondent au tableau des eectifs observ es pour les deux caract` eres compar es qui est donc le tableau du tri-crois e ou table de contingence. Il y a des conditions dapplications a ` respecter pour appliquer un 2 sous peine dobtenir des r esultats non coh erents ou innis : leectif total doit etre au moins de 50, il faut que chaque eectif de distribution ou de croisement soit sup erieur a ` 5... Prenons un exemple classique de 2 dad equation, celui li e au nombre de lles dans une famille de 5 enfants, qui se transpose facilement a ` toute observation binaire (absence/pr esence, oui/non, plus/moins...) pour une s erie de 5 sujets. Pour 200 familles de 5 enfants interrog ees, on dresse le tableau suivant du nombre ni de familles avec xi lles : xi ni 0 1 2 3 4 20 30 70 60 15 5 5

Dans une famille, chaque enfant a la probabilit e p = 0.5 d etre une lle. La loi de l ev` enement on compte 1 si lenfant est une lle est donc mod elis ee par la loi de bernouilli b(0.5). La loi du comptage du nombre de lles dans un famille de 5 enfants suit alors une loi binomiale B (5, 0.5) ce qui permet de calculer le nombre th eorique ti de familles avec xi lles : xi ti 0 1 2 3 4 7 31 62 62 31 5 7

La valeur du 2 observ e qui est une somme pond er ee de carr es des di erences entre les ti et les ni a pour valeur 34.1 ; la valeur maximale autoris ee lue dans la table a ` 5 % est 9.5 pour 4 ddl donc au risque de 5 % on refuse lhypoth` ese que la distribution du nombre de lles dans les 200 familles correspond a ` une distribution binomiale. 25

Chapitre 3.

Statistiques inf erentielles et tests

Passons maintenant au 2 dind ependance. Voici un tableau de contingence pour un naufrage c el` ebre, celui du T itanic. Ce tableau fournit en eectifs absolus le r esultat du tri crois e entre la variable classe de cabine des personnes pr esentes (passagers et membres d equipage) et variable de survie. equipage D ec ed es Survivants 673 212 1` ere classe 122 203 seconde classe 167 118 troisi` eme classe 528 178

La question pos ee ici est la d ependance eventuelle entre ces deux variables . Lhypoth` ese dind ependance consiste a ` dire que les eectifs absolus ne doivent d ependre que des totaux du tableau, soient les sommes

equipage D ec ed es Survivants 885

1` ere classe

seconde classe

troisi` eme classe 1490 711 2201

325

285

706

Un calcul simple permet de prendre comme eectif absolu le produit de la somme en ligne par la somme en colonne pond er e par le total g en eral soient les eectifs th eoriques (arrondis) equipage D ec ed es Survivants 599 286 1` ere classe 220 105 seconde classe 193 92 troisi` eme classe 478 228

La valeur du 2 dind ependance qui l` a aussi est une somme pond er ee de carr es des di erences entre les eectifs th eoriques et r eels a pour valeur 190.4 ; la valeur maximale autoris ee lue dans la table a ` 5 % est 7.8 pour (4-1)*(2-1) ddl donc au risque de 5 % on refuse lhypoth` ese quil y a ind ependance. Lanalyse des contributions sign ees met principalement en evidence la d ependance entre la modalit e 1` ere classe et la modalit e Survivants sous la forme dune surabondance (contribution de + 91.5 soit 48 % du 2 ) ainsi quune sousabondance entre 1` ere classe et D ec ed es (contribution de -43.7 soit 2 23 % du ).
on remarquera que pour deux QT on cherche une liaison [lin eaire] alors que pour deux QL on recherche une ind ependance.

26

Chapitre 4. Graphiques, protocoles, r edaction et logiciels


4.1 Courbes et graphiques

On se pose souvent la question de savoir sil faut mettre des graphiques et lequels. Plus nement, la question est de savoir sil faut mettre des graphiques a ` la place des r esultats chir es. La r eponse nest pas la m eme suivant que lon veuille etre exhaustif ou seulement d emonstratif. Dans le cadre dune enqu ete statistique ou dune etude clinique, tous les r esultats chir es devront etre muris et accompagn e des graphiques pertinents. Cela signie quil faudra penser a ` lordre dachage des r esultats, au nombre de chires apr` es la virgule, a ` la lisibilit e (si, si) des tableaux de chires, au sch ema de lecture (tous les tableaux puis tous les graphiques ou tableaux et graphiques en alternance), - aux couleurs des graphiques si le document est destin e a ` circuler (et donc a ` etre photocopi e sans couleur).

Pour un article o` u le nombre de pages est souvent limit e, il faut choisir soigneusement quels graphiques vont illustrer les tableaux chir es car il est hors de question de fournir des graphiques sans les valeurs num eriques associ ees ; par contre on peut penser a ` pr eparer des graphiques compl ementaires si on doit exposer les r esultats de larticle. 27

Chapitre 4.

Graphiques, protocoles, r edaction et logiciels

Penser que les graphiques sont inutiles, ou la cerise sur le gateau est une grave erreur. Dans son article c el` ebre de 1973, F. J. Anscombe a propos e le jeu de donn ees suivant
ID a b c d e f g h i j k X 4 5 6 7 8 9 10 11 12 13 14 Y1 4.26 5.68 7.24 4.82 6.95 8.81 8.04 8.33 10.84 7.58 9.96 Y2 3.10 4.74 6.13 7.26 8.14 8.77 9.14 9.26 9.13 8.74 8.10 Y3 5.39 5.73 6.08 6.42 6.77 7.11 7.46 7.81 8.15 12.74 8.84 X4 19 8 8 8 8 8 8 8 8 8 8 Y4 12.50 6.89 5.25 7.91 5.76 8.84 6.58 8.47 5.56 7.71 7.04

Si on etudie (rapidement) les s eries Y on arrive a ` la conclusion quelles se ressemblent tr es fortement puisquelles ont toutes 7.5 comme moyenne et 1.94 comme ecart-type. H elas, le trac e des s eries Y en fonction des s eries X prouve le contraire :

Anscombes 4 Regression data sets


12 12 y2 5 10 x1 15 4 6 8 10

y1

10

10 x2

15

12

10

y3

y4 5 10 x3 15

10

12

10 x4

15

28

Chapitre 4.

Graphiques, protocoles, r edaction et logiciels

Les graphiques usuels li es aux QL sont les histogrammes (de fr equences, pas de valeurs !) quon utilisera plutot sous forme de batons verticaux dans des cadres de m eme echelle ce qui permet une comparaison des graphiques. Par exemple il serait tr` es mauvais de fournir les histogrammes suivants

car une lecture attentive des echelles montre que les eectifs des modalit es de droite ne sont pas aussi importants que semblent indiquer les histogrammes. Cest agrant si on utilise les bons histogrammes avec des axes normalis es :

29

Chapitre 4.

Graphiques, protocoles, r edaction et logiciels

Lint er et des histogrammes en batons (contrairement aux diagrammes circulaires) est de pouvoir etre cumul es, empil es et ventil es. Il faut a ` nouveau se poser la question du sens du cumul, de la redondance des histogrammes de tris crois es par rapport a ` ceux des tris a ` plat. Ainsi un mauvais histogramme de tri crois e du niveau d etudes versus la variable sexe est

Tri crois SEXE par ETUDES

10

15

20

NR

prim

bepc

bac

sup

car il ne fait que r ep eter linformation vue au niveau du tri a ` plat du sexe a ` savoir il y a deux fois plus de femmes (en jaune et a ` droite) que dhommes (en rouge et a ` gauche). Cest pourquoi ici le bon histogramme est

Tri crois ETUDES par SEXE

10

15

20

Homme

Femme

car il montre a ` gauche une progression croissante des eectifs pour les hommes alors qu` a droite il y a un trou dans les eectifs des femmes, ce qui indique quil ny a pas la m eme distribution du niveau d etudes pour les hommes et les femmes. 30

Chapitre 4.

Graphiques, protocoles, r edaction et logiciels

Aux courbes en nuages de points il est dusage aujourdhui dajouter des nouveaux graphiques nomm es scattergrams, boxplots etc. traduits en principe par... scattergrammes ( !) et boites a ` moustaches (re !) dont le but est daider a ` visualiser la tendance et la dispersion des donn ees. Voici par exemple les graphiques fournis par Statbox pour les s eries Y dAncombe. A laide des boites a ` moustaches on voit l eg` erement que la s erie 4 di ere des autres

mais avec les scattergrammes on se rend mieux compte de la r epartition des points :

31

Chapitre 4.

Graphiques, protocoles, r edaction et logiciels

Pour des donn ees enti` eres, comme des ages (ans), des tailles (cm) les diagrammes de tige et feuilles (stem and lead ) peuvent se r ev eler plus parlants que les histogrammes classiques, comme pour lage des hommes et des femmes de notre dossier ELF : AGES DES HOMMES Tige Nb 1 ( 4) 2 (14) 3 ( 4) 4 ( 5 5 ( 2) 6 ( 5) 7 ( 1) | | | | | | | | Feuilles 2678 00225667888899 0235 23779 22 02245 8 AGES DES FEMMES Tige Nb 1 (15) 2 (17) 3 ( 9) 4 ( 8) 5 ( 5) 6 ( 5) 7 ( 5) | | | | | | | | Feuilles 123455577889999 11234455566778889 011156799 01446889 00039 01123 03336

Total 35

Total 64

On noubliera pas que des donn ees tri ees sont parfois plus explicites que les donn ees originales. Ainsi nos 99 ages pr esent es dans lordre du chier peuvent faire croire a ` une r epartition au hasard

Age (donnes non tries)


80 10 20 30 40 50 60 70

20

40

60

80

100

alors que ces m emes donn ees tri es par ordre croissant font apparaitre une r epartition presque uniforme :

Age donnes tries


80 AGE 10 20 30 40 50 60 70

20

40

60

80

100

32

Chapitre 4.

Graphiques, protocoles, r edaction et logiciels

4.2

Protocoles et R edaction

R ediger est un travail p enible et long (relectures) surtout sil faut ecrire en anglais, ce qui nest pas une mince aaire (` a ne pas traduire par mean aair !). N etant pas comp etent en m edecine les quelques remarques qui suivent proviennent de mon exp erience de relecture darticles scientiques dautres domaines et se focalisent sur quelques points fondamentaux. La description du protocole est tr es importante et se fait en g en eral selon des normes en vigueur dans la communaut e de recherche. D ecrire un protocole ne se fait donc pas a ` la l eg` ere ni dans nimporte quel ordre. La ponctuation est une fourche caudine car les ptits fran cais mettent souvent des espaces doubles apr es : ! et ? alors que la norme anglaise et am ericaine mettent un espace simple apr` es chaque symbole de ponctuation. Ainsi Results : we have ... ira forc ement enerver un correcteur alors que la phrase Results: we have... passera sans anicroche. La r edaction est souvent limit ee en nombre de pages et on sacrie parfois le d etail des m ethodes statistiques au prot du domaine d etude ce qui est parfois p enalis e (method not specied,statistical test not dened...). Lors de la r edaction, il faut se rappeler que les variables sont vues au travers dindicateurs et mettent en jeu des populations, des sous-populations. De nombreux adjectifs eventuellement quali es par des adverbes sont disponibles mais attention au champ s emantique. Ainsi la population est tr` es h et erog ene pour ... a un sens et correspond a ` une forte dispersion de la variable X mais on ne dit pas quune population est dispers ee ou quune variable est h et erog ene. La tendance et la dispersion des QT induisent des termes comme grand, tr es grand, relativement grand ainsi que dispers e, uctant ce qui permet de parler dun [fort] eet de taille, dune grande homog enit e... Pour les QL on se r ef erera a ` l equir epartition ou au contraire a ` la disproportion, on mettra en evidence une modalit e majoritaire ou seulement des consensus, re etant une disparit e ou une conjonction davis, de propri et es... Lors de la r edaction des conclusions sur des tests statistiques, on distinguera lhypoth` ese biologique (le produit X a une inuence sur Y) de lhypoth` ese statistique (la moyenne des di erences est signicativement nulle) et la conclusion statistique (au risque de x % on accepte lhypoth` ese) de la conclusion biologique quon viendra souvent nuancer en fonction de la taille de l echantillon (il semblerait donc quon puisse dire que...). 33

Chapitre 4.

Graphiques, protocoles, r edaction et logiciels

4.3

Logiciels

Une question qui ne manque pas de se poser lorsquon doit r ealiser une etude statistique est celle du logiciel. Lequel utiliser ? et surtout, pourquoi ? La plupart du temps, il y a d ej` a au moins un logiciel de statistiques (ou utilis e comme tel) dans le service, dans le laboratoire et la question ne se pose plus : on utilisera celui-l` a. Il faut toutefois savoir que si lon veut publier ses r esultats certains logiciels font loi (SAS, SPSS, Statistica, R, S...) alors que dautres sont d econseill es car dangereux (dont Excel et la plupart des add-on pour Excel). Il sut de lire les articles de recherche de son domaine pour voir quels logiciels sont utilis es et si possible les faire acheter. On trouvera dans les r ef erences Web fournies en annexe une explication des m efaits dExcel. Excel nest pas en soi un mauvais logiciel. De plus il est souvent disponible sur toutes les machines. Il permet a ` la fois de saisir les donn ees, de faire des calculs, des graphiques. Nous conseillons de lutiliser pour la saisie et la v erication des donn ees, le survol des calculs (sans trop en attendre), lachage graphique rapide (avec ses impr ecisions). Que reproche-t-on a ` Excel ? Tout dabord de ne pas etre un logiciel de statistiques. Excel ne fournit aucun moyen de d enir une variable statistique avec la contrainte de type que cela impose : les donn ees doivent se suivre (sans trou ou cellule vide, ni graphique entre deux donn ees) et etre de m eme nature (toutes num eriques ou toutes caract` eres). Excel est de plus incomplet et incorrect car sil fournit quelques fonctions et graphiques orient es statistiques il ne fournit pas toute la panoplie de base (pas de coecient de variation ni de test, pas de boite a ` moustaches ni de tige et feuilles) et certaines fonctions sont incorrectes pour des petites variations de grandes valeurs. Par exemple, tout le monde sait que si on ajoute la valeur c a ` toutes les donn ees de X , la moyenne de X augmente de c alors que sa variance ne change pas soit les formules moy (X + c) = moy (X ) + c et var (X + c) = var (X ). Prenons pour X les valeurs de 1 a ` 4 et mettons dans Y les valeurs de X augment ees de 99999996. Demandons a ` Excel la variance de X et de Y : on obtient respectivement 1.25 et 0 !

34

Chapitre 4.

Graphiques, protocoles, r edaction et logiciels

Pour bien choisir un logiciel, il faut (ind ependamment du prix) savoir si on doit faire des calculs en routine ou au petit bonheur. Dans le premier cas on veut utiliser la m eme d emarche, faire les m emes calculs sur plusieurs groupes, plusieurs variables similaires (par exemple une m eme variable ventil ee sous di erentes conditions exp erimentales) puis comparer les r esultats. Dans le second cas on veut r ealisee une analyse statistique sur le coup, sans quon ait a ` reproduire les manipulations ni sans avoir a ` optimiser les clics de souris. Les bons logiciels cit es (Sas, Spss, Statistica, R, S ...) fournissent des moyens dautomatiser une suite de traitements o` u seul change le nom des donn ees que ce soit le nom des variables ou le nom du chier des donn ees. Au prix dun eort dapprentissage et de [re]codage des donn ees et traitements, on obtient une automatisation des calculs tr` es ecace qui permet de ne pas h esiter sur les calculs a ` eectuer. Prenons comme exemple le traitement des poids des coeurs pour les rats soumis a ` une restriction alimentaire. Il y a 30 donn ees r eparties en 5 groupes de 6 rats d enis comme suit Groupe 1 2 3 4 5 % de restriction 0 25 50 75 100 Commentaire (t emoin)

(je une)

L etude statistique devra certainement a ` faire l etude globale et par groupe, le trac e des graphiques associ es, la recherche de corr elation lin eaire entres groupes et entre le degr e de restriction et la perte de poids, la comparaison des moyennes voir une analyse de la variance... Si Excel permet de bricoler a ` la main et de transf erer rapidement des formules dune s erie a ` lautre avec sa fameuse poign ee de recopie, Excel na pas toutes les fonctionnalit es ni la vraie batterie de tests que peuvent fournir Sas, Statistica, Spss... Lautomatisation des t aches prend tout son sens pour de nombreuses variables. Ainsi l etude men ee sur le coeur des rats soumis a ` restriction alimentaire doit etre reproduite pour le poids total nal, le foie, la rate, les reins. De plus une analyse similaire doit etre men ee sur les muscles, sur la nourriture ing er ee, le poids total... 35

Chapitre 4.

Graphiques, protocoles, r edaction et logiciels

Avec Sas par exemple, on ecrira la suite des traitements a ` eectuer dans une macro et on lutlisera pour chacun des organes. La production de lensemble des calculs et des r esultats se r esumera sans doute alors a `

%macro traiteRats(fichier) ; ... <== ici les instructions de traitement %mend traiteRats ; %traiteRats(coeur) ; %traiteRats(foie) ; %traiteRats(rate) ; ...

Un bon logiciel de statistiques se doit de - mettre a ` disposition toutes les grandes m ethodes statistiques usuelles, - fournir une aide a ` la d emarche statistique, a ` la compr ehension et a ` lutilisation des m ethodes, - pr evoir des jeux dessais pour tester rapidement les concepts, m ethodes et types de graphiques, - permettre une automatisation des traitements. Cest pourquoi (sans avantage commercial et sans publicit e) nous recommandons Sas, Statistica, Spad, Spss, S et sa version gratuite nomm ee R qui sont les seuls a ` r eunir toutes ces qualit es.

36

ANNEXES

37

Bibliographie

B. Scherrer Biostatistique Gaetan Morin editeur, 1984. S. Frontier, D. Davoult, V. Gentilhomme, Y. Lagadeuc Statistique pour les sciences de la vie et de lenvironnement, cours et exercices corrig es Dunod, Paris 2001. Y. Dodge Statistique, dictionnaire encyclop edique Dunod, Paris 1993. J.M. Legay Exercices de Statistique pour Biologistes Flammarion, 1966. D. Foata, A. Fuchs Calcul des probabilit es Dunod, 1998. D. C. Hoaglin, F. Mosteller, J. W. Tukey Understanding robust and exploratory data analysis John Wiley & Sons, 2000. L. Lebart, A. Morineau, M. Piron Statistique exploratoire multidimensionnelle 2eme edition, Dunod, 1997.

39

40

R ef erences Web
http ://spiral.univ-lyon1.fr/mathsv/ Dans la partie gauche (Cours) cliquer sur Probabibilit eStatistique. On trouve dans ces pages W eb le rappel de cours et des formules ainsi que des exercices corrig es d etaill es. Ce site est plutot a ` consid erer comme un aide-m emoire rapide de niveau L1. http ://www.lsp.ups-tlse.fr/Besse/enseignement.html LURL indiqu ee est la page principale des cours du Pr. Philippe BESSE. Suite logique et approfondie de lURL pr ec edente, il sagit encore de cours disons acad emiques d etaill es.On y trouve aussi une initiation aux logiciesl SAS er R et un cours int eressant sur les des donn ees dexpression g enomique fournies par les biopuces (microarrays). http ://www.math-info.univ-paris5.fr/ smel/ Ce site est plus particuli` erement destin e au milieu m edical. Le cours en ligne de Statistique M edicale En Ligne est particuli erement bien fait, m eme sil est un peut succint a ` mon gout. Le site comprend de plus un lexique des termes statistiques, des articles m edicaux plubli es, des donn ees r eelles qui servent pour les exemples. http ://tecfa.unige.ch/staf/staf-d/merino/UDO/ Ce site est en fran cais, limit ea ` certains tests mais il est bien d etaill e. http ://www.psychstat.smsu.edu/sbk00.htm En anglais, ce site est assez complet. En particulier on y retrouve assez facilement le vocabulaire anglais utilis e en statistiques. Il correspond au livre de Stockburger . http ://www.agro-montpellier.fr/cnam-lr/statnet/ Ce cours, tr` es propre, dune collaboration Cnam, Agro Montpellier et Universit e de Montpellier se lit tr` es bien. De plus certaines s equences vid ees (Real Player) permettent de lire di erement le cours et le lexique, a ` ladresse http ://www.agro-montpellier.fr/cnam-lr/statnet/mod6/mod6lx.htm permet de retrouver rapidement une notion ou une formule oubli ee. 41

http ://members.aol.com/johnp71/javastat.html On trouve a ` cette adresse plus de 600 liens sur des pages Web qui eectuent des calculs statistiques en ligne, que ce soit en java, javascript ou autre langage. On y trouve notamment trois r ef erences pour savoir quel test choisir : http ://www.graphpad.com/www/Book/Choose.htm http ://www.socialresearchmethods.net/selstat/ssstart.htm http ://members.aol.com/statware/pubpage.htm#HERE009 Les autres liens permettent, apr` es quelques essais, de trouver sans utiliser de logiciel particulier (ou pour v erier les r esultats dun logiciel) de faire en ligne les calculs, souvent par simple copie/coller des donn ees, comme par exemple le site http ://www.statlets.com/log in.htm http ://www.info.univ-angers.fr/pub/gh/vitrine/Democgi/loisStatp.htm Cette page permet de calculer rapidement les eectifs th eoriques absolus pour une loi discr` ete dont on connait les param etres. Par exemple je men suis servi pour le calcul du 2 de lexemple lles dans une famille de 5 enfants.

Vous trouverez bien s ur cette pages de liens (cherchez le mot rep` eres ou le mot CHU) et bien dautres r ef erences a ` ladresse http ://www.info.univ-angers.fr/pub/gh/wstat/statgen.htm

42

Formules math ematiques


Analyse univari ee QT de X (soit n valeurs Xi)
Param` etre de Taille Position (tendance) Dispersion (variation) Nom Eectif Moyenne M ediane Variance Ecart-type Coecient de variation Ecart inter-quartiles Notation n ou nX m ou mX q2 (X ) ou q0.50 V ou VX ou X cdv Q Formule (nombre de valeurs) n m = Xi card( {i ; Xi 2 = V /m q0.75 q0.25 q2 } ) = n/2 V = moy ( (X m)2 )

La variance de la population est estim ee par V n/n 1.

Analyse bivari ee QT de X et Y
Remarque : les valeurs Yi sont appari ees a ` celles de X soit n couples (Xi , Yi ). Nom Covariance Coecient de corr elation lin eaire Notation covXY XY Formule mXY mX mY covXY /X Y

Equation de la r egression lin eaire de Y par rapport a ` X si || proche de 1 : Y = aX + b avec a = Y /X et b = mY amX 43

Analyse univari ee QL de X
Soient n valeurs de X correspondant a ` p modalit es qj . Nom Eectif absolu de la modalit ej Eectif total pour X Eectif relatif de la modalit ej Eectif cumul e (absolu) de la modalit ej Notation nj N fj cj Formule card( { i ; Xi = qj } ) nj nj /N n1 + n2 + ... + nj

Analyse bivari ee QL de X et Y
Remarque : les valeurs Yi sont appari ees a ` celles de X soit n couples (Xi , Yi ). Les n valeurs de Y correspondant a ` r modalit es tk . On eectue le croisement des p modalit es j de X mises en ligne et des r modalit es k de Y mises en colonne.

Nom Eectif absolu du croisement de qj et tk Eectif absolu de la modalit e (ligne) qj Eectif absolu de la modalit e (colonne) tk Eectif total Eectif relatif de qj et tk p.r. a ` la ligne j Eectif relatif de qj et tk p.r. a ` la colonne j Eectif relatif de qj et tk p.r. au total Eectif relatif de la modalit e (ligne) qj Eectif relatif de la modalit e (colonne) tk

Notation nj,k nj. n.k N ou n..

Formule card({i; Xi = qj et Yi = tk }) k nj,k j nj,k j nj. ou k n.k nj,k /nj. nj,k /n.k

fj,k fj. f.k

nj,k /n.. nj. /n.. n.k /n..

44

Intervalle bilat eral de conance dune moyenne


Soit X un echantillon QT avec n valeurs, de moyenne m et d ecart-type . Soit le risque consid er e et N leectif de la population totale. (N n)/N Pour un echantillonnage sans remise s = /n Pour un echantillonnage avec remise s = / n 1 Cas des petits eectifs (n 30) : I = [m ; m + ] avec = s talpha/2 t est la fonction de r epartition inverse de la loi de Student avec = n 1 ddl. Cas des grands eectifs (n 30) : I = [m ; m + ] avec = s Zalpha/2 o` u Z est la fonction de r epartition inverse de la loi normale soit 1.96 pour = 5 %.

Intervalle de conance dune proportion


Soit X un echantillon de n valeurs dont a sont marqu ees, extrait dune population de N valeurs dont A sont marqu ees. Soit le risque consid er e. Pour un echantillonnage avec remise Pour un echantillonnage sans remise s2 = p(1 p)/(n 1) s2 = p(1 p)/(n 1) (N n)/N

Cas des grands eectifs (n subordonn ea ` p) : I = [p ; p + ] avec = 1/2n + s Zalpha/2 o` u Z est la fonction de r epartition inverse de la loi normale soit 1.96 pour = 5 %.

D etermination deectif pour une pr ecision donn ee


Sachant , m et on prend = talpha/2 ou = Zalpha/2 comme au-dessus. Puisque = / n, n vaut E [ (/)2 ]+ 1. Pour une proportion p et une pr ecision relative dans le cadre dune approximation normale, n vaut E [ p(1 p)(Zalpha/2 / )2 ]+ 1. 45

Tests de conformit e
Test de H0 : m = m0 pour un echantillon de moyenne m Variance connue ecart r eduit obs = |m m0 |/ V /n a ` comparer avec seuil = Zalpha/2

Variance inconnue ecart r eduit tobs = |m m0 |/ Vech /n a ` comparer avec tseuil = talpha/2 pour n 1 ddl pour n < 30 l echantillon doit suivre une loi normale N (m, ). Test de H0 : k/n = k0 /n0 pour un echantillon de n valeurs dont k valeurs sont marqu ees Pour p = k/n et p0 = k0 /n0 , l ecart r eduit est obs = |p p0 |/ p0 (1 p0 )/n A comparer avec seuil = Zalpha/2 .

Tests dhomog en eit e


Comparaison de moyennes H0 : m1 = m2 et N = n1 + n2 2 On pose V pd = ( (xi m1 ) (yi m2 ) )2 (n1 1)V1 + (n2 1)V2 et Vd = . (n1 1) + (n2 1) n1

Nature des echantillons

obs

seuil

dll

Ind ependants grands echantillons petits echantillons variances egales variances in egales 1 , 2 Appari es (n1 = n2 = n) |m1 m2 |/ V1 /n1 + V2 /n2 Zalpha/2 /

|m1 m2 |/ Vp (1/n1 + 1/n2 ) talpha/2 |m1 m2 |/ V1 /n1 + V2 /n2 talpha/2 |m1 m2 |/ Vd /n talpha/2

N N n1

46

Comparaison de deux variances V1 et V2 Comparer le rapport de variance R au F de Fisher-Sn ed ecor pour n2 1 et n1 1 dll si R et sont d enis par Hypoth` ese alternative V2 =V1 Rapport de variance V 1/V 2 V 2/V 1 Condition V 1/V 2 V 2/V 1 /2 /2

V1 >V2

V 1/V 2

V2 >V1

V 2/V 1

Comparaison de deux fr equences Si ki individus sont marqu es dans l echantillon Ei de taille ni et si fi = ki /ni alors, sachant la fr equence globale f = (k1 + k2 )/(n1 + n2 ) l ecart r eduit est |f1 f2 |

f (1 f ) (1/n1 + 1/n2 ) que lon compare a ` Zalpha/2 . 2 dad equation deectifs observ es ` a une loi th eorique Si n eectifs th eoriques thi correspondent a ` n eectifs obsi observ es, la valeur 2 du dad equation est
i=n

i=1

(obsi thi )2 thi

que lon compare au 2 maximal autoris e lu dans la table pour le nombre = n 1, n 2 ou n 3 degr es de libert e. A condition : - quil y ait au moins 50 valeurs en tout, - que chaque eectif soit sup erieur a ` 5, - que la somme des eectifs th eoriques et observ es soit la m eme. 47

48

Programmes et Sorties informatiques


Tri ` a plat de la variable SEXE avec Excel
Instructions
Ouvrir ELF.DBF Faire Formats Mise en Forme automatique <Ok> Faire Donn ees Rapport de tableau crois e dynamique Donn ees dans liste ou Base <suivant> Plage Base_de_donn ees <suivant> Nouvelle feuille Disposition NUM en "donn ees" SEXE en "ligne" <Ok> <Terminer>

R esultats
Nombre de NUM SEXE 0 1 Total Total 35 64 99

49

Tri ` a plat de la variable SEXE avec R


Instructions
source("statgh.r") elfdata <- read.table("elf.dar",header=TRUE) sexeElf <- elfdata[,2] triAplat("Sexe de la personne",sexeElf, c("homme","femme") )

R esultats

R : Copyright 2004, The R Foundation for Statistical Computing Version 2.0.1 (2004-11-15), ISBN 3-900051-07-0 R is free software and comes with ABSOLUTELY NO WARRANTY. You are welcome to redistribute it under certain conditions. Type license() or licence() for distribution details. R is a collaborative project with many contributors. Type contributors() for more information and citation() on how to cite R or R packages in publications. > source("statgh.r") statgh.r, version 2.17 > > > elfdata <- read.table("elf.dar",header=TRUE) sexeElf <- elfdata[,2] triAplat("Sexe de la personne",sexeElf, c("homme","femme") ) QUESTION : Sexe de la personne homme femme 35 64 35 65 Total 99 100

Effectif Frequence (en %)

50

Analyse univari ee de QT avec Statbox(Excel)


On part du chier des donn ees

restriction 0 497 0 392 0 456 0 425 0 380 0 361 25 412 25 414 25 361 25 359 25 330 25 350 50 481 50 395 50 382 ... 100 395 100 363 100 326 100 323 100 326 100 294

poids tot final 20.05 0.936 15.171 0.575 18.9 1.041 16.832 0.8 14.89 0.745 13.255 0.608 14.49 0.839 13.87 0.724 11.65 0.78 12.706 0.649 11.343 0.618 13.051 0.706 15.397 0.917 13.62 0.565 14.385 0.75 10.028 8.7 7.98 8.13 8.53 7.52 0.742 0.673 0.536 0.468 0.607 0.499

foie 2.75 2.622 3.052 2.808 2.47 2.263 2.744 2.986 2.508 2.695 2.159 2.529 2.835 2.579 3.136 2.641 2.599 2.237 2.144 2.184 2.212

rate 1.440 1.115 1.620 1.272 1.121 1.039 1.286 1.390 1.087 1.130 1.077 1.033 1.450 1.206 1.267 1.427 1.265 1.000 1.116 0.956 0.879

rein

coeur

que lon restructure en

Num 1 2 3 4 5 6

Cr0 1.440 1.115 1.620 1.272 1.121 1.039

Cr25 1.286 1.390 1.087 1.130 1.077 1.033

Cr50 1.450 1.206 1.267 1.497 0.992 0.991 51

Cr75 1.280 2.210 1.206 1.139 0.981 1.009

Cr100 1.427 1.265 1.000 1.116 0.956 0.879

Pr0 Pr1... ...

R esultats num eriques globaux

R esultats num eriques pour le coeur

52

R esultats graphiques pour le coeur

53

Analyse univari ee de QT avec Sas


Instructions
filename forganes organes.dat ; data organes ; infile forganes ; input restriction proc print data=organes ; /* analyse globale rapide */ proc means data=organes n mean stddev cv min max ; var poidstotfinal foie rate rein coeur ; /* analyse rapide par restriction pour le coeur */ proc means data=organes n mean stddev cv var coeur ; class restriction ; /* analyse globale longue pour le coeur */ proc univariate data=organes all ; var coeur ; run ; ;

poidstotfinal foie

rate

rein

coeur ;

Extrait des R esultats


Nous ne donnons quun extrait des r esultats car SAS fournit 8 pages de r esultas d etaill es...

54

The MEANS Procedure Coeff of Variable N Mean Std Dev Variation ----------------------------------------------------------------poidstotfinal 30 376.5500000 52.3315607 13.8976393 foie 30 12.2564667 3.1968759 26.0831769 rate 30 0.6948000 0.1352031 19.4592893 rein 30 2.5581667 0.3068745 11.9958746 coeur 30 1.2160333 0.2624360 21.5813163

The MEANS Procedure Analysis Variable : coeur N Coeff of restriction Obs N Mean Std Dev Variation ---------------------------------------------------------------------------0 6 6 1.2678333 0.2240370 17.6708539 25 6 6 1.1671667 0.1397962 11.9773949 50 6 6 1.2338333 0.2169382 17.5824528 75 6 6 1.3041667 0.4581691 35.1311806 100 6 6 1.1071667 0.2067263 18.6716521 ============================================================================= The UNIVARIATE Procedure Variable: Moments N Mean Std Deviation Skewness Uncorrected SS Coeff Variation 30 1.21603333 0.262436 2.00091266 46.359419 21.5813163 Sum Weights Sum Observations Variance Kurtosis Corrected SS Std Error Mean 30 36.481 0.06887265 6.05412684 1.99730697 0.04791404 coeur

55

Basic Statistical Measures Location Mean 1.216033 Median 1.134500 Mode 1.206000 Variability Std Deviation Variance Range Interquartile Range

0.26244 0.06887 1.33100 0.25300

Basic Confidence Limits Assuming Normality Parameter Mean Std Deviation Variance Estimate 1.21603 0.26244 0.06887 95% Confidence Limits 1.11804 1.31403 0.20901 0.35280 0.04368 0.12447

Tests for Location: Mu0=0 Test Students t Sign Signed Rank -Statistict M S 25.37948 15 232.5 -----p Value-----Pr > |t| Pr >= |M| Pr >= |S| <.0001 <.0001 <.0001

Tests for Normality Test Shapiro-Wilk Kolmogorov-Smirnov Cramer-von Mises Anderson-Darling --Statistic--W D W-Sq A-Sq 0.834838 0.161553 0.167274 1.134068 -----p Value-----Pr Pr Pr Pr < > > > W D W-Sq A-Sq 0.0003 0.0444 0.0140 <0.0050

Trimmed Means Percent Trimmed in Tail 26.67 Number Trimmed in Tail 8 Std Error Trimmed Mean 0.041898

Trimmed Mean 1.165714

95% Confidence Limits 1.075200 1.256229

56

Winsorized Means Percent Winsorized in Tail 26.67 Number Winsorized in Tail 8 Std Error Winsorized Mean 0.042749

Winsorized Mean 1.162400

95% Confidence Limits 1.070047 1.254753

Robust Measures of Scale Estimate Measure Interquartile Range Ginis Mean Difference MAD Sn Qn Variable: Stem 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 Leaf 1 Value 0.253000 0.267676 0.136000 0.202742 0.244409 coeur # 1 of Sigma 0.187549 0.237222 0.201634 0.202742 0.216931

Boxplot *

2 0 345 9 1167789 22234 013489 6899 8 ----+----+----+----+ Multiply Stem.Leaf by 10**-1

1 1 3 1 7 5 6 4 1

| | | | +--+--+ *-----* +-----+ | |

57

The UNIVARIATE Procedure Variable: coeur

Normal Probability Plot 2.25+ | | | | | | 1.55+ | | | | | | 0.85+ *

+++ ++++ +*++ ++++ +** * * ++++* +******* +**** ****** * * *+*+ * +++ +----+----+----+----+----+----+----+----+----+----+ -2 -1 0 +1 +2

58

Analyse bivari ee QT du dossier VINS


R esultats statistiques avec asgQT.xlt (gH)

Matrice des corr elations d etaill ee avec Statistica

59

Intervalles de conance en Sas


Instructions
/* scherrer */ data e10p1page335 ; input n m s alpha ; t=probit(1-alpha/200) ; u=s/sqrt(n) ; eps=t*u ; Lm=m-eps; Um=m+eps ; datalines ; 50 158.86 6.09 1 50 158.86 6.09 5 50 158.86 6.09 10 ; proc print data=e10p1page335 ; /* ================================ */ data e10p3p337 ; input n m s alpha ; df=n-1 ; t= tinv(1-alpha/200,df) ; u=s/sqrt(n-1) ; eps=t*u ; Lm=m-eps; Um=m+eps ; datalines ; 9 23.5 4.5 1 9 23.5 4.5 5 9 23.5 4.5 10 9 158.86 6.09 1 9 158.86 6.09 5 9 158.86 6.09 10 ; proc print data=e10p3p337 ; /* ================================ */

60

data e10p9p351 ; input n i Ntot alpha ; p=i/n ; q=1-p ; t=probit(1-alpha/200) ; s=sqrt(p*q*(Ntot-n)/( (n-1)*Ntot)) ; eps=t*s +1/(2*n) ; Lm=p-eps; Um=p+eps ; datalines ; 146 41 1000 5 ; /* ================================ */ proc print data=e10p9p351 ; data e10p13p362 ; input m v alpha ; prec = 0.01 ; z=probit(1-alpha/200) ; n= (1/(prec*prec))*z*z*v/(m*m) ; datalines ; 158.86 37.18 1 158.86 37.18 5 158.86 37.18 10 ; proc print data=e10p13p362 ;

run ;

R esultats
The SAS System Obs 1 2 3 n 50 50 50 m 158.86 158.86 158.86 s 6.09 6.09 6.09 alpha 1 5 10 t 2.57583 1.95996 1.64485 u 0.86126 0.86126 0.86126 eps 2.21845 1.68803 1.41664 Lm 156.642 157.172 157.443 Um 161.078 160.548 160.277

61

Obs 1 2 3 4 5 6

n 9 9 9 9 9 9

m 23.50 23.50 23.50 158.86 158.86 158.86

s 4.50 4.50 4.50 6.09 6.09 6.09

alpha 1 5 10 1 5 10

df 8 8 8 8 8 8

t 3.35539 2.30600 1.85955 3.35539 2.30600 1.85955

u 1.59099 1.59099 1.59099 2.15314 2.15314 2.15314

eps 5.33839 3.66883 2.95852 7.22462 4.96515 4.00387

Lm 18.162 19.831 20.541 151.635 153.895 154.856

Um 28.838 27.169 26.459 166.085 163.825 162.864

Obs 1

n 146

i 41

Ntot 1000

alpha 5

p 0.28082

q 0.71918

t 1.95996

s 0.034489

eps 0.071022

Lm 0.20980

Um 0.35184

Obs 1 2 3

m 158.86 158.86 158.86

v 37.18 37.18 37.18

alpha 1 5 10

prec 0.01 0.01 0.01

z 2.57583 1.95996 1.64485

n 97.7495 56.5948 39.8598

62

Comparaison de fr equences via la page Web Statlets


Saisie des valeurs

R esultats

63

Comparaison de fr equences en ligne de commandes (gH)


compourc.rex (gH) : comparaison de pourcentages ia ib ii dp eps 30 12 42 0.05636 1.67801 na nb nn 220 150 370 pa pb p 0.136 0.080 0.114 0.0335895151536240

r2 0.00113 r soit en gros 1.68

Au seuil de 5 % soit la valeur 1.96 on peut accepter lhypoth` ese que les pourcentages sont e gaux.

Apr` es multiplication des donn ees par 10 :


compourc.rex (gH) : comparaison de pourcentages ia ib ii dp eps 300 120 420 0.05636 5.30634 na nb nn 2200 1500 3700 pa pb p 0.136 0.080 0.114 0.0106219373386192

r2 0.00011 r soit en gros 5.31

Au seuil de 5 % soit la valeur 1.96 on peut refuser lhypoth` ese que les pourcentages sont e gaux.

64

Eectifs dune loi th eorique par une page Web


Saisie des valeurs

R esultats

65

2 dind ependance avec une macro Excel

66