Vous êtes sur la page 1sur 126

Aide - mmoire de statistique applique la biologie

Construire son tude et analyser les rsultats laide du logiciel R

Maxime HERVE 3me version 2011 (1re version 2010)

Avant-propos
Lors de mon stage de Master 2, jai ralis une chose importante : en biologie, les statistiques sont essentielles. Jai aussi ralis une autre chose importante : je ny connaissais rien. Et par dessus tout, jen avais horreur. Mais tant oblig den passer par l, je my suis mis. Et jai alors ralis une chose encore plus importante : il ny a pas besoin dtre statisticien pour analyser ses donnes. Il faut simplement savoir se poser un peu, rchir ltude quon a men (ou mieux, ltude quon va mener), et tre rigoureux. Pour le reste, tout est disponible dans les livres ou sur internet. Jai donc dcid de me former dans mon coin la statistique applique la biologie. Je me suis alors confront un problme qui ma fait perdre beaucoup de temps, un temps que la plupart des stagiaires nont pas : il existe de trs nombreux et trs bons documents sur le sujet, mais trs peu qui regroupent les analyses de base, celles que lon rencontre le plus souvent. An de ne pas oublier tout ce que javais appris par - ci, par - l, jai donc voulu me rdiger un petit document de synthse. Finalement, jai dcid den faire un vritable aide - mmoire et de le mettre la disposition des autres tudiants. Lobjectif (ambitieux) de cet ouvrage est donc dtre pour vous le guide que jaurais aim avoir lors de mon stage. Utiliser cet aide - mmoire ne demande que trs peu de connaissances en statistiques. Savoir ce que sont une moyenne, une variance, une mdiane ou un intervalle de conance est susant. Par contre, il exige une chose : si vous voulez quil vous prenne par la main, il faut que vous en ayez envie. Jentends par l quil est indispensable de se poser des questions : quelle question mon tude doit - elle rpondre ? Quel dispositif vais - je mettre en place pour y rpondre ? Que vais - je contrler, que vais - je observer dans ltude ? Comment vais - je utiliser mes rsultats ? Si lon prend le temps de se poser ces questions, et surtout le temps dy apporter une rponse, analyser ses donnes nest pas compliqu. Vous verrez mme quil est trs agrable de comprendre ce que lon fait, et pourquoi on le fait. Peut - tre mme que comme moi, vous prendrez got aux statistiques. Mais si par contre vous ne vous voulez pas prendre le temps de rchir votre travail, malgr toute la bonne volont que jai mise crire cet ouvrage le plus simplement possible, je ne peux rien pour vous. Pour raliser lanalyse des rsultats, jai choisi dutiliser R, qui est la fois un langage informatique et un logiciel. Jai fait ce choix car il est gratuit et libre, ce qui vous permet de lutiliser absolument partout. De plus, il est extrmement puissant et son caractre libre fait que de nombreux utilisateurs sinvestissent pour lamliorer et lenrichir en permanence. Enn, pass le dgot ventuel davoir crire soi - mme des lignes de commande, vous verrez que R est simple utiliser et que mieux, il permet (car il loblige) de comprendre ce que lon fait.

Comme pour la thorie statistique, utiliser cet aide - mmoire nexige que trs peu de connaissances sur R. Il ncessite seulement de savoir crer les objets de base du langage (vecteur, tableau, matrice) et de savoir eectuer des manipulations simples sur ces objets. Si ces bases ne sont pas acquises, vous pouvez vous rfrer certains documents dintroduction R cits dans la bibliographie. Noubliez pas galement qu chaque fonction dans R est associe une page daide, que lon appelle par la syntaxe ?fonction. Il est trs important pour moi dtre en contact avec les utilisateurs de cet aide - mmoire, car cest grce cela que je peux lamliorer. Je remercie donc toutes les personnes qui mcrivent pour me poser des questions ou pour rectier des erreurs. Ce sont elles qui me donnent envie de le clarier, de lenrichir et de le corriger. Je vous invite donc sincrement menvoyer un e - mail (mx.herve@gmail.com) si vous trouvez quun point nest pas clair, quun autre mriterait dtre ajout ou approfondi, ou encore quil subsiste des erreurs dans le document. Certaines des fonctions prsentes dans cet ouvrage ncessitent dinstaller des packages qui ne sont pas fournis avec la distribution de base de R. Parmi ceux - ci se trouve le package RVAideMemoire, qui contient des fonctions que jai crites spcialement pour accompagner cet aide - mmoire. Son dveloppement est donc intimement li celui de ce document, et l encore je vous encourage me faire part de vos remarques, suggestions, critiques et / ou corrections. Pour nir, mme si vous navez rien dire je vous invite menvoyer un petit mail quand mme. Cela me permettra de crer une liste de diusion an dinformer un maximum dutilisateurs de la sortie de nouvelles versions de laide - mmoire et/ou du package RVAideMemoire. Jespre sincrement que ce livre comblera vos attentes et quil vous permettra de rpondre vos questions.

Le 13 Juillet 2011 Maxime Herv

Sommaire
Louvrage est divis en quatre parties : La prparation de ltude : souvent trop peu dimportance y est attache. Pourtant, cette phase est au moins aussi cruciale que lanalyse des rsultats puisquelle dtermine la faon dont ceux - ci vont pouvoir tre analyss. Une tude bien prpare facilite grandement lexploitation des rsultats, tandis quune tude mal prpare entrane gnralement des complications au moment de lanalyse et de linterprtation. La prparation et limportation des donnes : cette tape apparemment simple peut poser problme par manque dexprience. Elle est pourtant cruciale, puisque des donnes mal structures ou mal importes dans R peuvent conduire une analyse compltement fausse. Lanalyse descriptive des rsultats : ce type danalyse est toujours indispensable, et selon lobjectif de ltude il peut tre susant. Lanalyse descriptive est souvent nglige pour foncer sur les tests , ce qui conduit oublier la ralit des donnes (et par consquent compliquer voire fausser linterprtation des rsultats). Lanalyse infrentielle des rsultats : ce type danalyse regroupe la dtermination des intervalles de conance et la ralisation des tests statistiques. Lanalyse infrentielle est la seule phase de ltude qui est facultative. Dans tous les cas elle doit passer aprs lanalyse descriptive.

1. 1. 2. 3. 4. 2. 5. 6. 7. 8.

PREPARATION DE LETUDE Les dirents types de variable Le plan dchantillonnage Le plan dexprience La dtermination de la taille de lchantillon PREPARATION ET IMPORTATION DES DONNEES Construction du tableau de donnes Importation du tableau de donnes dans R i Installer et charger un package i Citer R et ses packages

3. ANALYSE DESCRIPTIVE DES RESULTATS 3.1. Statistique univarie 9. Graphiques de dispersion : la fonction stripchart() 10. Histogrammes : la fonction hist() 11. Botes moustaches : la fonction boxplot() 12. La rduction des donnes une dimension

3.2. Statistique bivarie 13. Nuages de points : la fonction plot() 14. La rduction des donnes deux dimensions 3.3. Statistique multivarie Choisir son analyse multivarie Ce choix dpend de la nature des variables tudies : toutes quantitatives : ACP toutes qualitatives : deux variables : AFC plus de deux variables : ACM la fois quantitatives et qualitatives : Analyse mixte.

15. 16. 17. 18.

LAnalyse LAnalyse LAnalyse LAnalyse

en Composantes Principales (ACP) Factorielle des Correspondances (AFC) des Correspondances Multiples (ACM) mixte de Hill et Smith

4. ANALYSE INFERENTIELLE DES RESULTATS 4.1. Quelques bases thoriques 4.1.1. Lois de probabilit 4.1.1.1. Lois de probabilit discontinues 19. Lois de probabilit discontinues gnralits 20. La loi binomiale 21. La loi de Poisson 22. La loi binomiale ngative 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 4.1.1.2. Lois de probabilit continues Lois de probabilit continues gnralits La loi normale La loi exponentielle La loi de 2 La loi de Fisher - Snedecor La loi de Student 4.1.2. Risques et puissance associs aux tests statistiques Principe des tests statistiques et risques associs la conclusion Le risque ou seuil de rejet La correction du seuil de rejet Le risque et la puissance du test

4.2. Identication des donnes aberrantes 33. Lidentication des donnes aberrantes 4.3. Intervalles de conance et erreur standard 34. Intervalle de conance et erreur standard 35. i Tracer un diagramme en barres avec barres derreur 4.4. Tests dhypothses 36. Les dirents types de test statistique 4.4.1. Conditions pralables lutilisation des tests Ces conditions ne sont pas toujours remplir, cela dpend du test que lon souhaite utiliser. 37. Caractre alatoire et simple dune srie de donnes 38. Ajustement une distribution thorique 39. Egalit des variances de plusieurs sries de donnes 40. Les transformations de variable 4.4.2. Ralisation des tests Souvent, plusieurs tests peuvent tre utiliss pour rpondre la mme question. Les conditions de leur emploi sont cependant plus ou moins restrictives, et leur puissance plus ou moins grande (un test plus restrictif tant gnralement plus puissant). Lorsque plusieurs tests sont disponibles ils sont prsents du plus au moins restrictif, du plus pointu au plus passe - partout . 4.4.2.1. Statistique univarie Tests sur des probabilits de rponse (variables binaires 0 / 1) Le test de conformit dune ou de plusieurs probabilit(s) de rponse avec une ou plusieurs valeur(s) thorique(s) est une dmarche identique celle du test de conformit de proportion(s). 41. Comparaison de plusieurs probabilits de rponse un facteur 42. Comparaison de plusieurs probabilits de rponse deux facteurs Tests sur des eectifs 43. Conformit de plusieurs eectifs avec des valeurs thoriques 44. Comparaison de plusieurs eectifs sans facteur (eectifs bruts) 45. Comparaison de plusieurs eectifs un facteur 46. Comparaison de plusieurs eectifs deux facteurs Tests sur des proportions 47. Conformit dune proportion avec une valeur thorique 48. Conformit de plusieurs proportions avec des valeurs thoriques 49. Comparaison de deux proportions sans rptition

50. Comparaison de plusieurs proportions sans rptition 51. Comparaison de plusieurs proportions avec rptitions et un facteur 52. Comparaison de plusieurs proportions avec rptitions et deux facteurs Rgression, analyse de variance / dviance ou analyse de la covariance ? Dans tous les cas la variable expliquer est unique et quantitative. Le choix dpend de la nature des variables explicatives : toutes quantitatives : rgression toutes qualitatives : analyse de variance / dviance la fois quantitatives et qualitatives : analyse de la covariance. Le cas des variables expliquer qualitatives nest abord ici que pour des variables binaires.

Tests sur des moyennes 53. Conformit dune moyenne avec une valeur thorique 54. Comparaison de deux moyennes 55. Comparaison de plusieurs moyennes un facteur 56. Comparaison de plusieurs moyennes deux facteurs Tests sur des temps de survie Ces tests sont traditionnellement utiliss pour comparer des temps de survie, mais ils peuvent tre appliqus nimporte quelle variable reprsentant un temps avant la survenue dun vnement. 57. Comparaison de plusieurs temps de survie 58. i Tracer des courbes de survie 4.4.2.2. Statistique bivarie Tests autour de la liaison entre deux variables 59. Indpendance de deux variables qualitatives 60. Corrlation entre deux variables 61. Conformit dun coecient de corrlation linaire avec une valeur thorique 62. Comparaison de plusieurs coecients de corrlation linaire Tests autour de la rgression 63. La rgression linaire simple au sens des moindres carrs 64. La rgression linaire simple au sens des moindres rectangles 65. Comparaison de plusieurs droites de rgression linaire simple 66. La rgression logistique binaire simple 67. La rgression non linaire simple 68. i Tracer une droite ou une courbe de rgression simple

Analyse de la covariance 69. Lanalyse de la covariance un facteur 4.4.2.3. Statistique multivarie 70. La rgression linaire multiple 71. 72. 73. 74. 4.4.3. Outils pour lutilisation des modles statistiques Construction de la formule dun modle Slection de modle Vrication de la validit dun modle La mthode des contrastes

ANNEXES Index des packages externes Bibliographie et ouvrages / documents / liens recommands

1. Les dirents types de variable


Une variable est dite alatoire si lon ne peut pas prdire coup sr la valeur que prendra un individu. Il existe deux types de variable alatoire : 1. quantitatives : elles ont en gnral une innit de valeurs numriques possibles et peuvent tre : continues (ex : masse, temps, distance, volume) discrtes (ex : dnombrement) 2. qualitatives : elles sont en gnral non numriques (mais pas toujours) et sont appeles facteurs. Leur valeur est appele classe, niveau ou modalit. Ces variables peuvent tre : ordinales, lorsque les classes peuvent tre ordonnes (ex : classement) nominales, lorsque les classes ne peuvent pas tre ordonnes (ex : sexe). Les classes dune variable qualitative sont dites exclusives si un individu ne peut pas appartenir plusieurs classes en mme temps. Beaucoup de tests statistiques exigent que les classes soient exclusives. Dans tous les cas, le caractre dexclusivit doit tre dtermin avant toute analyse statistique. Il existe deux types de facteur : xe : un facteur est xe si ses classes ont t dlibrment choisies, et si le but de ltude est de les comparer. Par exemple, si lon veut comparer la taille des individus entre trois espces, le facteur espce est xe ( trois classes) alatoire : un facteur est alatoire si ses classes ont t choisies parmi un grand nombre de classes possibles, et si le but de ltude nest pas de les comparer mais simplement de prendre en compte la variabilit quil existe entre elles. Par exemple, si les mesures de taille des trois espces sont ralises par deux personnes direntes (qui ont chacune mesur la moiti des individus), on peut considrer un facteur exprimentateur , alatoire. Lobjectif ici nest en eet pas de comparer les mesures ralises par les deux personnes, mais de prendre en compte le fait que la faon de raliser les mesures peut varier entre les deux. Il y a deux choses bien garder lesprit : (i) la dcision de dclarer un facteur comme xe ou alatoire est fondamentale pour lanalyse des donnes, car ce ne sont pas les mmes analyses qui sont ralises dans les deux cas ; (ii) cette dcision doit tre prise selon lobjectif de ltude, i.e. la question laquelle ltude doit rpondre. Il est donc indispensable de bien se poser la question avant de dclarer un facteur xe ou alatoire, car aucune dcision de peut tre prise dans labsolu. Que ce soit pour des variables qualitatives ou quantitatives, si certaines mesures ne sont pas indpendantes entre elles, elles constituent des sries

apparies. Le cas le plus simple est celui o plusieurs mesures sont ralises sur un mme individu (par exemple avant et aprs un traitement). Mais dautres cas plus subtils peuvent se prsenter : si des mesures sont ralises sur des individus apparents (ces mesures ne sont pas indpendantes car il existe une corrlation dorigine gntique entre elles), si des sries de mesures sont ralises des localisations direntes (ces mesures ne sont pas indpendantes car chaque srie est inuence par lenvironnement local) ou encore si des sries de mesures sont ralises des temps dirents (ces mesures ne sont pas indpendantes car chaque srie est inuence par ce quil a pu se passer avant). Il est trs important didentier les sries apparies lorsquelles existent, car ce ne sont pas les mmes analyses statistiques qui doivent alors tre utilises. Dans les modles statistiques, les sries apparies sont identies par lintroduction dun facteur alatoire. Pour les exemples prcdents, on a donc respectivement un facteur individu , un facteur famille , un facteur localisation et un facteur moment .

2. Le plan dchantillonnage
On utilise un plan dchantillonnage lorsque lon ralise une tude par enqute, i.e. lorsque lon collecte des informations sur un groupe dindividus dans leur milieu habituel, mais que tous les individus ne sont pas accessibles (par choix ou par contrainte). Les principales mthodes dchantillonnage peuvent tre regroupes en deux ensembles : 1. lchantillonnage alatoire : tous les individus (au sens statistique) ont la mme probabilit dtre choisis, et le choix de lun ninuence pas celui des autres. Direntes mthodes dchantillonnage alatoire existent : lchantillonnage alatoire et simple : le choix se fait parmi tous les individus de la population (au sens statistique), qui ne forme quun grand ensemble lchantillonnage strati : si la population est trs htrogne, elle peut tre divise en sous - ensembles exclusifs (ou strates). Au sein de ces strates lchantillonnage est ensuite alatoire et simple lchantillonnage en grappes : si les strates sont trs nombreuses, on en choisit certaines au hasard (les grappes). Au sein de ces grappes lchantillonnage est ensuite alatoire et simple lchantillonnage par degrs : il est une gnralisation de lchantillonnage en grappes (qui est en fait un chantillonnage du premier degr). Au sein de la population on choisit des grappes primaires , puis lintrieur de celles-ci des grappes secondaires (toujours au hasard), et ainsi du suite. . . Au dernier niveau lchantillonnage est alatoire et simple 2. lchantillonnage systmatique : un premier individu est choisi alatoirement, puis les autres sont choisis de faon rgulire partir du prcdent (dans le temps ou lespace). Lanalyse de ce type dchantillonnage, qui fait appel la statistique spatiale ou lanalyse des sries chronologiques, nest pas aborde dans cet ouvrage. Il est important didentier la mthode mise en uvre car les analyses statistiques doivent tre adaptes. Seule lanalyse de plans dchantillonnage alatoires est aborde dans cet ouvrage.

3. Le plan dexprience
On utilise un plan dexprience lorsque lon raliste une tude par exprimentation, i.e. lorsque lon provoque volontairement les faits tudier. Le plan dexprience comprend notamment le(s) facteur(s) faire varier, le nombre de rptitions raliser et le dispositif exprimental mettre en place. Lassociation des classes de plusieurs facteurs constitue un traitement. Il existe de nombreux types de dispositif exprimental, dont les principaux sont : le plan dexprience compltement alatoire : chaque individu (au sens statistique) est aect un traitement alatoirement le plan dexprience en blocs alatoires complets : sil y a (ou sil peut y avoir) une grande htrognit entre les individus, ils sont runis en groupes aussi homognes que possibles (ou blocs). Au sein de ces blocs chaque individu est ensuite aect alatoirement un traitement, de manire ce que tous les traitements soient prsents dans chacun des blocs le plan dexprience en blocs alatoires incomplets : dans ce cas tous les traitements ne sont pas prsents dans chacun des blocs le plan dexprience en split - plot : le principe du split - plot est le plus souvent associ celui des blocs alatoires complets. Dans ce cas, dans chacun des blocs sont crs autant de sous - blocs quil y a de classes au premier facteur tudi. A chacun de ces sous - blocs est associe une classe. Puis chaque sous - bloc est divis en autant dunits quil y a de classes au second facteur tudi. A chacun de ces sous - sous - blocs est associe une classe. Pour plus de deux facteurs, la situation est plus complexe. Quelle que soit la mthode employe, elle doit tre clairement dnie car elle doit tre prise en compte dans les analyses statistiques.

4. La dtermination de la taille de lchantillon


Il existe un lien entre le seuil de rejet du test statistique utilis (voir ches 29 et 30), la puissance de ce test (voir che 32), la dirence entre les chantillons pour le paramtre mesur et la taille des chantillons. Dterminer la taille de lchantillon constituer passe donc par xer les autres paramtres. Ceci implique deux choses importantes : choisir avant de dmarrer ltude les types de test qui vont tre utiliss (ce qui oblige bien identier les questions auxquelles ltude doit rpondre) et leur prcision avoir une ide de la variabilit naturelle du paramtre mesur et / ou de la dirence minimale dtecter. Ceci passe soit par une tude de la bibliographie, soit par la consultation de spcialistes, soit par la ralisation dun pr - chantillonnage ou dune pr - exprience. Dans R, les fonctions power() et pwr() (la seconde tant contenue dans le package pwr) dterminent le paramtre souhait quand les autres sont xs, pour plusieurs tests. Toutes les fonctions dcrites sont bases sur le mme principe : le paramtre dterminer doit avoir comme valeur NULL tandis que tous les autres doivent tre xs. Comparaison de deux moyennes (test t de Student) power.t.test(n,delta,sd,sig.level,power,type) avec : n : eectif (identique pour les deux chantillons) delta : dirence minimale dtecter entre les deux moyennes sd : cart-type (identique pour les deux chantillons) sig.level : seuil de rejet (gnralement 0,05) power : puissance minimale du test (gnralement 80 ou 90 %) type : type de test ("two.sample" pour deux moyennes observes, "one.sample" pour une moyenne observe comparer avec une thorique, "paired" pour deux moyennes observes en sries apparies). pwr.t.test(n,d,sig.level,power,type) avec : d : A B (dirence des moyennes sur cart - type). Utiliser pwr.t2n.test(n1,n2,d,sig.level,power) pour deux chantillons de taille dirente (la fonction ne gre pas les sries apparies).

Comparaison de plus de deux moyennes (ANOVA) power.anova.test(groups,n,between.var,within.var,sig.level,power) avec : groups : nombre de modalits comparer between.var : variance intergroupe minimale dtecter within.var : variance intragroupe (identique pour toutes les modalits). La fonction ne gre pas les sries apparies. pwr.anova.test(k,n,f,sig.level,power) avec : k : nombre de modalits comparer f : taille minimale de leet dtecter. La fonction ne gre pas les sries apparies. Comparaison de deux proportions power.prop.test(n,p1,p2,sig.level,power) avec p1, p2 : proportion observe dans chaque chantillon. pwr.2p.test(h,n,sig.level,power) avec h : taille minimale de leet dtecter (en proportion). Utiliser pwr.2p2n.test(h,n1,n2,sig.level,power) pour deux chantillons de taille dirente. Corrlation linaire entre deux sries de donnes pwr.r.test(n,r,sig.level,power) avec r : coecient de corrlation linaire de Pearson minimum mettre en vidence.

5. Construction du tableau de donnes


La construction dun tableau de donnes correctement structur est une tape importante de ltude, car si elle est mal ralise elle peut mener des rsultats faux, ou le plus souvent des erreurs une fois dans R. Cette construction ncessite de se poser une question essentielle : quelles sont les variables prises en compte dans ltude ? Y rpondre implique didentier les variables quantitatives et les facteurs, ainsi que les classes des facteurs. Si les choses sont claires, lanalyse statistique le sera galement. Dune manire gnrale, il est conseill de toujours construire son tableau de donnes dans un tableur. Cela permet denregistrer le jeu de donnes dans un chier externe R, et donc de toujours pouvoir y revenir puisque R ne modie pas les chiers externes (sauf si on lui demande explicitement). Une fois dans le tableur, la rgle est simple : les individus doivent tre placs en lignes et les variables en colonnes. Il est conseill de donner un titre chaque colonne, qui deviendra le nom de la variable dans R. Il est indispensable cependant de respecter certaines rgles : les noms de variable ne doivent contenir ni espace, ni caractre accentu, ni symbole (ceci est une rgle pour tous les noms dobjet dans R). Si un nom de variable doit contenir deux mots, ils peuvent tre spars par un point (.) ou un tiret bas (_). Mieux vaut galement privilgier les noms courts mais clairs, car une fois dans R taper sans cesse des noms de variable longs est vite fastidieux. Le tableau de donnes doit absolument obir une autre rgle : aucune case ne doit tre vide. Sil manque une donne pour un individu, il faut se demander do elle vient : si cest une donne inutilisable (mesure rate, mal retranscrite. . .), cest normal. On dit alors quon a une donne manquante , que lon doit noter NA (pour Not Available, i.e. donne manquante). Le tableur comme R reconnaissent le NA, quils interprtent correctement si la situation est autre, cest que le tableau est mal construit et quen particulier les variables nont pas t bien dnies. La rexion simpose donc pour identier les variables et reconstruire un tableau de donnes. Si des analyses dans R doivent se faire uniquement sur un sous - ensemble du tableau de donnes, ou si pour certaines analyses le tableau de donnes serait plus facile utiliser sil tait construit autrement, il est conseill de construire plusieurs tableaux de donnes. Il est toujours possible de manipuler le tableau initial dans R pour en extraire une partie ou pour le transformer, mais il est clairement plus facile (et surtout moins source derreur) de le faire en amont, dans le tableur.

6. Importation du tableau de donnes dans R


Il existe de nombreuses mthodes pour importer ses donnes dans R. Une seule est prsente ici, qui est la fois trs simple, fonctionne dans la plupart des situations et peut tre utilise sur toutes les plates - formes. La procdure se fait en trois tapes : 1. dans le tableur, slectionner toutes les cases constituant le tableau de donnes 2. copier ce tableau dans le bloc - notes et enregistrer le chier en .txt 3. dans R, charger le tableau de donnes grce la fonction read.table() et le stocker dans un objet : tableau<-read.table(fichier,dec=",") o fichier est le nom du chier texte (et ventuellement du chemin qui y mne), entre guillemets. R tant un logiciel anglo - saxon, le sparateur dcimal quil utilise est le point. Or dans les tableurs franais (et donc dans le chier texte) le sparateur dcimal est la virgule. Il est donc ncessaire de prciser R quil interprte la virgule comme sparateur dcimal, do largument dec=",". Si les colonnes du tableau de donnes ont un titre, qui doit donc tre interprt comme le nom de la variable, ajouter largument header=TRUE. Une fois le tableau import, il est indispensable de vrier quil ny a pas eu derreur pendant son chargement. Pour cela appeler le rsum du tableau via summary(tableau). R renvoie un rsum de chaque variable : pour une variable numrique, R donne des indications sur sa distribution : minimum, 1er quartile, mdiane, moyenne, 3me quartile et maximum pour un facteur, R donne le nombre dindividus par classe. Si un facteur est cod numriquement (par exemple un facteur binaire ou un facteur ordinal), R linterprte comme une variable numrique. Pour transformer la variable en facteur : tableau$variable<-factor(tableau$variable) o variable est le nom de la variable.

7. i Installer et charger un package


Installer un package Il est ncessaire dtre connect internet pour installer un package, car celui - ci doit tre tlcharg. Linstallation ne se fait quune seule fois. Si R est utilis depuis la console R, utiliser : install.packages("package") o package est le nom du package dsir, entre guillemets. Il est demand ensuite de choisir un serveur, Lyon1 est bien rput en France. Si R est utilis depuis la console systme, la procdure se fait en deux tapes : 1. tlcharger les sources du package partir de son site de dpt, le site principal tant le CRAN (the Comprehensive R Archive Network) : http ://cran.r-project.org rubrique Packages 2. installer le package en tapant R CMD INSTALL package o package est le nom du chier tar.gz contenant les sources. La procdure explique ici est la plus simple, mais il existe de nombreuses variantes. Voir la R FAQ pour plus dinformations : http ://cran.rproject.org/doc/manuals/R-admin.html#Installing-packages. Charger un package Le chargement dun package doit se faire chaque session o il doit tre utilis. La commande est simple : library(package) o package est le nom du package, sans guillemets. Mettre jours les packages installs Pour mettre jour automatiquement tous les packages installs (chargs ou non), utiliser : update.packages(). R demande une conrmation pour chaque package dont une mise jour est disponible, puis tlcharge toutes les mises jour demandes.

8. i Citer R et ses packages


Lors de lcriture dun document scientique, il est une vidence de citer ses sources bibliographiques. Il doit galement en tre une de citer les logiciels utiliss lors de la ralisation de ltude. R est certes gratuit, mais il nen reste pas moins que des dizaines de personnes simpliquent dans son dveloppement, et quil est normal de faire honneur leur travail en les citant. R doit tre cit ds lors quil est utilis. Pour savoir comment le citer, il sut de taper citation() et de recopier ce qui gure aprs To cite R in publications use:. Concernant les packages, la rgle est de citer tous ceux qui ne sont pas chargs au dmarrage de R. Cela comprend les packages installs avec R mais non chargs automatiquement, ainsi que ceux installs par lutilisateur. Pour savoir comment les citer, utiliser : citation("package") o package est le nom du package, entre guillemets. Recopier ce qui gure aprs To cite the xxx package in publications use:.

9. Graphiques de dispersion : la fonction stripchart()


Le graphique trac reprsente toutes les donnes individuelles dun vecteur, dune matrice ou dun tableau. Il permet donc davoir un aperu de la variabilit des donnes et didentier les observations aberrantes. Pour reprsenter un vecteur : stripchart(vecteur). Pour reprsenter plusieurs vecteurs : stripchart(list(vecteur1,vecteur2,...)). Pour donner un nom aux vecteurs sur le graphe, ajouter largument group.names=c("Nom1","Nom2",...). Pour reprsenter des donnes en fonction dun facteur : stripchart(donnees~facteur) o les deux objets sont des vecteurs contenant la valeur de chaque individu (dans le mme ordre). Pour reprsenter les donnes verticalement, ajouter largument vertical= TRUE. Pour que les valeurs identiques ne se superposent pas, ajouter largument method="jitter" (par dfaut method="overplot").

10. Histogrammes : la fonction hist()


Le graphique trac divise les donnes contenues dans un vecteur en classes, et reprsente chaque classe en eectif ou densit. Il permet donc davoir un aperu de la distribution des donnes. Pour reprsenter les classes en eectifs : hist(vecteur). Pour reprsenter les classes en densits : hist(vecteur,freq=FALSE) (freq=TRUE par dfaut, ce qui reprsente les eectifs). Pour ajouter une courbe de densit : lines(density(vecteur)). Pour ajouter une courbe de distribution : lines(seq2(vecteur),dloi(seq2(vecteur),par)) o loi est la loi de probabilit choisie et par ses paramtres spars par une virgule (calculs partir des donnes ; voir ches 19 28). La fonction seq2() est contenue dans le package RVAideMemoire. Pour modier le nombre de classes, ajouter largument breaks=n o n est le nombre de coupures souhaites (il y a donc n + 1 classes). La fonction considre par dfaut quune valeur gale la borne infrieure dune classe appartient la classe prcdente, et quune valeur gale la borne suprieure appartient cette classe. Pour inverser cette exclusivit ajouter largument right=FALSE (par dfaut right=TRUE).

11. Botes moustaches : la fonction boxplot()


Le graphique trac reprsente de faon simplie la dispersion des donnes contenues dans un vecteur. Il permet donc davoir un aperu de la distribution et de la variabilit des donnes, et didentier les observations aberrantes. Pour reprsenter un vecteur : boxplot(vecteur). Le trait pais reprsente la mdiane, la bote est forme par les valeurs des 1er et 3me quartiles, et les moustaches mesurent maximum 1,5 fois la longueur de linterquartile (3me 1er). Les valeurs au - del des moustaches sont reprsentes individuellement. Pour reprsenter plusieurs vecteurs : boxplot(list(vecteur1,vecteur2, ...)). Pour donner un nom aux botes, ajouter largument names=c("Nom1","Nom2",...). Pour reprsenter des donnes en fonction dun facteur : boxplot(donnees~ facteur) o les deux objets sont des vecteurs contenant la valeur de chaque individu (dans le mme ordre). Pour reprsenter les botes horizontalement, ajouter largument horizontal=TRUE.

12. La rduction des donnes une dimension


Les paramtres suivants permettent de rduire une srie de donnes quelques valeurs apportant une information gnrale. Paramtres de position Ils permettent de donner un ordre de grandeur des donnes. Moyenne : mean(serie) o serie est un vecteur contenant la valeur de chaque individu. Mdiane : median(serie). Mode : utiliser la fonction mod() du package RVAideMemoire : mod(serie). Si les vecteurs contiennent des donnes manquantes (NA), ajouter largument na.rm=TRUE aux fonctions mean() et median(). La fonction mod() gre par dfaut les donnes manquantes. Paramtres de dispersion Ils permettent destimer la variabilit des donnes autour des paramtres de position. Variance : var(serie). Ecart - type (standard deviation) : sd(serie). Coecient de variation : utiliser la fonction cv() du package RVAideMemoire : cv(serie). Le coecient est par dfaut exprim en valeur absolue et en pourcentage. Si les vecteurs contiennent des donnes manquantes (NA), ajouter largument na.rm=TRUE aux fonctions var() et sd(). La fonction cv() gre par dfaut les donnes manquantes. Les fonctions var() et sd() calculent la variance et lcart - type non biaiss (sur la base de n 1 et non n, si n est leectif de lchantillon).

13. Nuages de points : la fonction plot()


La fonction plot() permet de reprsenter les valeurs de deux variables numriques pour chaque individu, dans un graphe du type y = f (x). Elle permet donc davoir un aperu de la liaison quil peut exister entre ces variables. Elle peut tre utilise avec deux vecteurs, une matrice deux colonnes ou un tableau. Pour reprsenter deux vecteurs x et y contenant la valeur de chaque individu pour les deux variables (dans le mme ordre) : plot(x,y) ou plot(y~x). Pour ajouter une droite du type y = ax + b : abline(b,a). Pour ajouter une droite de rgression linaire au sens des moindres carrs (voir che 63) : abline(lm(y~x)). Pour ajouter une droite de rgression linaire au sens des moindres rectangles (voir che 64), utiliser la fonction least.rect() du package RVAideMemoire : abline(least.rect(x,y)). Pour ajouter une courbe de tendance du nuage de points : panel.smooth(x, y) Pour ajouter une droite horizontale : abline(h=ordonnee). Pour ajouter une droite verticale : abline(v=abscisse).

14. La rduction des donnes deux dimensions


Les paramtres suivants permettent de rduire deux sries de donnes quelques valeurs apportant une information gnrale sur la liaison qui peut les unir. Pour deux vecteurs x et y contenant la valeur de chaque individu pour chaque srie (dans le mme ordre) : Covariance : cov(x,y). Coecient de corrlation linaire de Pearson (voir che 60) : cor(x,y). Les vecteurs doivent avoir la mme taille (i.e. contenir autant de valeurs). Sils contiennent des donnes manquantes (NA), ajouter largument use="complete.obs" (qui ne considre que les couples de donnes complets) aux fonctions cov() et cor(). La rgression linaire au sens des moindres carrs (voir che 63) sutilise dans le cas o la variable y (dite dpendante ou expliquer) varie en fonction de la variable x (dite indpendante ou explicative). Pour rcuprer les paramtres de la droite : lm(y~x)$coefficients. La premire valeur (Intercept) correspond lordonne lorigine, la seconde au coecient directeur de la droite. La fonction lm() construit un modle linaire reliant x et y au sens des moindres carrs. La rgression linaire au sens des moindres rectangles (voir che 64) sutilise dans le cas o les deux variables sont considres sur un pied dgalit (elles sont dites interdpendantes). Pour rcuprer les paramtres de la droite, utiliser la fonction least.rect() du package RVAideMemoire : least.rect(x,y)$coefficients. La premire valeur (Intercept) correspond lordonne lorigine, la seconde au coecient directeur de la droite. La fonction least.rect() construit un modle linaire reliant x et y au sens des moindres rectangles. Les vecteurs x et y doivent avoir la mme taille pour les deux fonctions lm() et least.rect(). Ils peuvent contenir des donnes manquantes (NA).

15. LAnalyse en Composantes Principales (ACP)


Conditions : les variables doivent tre quantitatives ou ordinales. Les donnes doivent tre contenues dans un tableau avec en colonnes les variables (avec un titre) et en ligne les individus. La 1re case du tableau (en haut gauche) doit tre vide. Le tableau ne doit pas contenir de donnes manquantes (NA). Pour supprimer les lignes qui en possdent : tableau2<-na.omit(tableau), o tableau est le tableau de dpart. LACP se prte mieux lanalyse de relations linaires et de variables ayant une distribution symtrique. Pour observer ces caractres, utiliser pairs(tableau2,panel=panel.smooth) dune part et hist() (voir che 10) avec chacune des variables dautre part. Si besoin transformer les variables (voir che 40). Pour visualiser la matrice des corrlations linaires entre les variables : cor(tableau2) (utilise dans le cas de lACP rduite). Pour visualiser la matrice des variances - covariances : cov(tableau2) (utilise dans le cas de lACP non rduite). LACP est ralise grce la fonction dudi.pca() du package ade4. Par dfaut elle est centre - rduite, pour changer ces paramtres ajouter les arguments center=FALSE (pour ne pas centrer) et/ou scale=FALSE (pour ne pas rduire). En gnral, lACP est rduite quand les variables nont pas le mme ordre de grandeur (ou unit de mesure), non rduite dans le cas contraire (elles sont donc directement comparables). Lorsque la commande acp<-dudi.pca(tableau2) est passe, R renvoie le graphe des valeurs propres (ou pouvoirs de synthse) associes chaque variable de synthse (ou axe ou composante principale), et demande le nombre daxes slectionner. Le choix peut se faire sur la base du critre de Kaiser (i.e. ne choisir que les axes dont la valeur propre est suprieure 1) ou sur un critre x avant lanalyse, savoir le nombre de composantes principales expliquant un minimum de x % de linformation (ou inertie totale) contenue dans le tableau initial. Ce pourcentage dinertie est calcul en divisant la valeur propre dun axe par le nombre daxes possibles (gal au nombre de variables du tableau de dpart).

Pour visualiser la corrlation entre chaque variable et une composante principale : score.pca(acp,xax=num) o num est le numro de laxe choisi. Le diagnostic de lACP se fait grce la fonction inertia.dudi(acp), qui renvoie le tableau $TOT. Celui - ci contient la contribution linertie de chaque composante principale (proportions cumules dans la colonne ratio, multiplier par 100 pour le pourcentage). En ajoutant largument col.inertia=TRUE la fonction on obtient trois tableaux supplmentaires : $col.abs : donne la contribution linertie de chaque variable du tableau de dpart, i.e. leur importance respective dans la construction des axes (ce qui aide linterprtation de ces axes). Diviser par 100 pour obtenir les pourcentages. La somme de chaque colonne est gale 100 $col.rel : donne la part dinformation apporte par chaque axe pour chaque variable (diviser la valeur absolue par 100 pour obtenir les pourcentages). Ne pas tenir compte de la 3me colonne $col.cum : valeurs absolues de $col.rel cumules (diviser par 100 pour obtenir les pourcentages). Donne donc la part totale dinformation apporte par tous les axes retenus pour chaque variable, autrement dit la qualit de la reprsentation de chaque variable. Ajouter largument row.inertia=TRUE la fonction inertia.dudi() pour obtenir le diagnostic pour chaque individu ($row.abs, $row.rel et $row.cum). Pour visualiser graphiquement les relations entre : les individus : s.label(acp$li), le tableau $li de lACP donnant les coordonnes des individus dans les dirents plans factoriels. Pour slectionner un plan factoriel, ajouter les arguments xax=num1 et yax=num2 o num1 est le numro du 1er axe choisi et num2 celui du 2nd (il faut avoir slectionn au moins deux axes au dpart de lACP). Par convention on choisit pour laxe horizontal celui des deux ayant la meilleure contribution linertie totale. Des individus loigns sur le graphe le sont dans le tableau initial (mais faire attention aux contributions relatives $row.rel du diagnostic). Pour ajouter comme information supplmentaire une variable qualitative dnissant des groupes dindividus, utiliser s.class(dfxy=acp$li,fac= facteur) o facteur est un vecteur contenant la modalit de chaque individu (dans le mme ordre que les autres variables). Pour donner une couleur chaque groupe ajouter largument col=couleur o couleur est un vecteur contenant la couleur de chaque modalit, dans lordre alphabtique des modalits. Prciser le plan factoriel grce aux arguments xax et yax les variables : ACP rduite : s.corcircle(acp$co) trace le cercle des corrlations (le tableau $co de lACP donne les coordonnes des variables dans les dirents plans factoriels), o la longueur des ches indique la part de leur information reprsente par les deux axes (contributions

relatives cumules $col.cum du diagnostic). Langle entre deux ches reprsente la corrlation qui les lie : angle aigu = positive ; angle droit = nulle ; angle obtus = ngative ACP non rduite : s.arrow(acp$co) o la longueur des ches reprsente la contribution linertie de chaque variable (contributions absolues $col.abs du diagnostic). Les relations entre variables sinterprtent de la mme faon que pour lACP rduite, mais cette fois en terme de covariances et non de corrlations. Pour reprsenter la fois les individus et les variables dans un plan factoriel, utiliser scatter(acp). Pour ajouter comme information supplmentaire une variable qualitative dnissant des groupes dindividus, utiliser la procdure suivante : > scatter(acp,clab.row=0,posieig="none") > s.class(dfxy=acp$li,fac=facteur,col=couleur,add.plot=TRUE) Prciser le plan factoriel grce aux arguments xax et yax. Lchelle des ches sur la double reprsentation individus - variables est arbitraire, elle peut tre change sans que cela ne change linterprtation. Pour linterprtation, nutiliser que les individus les plus loigns du centre du nuage de points et les ches les plus longues pour les variables, car ce sont eux qui sont le mieux reprsents par les axes. Un 1er axe trs corrl de faon positive avec toutes les variables est souvent le signe dun eet taille . Il convient dans ce cas de se placer dans des plans factoriels ne comprenant pas le 1er axe pour linterprtation.

16. LAnalyse Factorielle des Correspondances (AFC)


Conditions : les variables doivent tre au nombre de deux et qualitatives. Les donnes doivent tre en eectifs et organises dans un tableau de contingence, du type : Variable B Classe 1 ... Classe c Variable A Classe 1 ... Classe k

Ce tableau est obtenu de la manire suivante : tableau<-table(variableA,variableB) o variableA et variableB sont des vecteurs contenant la valeur de chaque individu pour la chaque variable (dans le mme ordre). LAFC est sensible aux eectifs faibles, aussi regrouper les classes quand cela est ncessaire. Commencer par calculer la valeur du 2 du test dindpendance des deux variables (voir che 59), ralis partir du tableau initial : chisq.test(tableau)$statistic. LAFC est ralise grce la fonction dudi.coa() du package ade4. Lorsque la commande afc<-dudi.coa(tableau) est passe, R renvoie le graphe des valeurs propres (ou pouvoirs de synthse) associes chaque variable de synthse (ou axe) et demande le nombre daxes slectionner. La part de linertie (ou information totale contenue dans le tableau initial) explique par chaque axe se calcule simplement par : valeur propre eectif total 2 On peut choisir le nombre daxes expliquant ensemble x % de linertie, x tant choisi lavance, ou un nombre daxes dtermin lavance. Le diagnostic de lAFC se fait grce la fonction inertia.dudi(afc), qui renvoie le tableau $TOT. Celui - ci contient la contribution linertie de chaque axe (proportions cumules dans la colonne ratio, multiplier par 100 pour le pourcentage). En ajoutant largument col.inertia=TRUE la fonction on obtient trois tableaux supplmentaires : $col.abs : donne la contribution linertie de chaque colonne du tableau de dpart, i.e. leur importance respective dans la construction des axes (ce qui aide linterprtation de ces axes). Diviser par 100 pour obtenir les pourcentages. La somme de chaque colonne est gale 100 % $col.rel : donne la part dinformation apporte par chaque axe pour chaque colonne (diviser la valeur absolue par 100 pour obtenir les pourcentages). Ne pas tenir compte de la 3me colonne

$col.cum : valeurs absolues de $col.rel cumules (diviser par 100 pour obtenir les pourcentages). Donne donc la part totale dinformation apporte par tous les axes retenus pour chaque colonne, autrement dit la qualit de la reprsentation de chaque colonne. Ajouter largument row.inertia=TRUE la fonction inertia.dudi() pour obtenir le diagnostic pour chaque ligne ($row.abs, $row.rel et $row.cum). Pour visualiser graphiquement le rsultat de lAFC (donc la structure du tableau), utiliser scatter(afc,posieig="none"). Pour slectionner un plan factoriel, ajouter les arguments xax=num1 et yax=num2 o num1 est le numro du 1er axe choisi et num2 celui du 2nd (il faut avoir slectionn au moins deux axes au dpart de lAFC). Par convention on choisit pour laxe horizontal celui des deux ayant la meilleure contribution linertie totale. La proximit des modalits reprsente leur liaison plus ou moins forte dans le tableau initial (mais faire attention aux contributions relatives $col.rel et $row.rel du diagnostic). La contribution des lignes et des colonnes la construction des axes ne peut pas se lire sur le graphique (leur loignement de lorigine nest pas reprsentatif de leur contribution linertie des axes). Il est donc indispensable de lire en dtail le diagnostic. Pour interprter les axes il peut tre utile dutiliser score.coa(afc,xax= num,dotchart=TRUE) o num est le numro de laxe reprsenter. Le graphique montre la rpartition des modalits sur laxe choisi. Utiliser abline(v=0) pour ajouter une ligne marquant lorigine de laxe.

17. LAnalyse en Composantes Multiples (ACM)


Conditions : les variables doivent tre qualitatives (ordinales ou nominales). Les donnes doivent tre contenues dans un tableau avec en colonnes les variables (avec un titre) et en ligne les individus. La 1re case du tableau (en haut gauche) doit tre vide. Pour intgrer des variables quantitatives, regrouper les valeurs en classes (les variables deviennent donc qualitatives). Le tableau ne doit pas contenir de donnes manquantes (NA). Pour supprimer les lignes qui en possdent : tableau2<-na.omit(tableau), o tableau est le tableau de dpart. Il est indispensable de raliser une analyse prliminaire de chaque variable, an de voir si toutes les classes sont aussi bien reprsentes ou sil existe un dsquilibre. Pour cela utiliser plot(variable) o variable est la variable choisie. LACM est sensible aux eectifs faibles, aussi regrouper les classes quand cela est ncessaire. De mme, si les variables ne sont pas trop nombreuses, raliser un test du 2 dindpendance deux - - deux est une premire approche : chisq.test(table(variable1,variable2)) (voir che 59). LACM est ralise grce la fonction dudi.acm() du package ade4. Lorsque la commande acm<-dudi.acm(tableau) est passe, R renvoie le graphe des valeurs propres (ou pouvoirs de synthse) associes chaque variable de synthse (ou axe) et demande le nombre daxes slectionner. Il est dicile dtablir un critre de choix pour lACM, ne pas multiplier les axes est en tout cas bnque pour linterprtation (ce qui est aussi valable pour les autres analyses multivaries). Le diagnostic de lACM se fait grce la fonction inertia.dudi(acm), qui renvoie le tableau $TOT. Celui - ci contient la contribution linertie (ou information totale) de chaque axe (proportions cumules dans la colonne ratio, multiplier par 100 pour le pourcentage). Pour reprsenter les rsultats de lACM, utiliser scatter(acm). Les rsultats sont spars pour chaque variable, toutes reprsentes sur le mme plan factoriel. Pour slectionner un plan factoriel, ajouter les arguments xax=num1 et yax=num2 o num1 est le numro du 1er axe choisi et num2 celui du 2nd (il faut avoir slectionn au moins deux axes au dpart de lACM). Par convention on choisit pour laxe horizontal celui des deux ayant la meilleure contribution linertie totale. Les modalits de chaque variable sont reprsentes par des ellipses portant leur nom. Pour rendre le graphique plus clair et donner une couleur chaque modalit, ajouter largument col=couleur o couleur est un vecteur contenant autant de noms (ou numros) de couleurs quil y a de modalits possibles.

Pour ne reprsenter quune seule variable, le mme rsultat est obtenu par s.class(dfxy=acm$li,fac=variable,col=couleur,cstar=0,sub="nom") o variable est la variable choisie et nom son nom (entre guillemets). Choisir le plan factoriel laide des arguments xax et yax. Le tableau acm$cr contient les rapports de corrlation (variant de 0 1) entre les variables et les axes choisis au dpart de lACM. Pour reprsenter graphiquement ces rapports, utiliser barplot(acm$cr[,num],names.arg=row.names(acm$cr),las=2) o num est le numro de laxe reprsenter. Pour linterprtation des axes, se concentrer sur les variables les plus structurantes, i.e. dont le rapport de corrlation est le plus proche de 1. Une aide linterprtation est fournie par la fonction score.acm(acm,xax=num) o num est le numro de laxe reprsenter. Le graphique montre la rpartition des modalits de chaque variable sur laxe choisi. Pour slectionner les variables reprsenter, ajouter largument which.var=variables o variables est un vecteur contenant le numro des variables choisies, i.e. le numro des colonnes correspondantes dans le tableau initial. LACM est clairement une analyse plus dicile interprter que lACP ou lAFC. Aussi, il est bon de limiter la dicult en ne considrant pas des dizaines de variables mais en se limitant aux questions essentielles. De plus, lACM est sensible aux modalits contenant un faible eectif et aux variables contenant un grand nombre de modalits. Mieux vaut donc regrouper ces modalits en classes plus larges lorsque lun de ces deux cas se prsente.

18. LAnalyse mixte de Hill et Smith


Conditions : les variables peuvent tre quantitatives ou qualitatives. Les donnes doivent tre contenues dans un tableau avec en colonnes les variables (avec un titre) et en ligne les individus. La 1re case du tableau (en haut gauche) doit tre vide. Le tableau ne doit pas contenir de donnes manquantes (NA). Pour supprimer les lignes qui en possdent : tableau2<-na.omit(tableau), o tableau est le tableau de dpart. Il est indispensable de raliser une analyse prliminaire de chaque variable an dobserver la distribution des valeurs (variables quantitatives) ou leur rpartition entre les direntes classes (variables qualitatives). Utiliser pour cela les fonctions hist(), plot() et / ou boxplot(), selon les variables (voir ches 10, 11 et 13). Lanalyse mixte est ralise grce la fonction dudi.mix() du package ade4. Lorsque la commande amix<-dudi.mix(tableau2) est passe, R renvoie le graphe des valeurs propres (ou pouvoirs de synthse) associes chaque variable de synthse (ou axe) et demande le nombre daxes slectionner. Il est dicile dtablir un critre de choix pour lanalyse mixte, ne pas multiplier les axes est en tout cas bnque pour linterprtation (ce qui est aussi valable pour les autres analyses multivaries). Le pourcentage dinertie (ou de linformation totale) expliqu par chaque axe est calcul en divisant la valeur propre dun axe par le nombre daxes possibles. Le diagnostic de lACM se fait grce la fonction inertia.dudi(amix), qui renvoie le tableau $TOT. Celui - ci contient la contribution linertie de chaque axe (proportions cumules dans la colonne ratio, multiplier par 100 pour le pourcentage). Pour reprsenter les rsultats de lanalyse mixte, la fonction scatter(amix) peut tre utilise. Elle reprsente dans le plan factoriel les individus, les variables quantitatives comme dans une ACP (voir che 15) et les variables qualitatives comme dans une ACM (voir che 17). Pour slectionner un plan factoriel, ajouter les arguments xax=num1 et yax=num2 o num1 est le numro du 1er axe choisi et num2 celui du 2nd (il faut avoir slectionn au moins deux axes au dpart de lanalyse). Par convention on choisit pour laxe horizontal celui des deux ayant la meilleure contribution linertie totale. Cette reprsentation peut cependant tre illisible. Il vaut mieux utiliser les fonctions scat.mix.numeric() et scat.mix.categorical() du package RVAideMemoire. La fonction scat.mix.numeric(amix) reprsente les variables quantitatives sur un cercle des corrlation (comme en ACP, voir che 15), tandis que la fonction scat.mix.categorical(amix) reprsente les

variables qualitatives la manire dune ACM (voir che 17). Le tableau amix$cr contient les valeurs des corrlations (de 0 1) qui lient les variables de synthse aux variables initiales. Pour les reprsenter graphiquement, utiliser barplot(amix$cr[,num],names.arg=row.names(amix$cr),las=2) o num est le numro de laxe reprsenter. Pour linterprtation des axes, se concentrer sur les variables les plus structurantes, i.e. dont le rapport de corrlation est le plus proche de 1. Une aide linterprtation est fournie par la fonction score(amix,xax=num) o num est le numro de laxe reprsenter. L encore la reprsentation est de type ACP ou ACM selon la nature des variables. Pour slectionner les variables reprsenter, ajouter largument which.var=variables o variables est un vecteur contenant le numro des variables choisies, i.e. le numro des colonnes correspondantes dans le tableau initial.

19. Lois de probabilit discontinues gnralits


Ces lois sappliquent des variables quantitatives discrtes. Paramtres : k : chaque valeur possible rencontre dans la population par la variable discrte X. Egalement appele quantile f (k) : frquence, ou probabilit, associe chaque valeur de la variable discrte X. Egalement appele distribution de probabilit de X ou fonction de masse de X. Comprise entre 0 et 1 F (k) : somme des probabilits f (k) situes droite ou gauche de k, suivant la situation. Egalement appele fonction de rpartition de X. On note F (k)droite = P (X > k) et F (k)gauche = P (X k). Comprise entre 0 et 1. Dans R : dY() : donne la probabilit f (k) pour une distribution de type Y pY() : donne la fonction de rpartition F (k) pour une distribution de type Y. R considre par dfaut la rpartition gauche, prciser lower.tail=FALSE pour la rpartition droite qY() : donne la valeur k de la variable X correspondant une valeur de F (k) pour une distribution de type Y. R considre par dfaut la rpartition gauche de k, prciser lower.tail=FALSE pour la rpartition droite rY() : donne une srie de valeurs alatoires de la variable X pour une distribution de type Y.

20. La loi binomiale


La loi binomiale est la loi suivie par les rsultats de tirages alatoires lorsquil ny a que deux possibilits mutuellement exclusives de rsultat et que la probabilit dobtenir chaque possibilit est constante au cours de lexprience (population innie ou tirages avec remise). La loi donne la probabilit dobtenir k fois le rsultat A quand n tirages sont raliss. Ecriture : B(n, p) avec : n : nombre de tirages p : probabilit associe au rsultat A Dans R : dbinom(k,n,p) pbinom(k,n,p) qbinom(F(k),n,p) rbinom(x,n,p) avec x : nombre de valeurs gnrer

21. La loi de Poisson


La loi de Poisson est une limite de la loi binomiale (voir che 20) quand p tend vers 0 et n vers linni ( loi des vnements rares ). Lapproximation de la loi binomiale par la loi de Poisson est possible quand quand p < 0, 1 et n > 30. Sa moyenne est gale sa variance et vaut np (ou ). Ecriture : P (np) ou P () avec : n : nombre de tirages p : probabilit associe au rsultat rare Dans R : dpois(k,n*p) ou dpois(k,lambda) ppois(k,n*p) ou ppois(k,lambda) qpois(F(k),n*p) ou qpois(F(k),lambda) rpois(x,n*p) ou rpois(x,lambda) avec x : nombre de valeurs gnrer

22. La loi binomiale ngative


La loi binomiale ngative correspond la mme situation que la loi binomiale (voir che 20), mais elle donne la probabilit dobtenir r rsultats B avant dobtenir k rsultats A (approche par lchec). Ecriture : BN (k, p) avec : k : nombre de rsultats A dsirs p : probabilit associe au rsultat A Dans R : dnbinom(r,k,p) pnbinom(r,k,p) qnbinom(F(r),k,p) rnbinom(x,k,p) avec x : nombre de valeurs gnrer

23. Lois de probabilit continues gnralits


Ces lois sappliquent des variables quantitatives continues. Paramtres : xi : chaque valeur possible de la variable continue x. Egalement appele quantile f (xi ) : distribution de probabilit de la valeur xi . Egalement appele densit de probabilit de xi . Comprise entre 0 et 1 F (xi ) : aire sous la courbe situe droite ou gauche de xi , suivant la situation. Egalement appele fonction de rpartition de xi . On note F (xi )droite = P (x > xi ) et F (xi )gauche = P (x xi ). Comprise entre 0 et 1. Dans R : dY() : donne la densit de probabilit f (xi ) pour une distribution de type Y pY() : donne la fonction de rpartition F (xi ) pour une distribution de type Y. R considre par dfaut la rpartition gauche, prciser lower.tail=FALSE pour la rpartition droite qY() : donne la valeur xi de la variable x correspondant une valeur de F (xi ) pour une distribution de type Y. R considre par dfaut la rpartition gauche de k, prciser lower.tail=FALSE pour la rpartition droite rY() : donne une srie de valeurs alatoires de la variable x pour une distribution de type Y.

24. La loi normale


Ecriture : N (, ) avec : : moyenne de la variable x : cart-type de la variable x Cas particulier, la loi normale centre - rduite : N (0, 1) Dans R : dnorm(xi,mu,sigma) pnorm(xi,mu,sigma) qnorm(F(xi),mu,sigma) rnorm(z,mu,sigma) avec z : nombre de valeurs gnrer

25. La loi exponentielle


La loi exponentielle correspond souvent des vnements dont la probabilit de survenue diminue avec le temps. Elle est galement utilise pour modliser des dures de vie. Ecriture : exp() avec : paramtre de la loi (0 < < +) Dans R : dexp(xi,lambda) pexp(xi,lambda) qexp(F(xi),lambda) rexp(z,lambda) avec z : nombre de valeurs gnrer

26. La loi de 2
Ecriture : 2 () avec : nombre de degrs de libert (ddl), i.e. de paramtres indpendants impliqus dans la loi (0 < < +) Dans R : dchisq(xi,ddl) pchisq(xi,ddl) qchisq(F(xi),ddl) rchisq(z,ddl) avec z : nombre de valeurs gnrer

27. La loi de Fisher - Snedecor


Ecriture : F (1 , 2 ) avec : 1 : 1er nombre de degrs de libert (ddl) (0 < 1 < +) 2 : 2me nombre de ddl (0 < 2 < +) Dans R : df(xi,ddl1,ddl2) pf(xi,ddl1,ddl2) qf(F(xi),ddl1,ddl2) rf(z,ddl1,ddl2) avec z : nombre de valeurs gnrer

28. La loi de Student


Ecriture : t() avec : nombre de degrs de libert (ddl) (0 < < +) Dans R : dt(xi,ddl) pt(xi,ddl) qt(F(xi),ddl) rt(z,ddl) avec z : nombre de valeurs gnrer

29. Principe des tests statistiques et risques associs la conclusion


Principe de ralisation des tests statistiques : 1. poser une hypothse nulle H0 , de type rien signaler (ex : les moyennes A et B sont gales) ou valeur ponctuelle (ex : = 10, = 50 %) 2. poser une hypothse H1 , de telle manire que H0 et H1 soient exclusives (ex : les moyennes A et B sont direntes) 3. calculer la valeur de la Variable de Test (VT) 4. utiliser la valeur de la VT calcule pour dterminer une p - value, i.e. une probabilit dobtenir la valeur mesure (moyenne, pourcentage. . .) si H0 est vraie 5. conclure sur les deux hypothses poses grce cette p - value : si la p - value est suprieure au seuil x avant le test (5 % en gnral, voir che 30), ne pas rejeter H0 (donc rejeter H1 ) si la p - value est infrieure au seuil , rejeter H0 (donc accepter H1 ). Conclure sur les deux hypothses prsente deux risques : le risque de 1re espce ou risque : risque de rejeter de H0 si celle - ci est vraie le risque de 2me espce ou risque : risque de ne pas rejeter de H0 si celle - ci est fausse. Ralit (inconnue le plus souvent) H0 vraie H0 fausse Bonne dcision Erreur Erreur Bonne dcision

Dcision H0 non rejete H0 rejete

La probabilit associe au fait de rejeter H0 si celle - ci est fausse (soit 1) est appele puissance du test.

30. Le risque ou seuil de rejet


Il existe deux dnitions du risque : le seuil de rejet (ou seuil de signication) de lhypothse H0 : si la p value du test ralis est infrieure ce seuil, lhypothse H0 est rejete (la p - value est dite signicative), dans le cas contraire H0 nest pas rejete (la p - value est dite non signicative). Habituellement x 5 %, dans tous les cas il doit tre x avant la ralisation du test statistique la p - value du test statistique : le risque est gal la p - value, i.e. en rejetant H0 on prend le risque p de se tromper.

Xseuil : valeur de la Variable de Test (VT) X qui donne une fonction de rpartition droite gale au seuil (test unilatral droit). Xcalc : valeur de la VT X calcule partir de lchantillon test. A gauche lhypothse H0 est rejete, droite elle ne lest pas.

31. La correction du seuil de rejet


Si une srie de tests statistiques est ralise, avec chaque fois pour seuil de rejet de H0 (voir che 30), le risque global de rejeter H0 si celle - ci est vraie augmente. En eet, plus on eectue de tests, plus on a de chance de tomber sur un chantillon peu reprsentatif de la population dont il provient (donnant une p - value infrieure au seuil ). Il est donc ncessaire de corriger le seuil de rejet de chaque test lorsque plusieurs sont raliss, an que le risque global soit gal au souhait. Cette situation se prsente : lorsque les tests vont permettre de prendre une dcision unique, ds que lun deux au moins permet le rejet de H0 lorsque sont raliss une srie de tests deux - - deux, soit directement soit aprs une analyse globale (ANOVA, analyse de dviance, test du 2 dhomognit. . .). Plusieurs mthodes de correction existent, dont les trois suivantes : La technique de Bonferroni Si k tests sont eectus, la technique consiste simplement diviser le seuil de rejet global par k, donc considrer pour chaque test le seuil de rejet . k La technique squentielle de Holm La procdure se ralise en plusieurs tapes : 1. classer les p - values de tous les tests raliss par ordre croissant (p1 <. . .< pk ), k tant le nombre de tests eectus 2. rejeter H0 pour les tests dont la p - value satisfait la condition : seuil pi k+1i o i est le rang de la p - value aprs classement. La technique du False Discovery Rate (FDR) de Benjamini et Hochberg La procdure se ralise en plusieurs tapes : 1. classer les p - values de tous les tests raliss par ordre croissant (p1 <. . .< pk ), k tant le nombre de tests eectus 2. rejeter H0 pour les tests dont la p - value satisfait la condition : i k o i est le rang de la p - value aprs classement. pi seuil

La technique la plus stricte est celle de Bonferroni, la moins stricte celle du FDR. Cette dernire peut tre applique par dfaut. Dans tous les cas la mthode de correction du seuil de rejet de H0 doit tre dcide avant de raliser les tests. Dans R, si p est le vecteur contenant les p - values non corriges, utiliser la fonction p.adjust() pour rcuprer un vecteur avec les p - values corriges (dans le mme ordre) : p.adjust(p,method="bonferroni") pour la correction de Bonferroni p.adjust(p,method="holm") pour la correction de Holm p.adjust(p,method="BH") ou p.adjust(p,method="fdr") pour la correction de Benjamini et Hochberg (FDR).

32. Le risque et la puissance du test


Le risque est le risque de considrer lhypothse H0 comme acceptable (i.e. ne pas la rejeter) si celle - ci est fausse. Contrairement au risque , le risque ne peut pas tre x. En eet, si dpend de la distribution de la Variable de Test (VT) sous H0 (voir che 30), dpend de sa distribution sous H1 . Or cette distribution est inconnue, puisque lhypothse H1 regroupe une innit de distributions (ex : si lhypothse H1 est A = B , les deux moyennes peuvent direr dune innit de faons). La puissance dun test reprsente la probabilit de rejeter H0 si celle - ci est fausse (i.e. de faire le bon choix). Elle quivaut 1 , et est donc galement une variable dpendant de la distribution de la VT sous H1 , inconnue. Le risque et la puissance du test dpendent du seuil x :

Xseuil : valeur de la VT X qui donne une fonction de rpartition droite gale au seuil pour la distribution sous H0 (test unilatral droit). La puissance dun test augmente : quand augmente le seuil quand augmente leectif de lchantillon test (ce qui diminue ltalement de la distribution de la VT ou loigne les distributions de la VT sous H0 et H1 , selon le test) quand augmente lcart rel entre les paramtres (moyennes, proportions. . .) tests.

33. Lidentication des donnes aberrantes


Lidentication des valeurs aberrantes doit se faire avant tout visuellement (voir ches 9 et 11), cependant certains tests peuvent apporter une aide. Llimination dune valeur dune srie de donnes doit toutefois se faire sur des considrations techniques (erreur de mesure ou de retranscription de la mesure) ou biologiques (valeur improbable pour la variable mesure). Dans tous les cas, llimination des donnes aberrantes doit se faire avant tout autre test. Les fonctions suivantes sont toutes contenues dans le package outliers. Identication dune valeur au sein dune distribution Test du 2 : chisq.out.test(serie) o serie est un vecteur contenant une srie de donnes. La fonction teste la valeur extrme de la srie la plus loigne de la moyenne. Pour tester lautre valeur extrme, ajouter largument opposite=TRUE. Test de Dixon : la fonction dixon.test() a la mme syntaxe que la prcdente, avec le mme argument opposite. Identication dune moyenne au sein dun groupe de moyennes Test de Grubbs : grubbs.test(moyennes) o moyennes est un vecteur contenant la moyenne de chaque srie de donnes. Largument opposite peut aussi tre utilis. Pour travailler directement avec un tableau de donnes, utiliser grubbs.test(tapply(variable,facteur,mean)). La fonction tapply() calcule la moyenne de la variable variable par modalit du facteur facteur. Identication dune variance au sein dun groupe de variances Test de Cochran : cochran.test(variable~facteur). La fonction teste la variance la plus leve, pour tester la plus faible ajouter largument inlying=TRUE. Les deux vecteurs ne doivent pas contenir de donnes manquantes (NA).

34. Intervalle de conance et erreur standard


Moyennes Intervalle de conance : petit eectif (< 30 individus) : utiliser le module intervalle de conance du test de Mann - Whitney - Wilcoxon (test non paramtrique qui calcule en fait lintervalle de conance de la mdiane) : wilcox.test(serie,conf.int=TRUE)$conf.int o serie est un vecteur contenant la srie de donnes. Si les conditions du test de Mann - Whitney - Wilcoxon sont runies (voir che 54), mdiane et moyenne sont proches grand eectif (> 30 individus) : utiliser le module intervalle de conance du test t de Student (test paramtrique) : t.test(serie)$conf.int. Erreur standard : utiliser la fonction se() du package RVAideMemoire : se(serie). Pourcentages Quel que soit leectif, utiliser le module intervalle de conance du test binomial exact : binom.test(a,b)$conf.int o a est le nombre dindividus de la catgorie dintrt et b leectif total (ex : 9 femelles sur 25 individus). Nimporte quoi Utiliser la fonction bootstrap() du package RVAideMemoire, qui est base sur la technique du bootstrap : bootstrap(serie,function(x,i) mean(x[i] )). Dans cet exemple une moyenne est calcule, mais la fonction gre des expressions bien plus complexes. La syntaxe particulire de cette fonction doit obir deux rgles : largument utilis dans lexpression calculer (ici cette expression est mean(x[i])) doit tre le mme que le 1er dclar function(). Ici cet argument est x largument utilis dans lexpression calculer doit toujours tre suivi du second dclar function() plac entre crochets. Celui - ci est par dfaut i, voir laide de la fonction boot() pour plus dinformations. Pour toutes ces fonctions, la prcision de lintervalle de conance peut tre modie grce largument conf.level (par dfaut conf.level=0.95).

35. i Tracer un diagramme en barres avec barres derreur


Lexemple prsent ici traite de moyennes et de barres derreur reprsentant des erreurs standards. Il peut bien sr tre adapt nimporte quelles valeurs. Un facteur Ltape prliminaire est de rassembler les moyennes (une par modalit du facteur) dans un vecteur moyennes (contenant les valeurs dans lordre du graphe, de gauche droite) et les erreurs standards (voir che 34) dans un vecteur erreurs (avec les valeurs dans le mme ordre que les moyennes). La procdure est ensuite la suivante : > abscisses<-barplot(moyennes) > segments(abscisses,moyennes-erreurs,abscisses,moyennes+erreu rs) > segments(abscisses-0.1,moyennes-erreurs,abscisses+0.1,moyenn es-erreurs) > segments(abscisses-0.1,moyennes+erreurs,abscisses+0.1,moyenn es+erreurs) Deux facteurs Moyennes et erreurs standards doivent tre contenues dans des matrices. Ces matrices doivent avoir en lignes les modalits du 2nd facteur et en colonnes celles du 1er facteur. La procdure est ensuite identique, il faut seulement ajouter largument beside=TRUE la fonction barplot(). Largument names.arg=noms de la fonction barplot() ajoute ou modie le nom des barres (noms tant un vecteur contenant les noms de gauche droite), tandis que legend=TRUE ajoute une lgende dans le cas de deux facteurs.

36. Les dirents types de test statistique


Il existe quatre grandes familles de tests statistiques, qui se direncient par leur objectif : les tests dhomognit : ils permettent de tester lgalit dun paramtre entre plusieurs populations (ex : galit des moyennes entre n populations) les tests de conformit : ils permettent de tester lgalit dun paramtres dune (ou plusieurs) population(s) une (ou plusieurs) valeur(s) thorique(s) (ex : sex - ratio quilibr 1 : 1) les tests dindpendance : ils permettent de tester si deux variables mesures sont indpendantes lune par rapport lautre les tests dajustement : ils permettent de tester si une distribution de valeurs observe est conforme une distribution thorique ou si deux distributions observes sont identiques. Ces quatre catgories ne sont pas exclusives, un mme test pouvant avoir plusieurs objectifs (ex : le test du 2 de conformit est aussi un test dajustement). Le choix dun test statistique repose sur plusieurs critres : son objectif : quel question doit - il permettre de rpondre ? le type de donnes : comment ont - elles t rcoltes (voir ches 2 et 3) ? combien de variables ont t mesures ? quelle est la nature de ces variables (voir che 1) ? comment ces variables sont - elles distribues ? la quantit de donnes : combien dindividus ont t compts / mesurs ? le nombre de populations comparer. La rponse toutes ces questions peut gnralement tre apporte avant mme de rcolter les donnes, ds la prparation de ltude. Une bonne dmarche consiste ainsi choisir ds le dpart les tests qui vont tre utiliss. Ce choix ne pose pas de problmes si les questions auxquelles ltude doit rpondre sont clairement identies.

37. Caractre alatoire et simple dune srie de donnes


Cette condition est lune des plus fondamentales dun grand nombre de tests statistiques. On peut la remplir ds la mise en place du plan dchantillonnage (voir che 2) ou du plan dexprience (voir che 3). On peut galement la tester grce aux deux tests non paramtriques suivants, dont les fonctions sont contenues dans le package lawstat : Test des runs : runs.test(serie) o serie est un vecteur contenant des donnes numriques, dans lordre o elles ont t rcoltes. Test de Bartels : bartels.test(serie) o serie est un vecteur contenant des donnes numriques ou non (ex : modalits dun facteur), dans lordre o elles ont t rcoltes. Une p - value signicative indique quil existe une corrlation entre les valeurs de la srie, ngative ou positive (par dfaut les deux tests sont bilatraux). Pour connatre le signe de cette corrlation, raliser un test unilatral en ajoutant largument alternative="positive.correlated" ou alternative="negative.correlated". Dans ce cas lhypothse alternative H1 nest plus il y a une corrlation entre les valeurs mais il y a une corrlation positive ou il y a une corrlation ngative entre les valeurs.

38. Ajustement une distribution thorique


Ce test peut tre une n en soi mais est souvent prliminaire dautres tests. La condition quune distribution observe suive une loi normale est en particulier trs frquemment requise. Avant de raliser le test, la premire analyse doit tre graphique et passe par lobservation du graphe quantile - quantile. Il est trac de la manire suivante : qqplot(serie,qloi(ppoints(serie),par)) o serie est un vecteur contenant la srie de donnes, loi est la loi thorique choisie et par ses paramtres spars par une virgule (voir ches 19 28). La distribution de la srie suit la loi thorique choisie si les points du graphe sont aligns sur une droite. Toute autre structuration des points (courbures, nombreux points loigns. . .) indique le contraire. Dans le cas dune loi normale, le mme rsultat est obtenu directement via la fonction qqnorm(serie). Ajustement une loi normale Test de Shapiro - Wilk Conditions : lchantillonnage doit tre alatoire et simple ; la variable teste doit tre quantitative. Pour raliser le test : shapiro.test(serie). Ajustement une loi autre que normale Test de Kolmogorov Smirnov Conditions : lchantillonnage doit tre alatoire et simple ; la variable teste doit tre quantitative ; les paramtres de la loi thorique ne doivent pas provenir de lchantillon test. Pour raliser le test : ks.test(serie,ploi,par) o loi est la loi choisie et par ses paramtres spars par une virgule. Ce test peut tre utilis pour une loi normale mais il est moins puissant que celui de Shapiro - Wilk.

39. Egalit des variances de plusieurs sries de donnes


Ce test peut tre une n en soi mais est souvent prliminaire dautres tests. Lgalit des variances (ou homoscdasticit) doit en eet au minimum tre contrle, au maximum avre dans de nombreux tests usuels. Comparaison des variances de deux populations Test de Fisher (paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les individus ne doivent pas pouvoir tre dans les deux chantillons la fois ; la distribution des valeurs dans chaque chantillon doit tre normale. Pour raliser le test : var.test(serie1,serie2) o serie1 et serie2 sont des vecteurs contenant les deux sries de donnes comparer. Si les deux sries correspondent aux deux modalits dun facteur, la syntaxe peut tre : var.test(variable~facteur) o facteur est un vecteur contenant la valeur de chaque individu (dans le mme ordre que variable). Ce test est trs sensible la condition de normalit. De plus prendre garde aux individus extrmes qui ont une grande inuence sur la variance. Test de Fligner - Killeen (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les individus ne doivent pas pouvoir tre dans les deux chantillons la fois. Pour raliser le test : fligner.test(variable,facteur) ou fligner.test(variable~facteur). Comparaison des variances de plus de deux populations Test de Bartlett (paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les individus ne doivent pas pouvoir tre dans plusieurs chantillons la fois ; la distribution des valeurs dans chaque chantillon doit tre normale ; leectif de chaque chantillon doit tre au moins gal 4. Pour raliser le test : bartlett.test(variable,facteur) ou bartlett. test(variable~facteur). Ce test est trs sensible aux conditions de normalit et deectif minimum. De plus prendre garde aux individus extrmes qui ont une grande inuence sur la variance. Test de Fligner - Killeen (non paramtrique) La procdure est identique au cas de deux populations.

40. Les transformations de variable


Les tests paramtriques sont en gnral plus puissants que leurs homologues non paramtriques. Cependant ils ont des conditions dapplication plus rigoureuses (notamment normalit des distributions et homoscdasticit). Lorsque celles - ci ne sont pas remplies, il y a deux possibilits : (i) utiliser un test homologue non paramtrique moins puissant ou (ii) transformer la variable pour satisfaire la ou les conditions non remplie(s) et utiliser le test paramtrique. La conclusion dun test sur des donnes transformes peut en eet sappliquer aux donnes initiales. Les transformations usuelles sont les suivantes : logarithmique : variable2<-log10(variable). A utiliser lorsque la moyenne des chantillons (si plusieurs sont disponibles) est proportionnelle leur cart - type. En histogramme cela donne un fort biais gauche de la distribution. Utilise frquemment lorsque des processus de croissance ou de multiplication sont en jeu : masse, rendement, dcompte dorganismes vivants. . . racine carre : variable2<-sqrt(variable). A utiliser lorsque la moyenne des chantillons est proportionnelle leur variance (ce qui est exactement le cas pour les distributions de Poisson). En histogramme cela donne un lger biais gauche inverse : variable2<-1/variable. A utiliser lorsque la variable est distribue en i , i.e. lorsque les valeurs les plus faibles sont les plus frquentes angulaire : variable2<-asin(sqrt(variable)). A utiliser lorsque la variable suit une distribution binomiale (proportions). Il existe un trs grand nombre de transformations. Elles peuvent tre utilises sur des bases thoriques ou de faon empirique. Dans tous les cas, chercher une transformation complexe qui permettra de satisfaire une condition particulire dun test nest pas conseill. Si une transformation simple ne fonctionne pas, cest que les donnes sont vraiment particulires . Il convient alors (i) de chercher do vient cette particularit, ce qui peut tre biologiquement intressant et (ii) dutiliser un test non paramtrique. Une fois quune transformation a t applique, il est ncessaire de repasser par un examen graphique des donnes (voir ches 10, 11 et 13) et par le(s) test(s) qui avai(en)t conduit les transformer (le plus souvent ajustement une distribution thorique et /ou homoscdasticit, voir ches 38 et 39).

41. Comparaison de plusieurs probabilits de rponse un facteur


Sries non apparies Analyse de dvience en Modle Linaire Gnralis ( GLM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes du facteur doivent tre exclusives. Commencer par crire le modle cens reprsenter les donnes : modele<-glm(formule,family=binomial) o formule est la formule contenant la variable expliquer et le facteur (voir che 71). La loi binomiale est celle utiliser lorsque la variable expliquer est binaire (0 / 1). Raliser ensuite lanalyse de dviance via anova(modele,test="Chi"). Le tableau renvoy donne leet du facteur et la p - value associe. Si cette p - value est signicative, cela indique quau moins deux classes du facteur ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74). Test du 2 dhomognit (ou dindpendance ; non paramtrique) La dmarche est exactement la mme que dans le cas de comparaison de plusieurs proportions sans rptition (voir che 50). Les conditions dapplication du test sont donc identiques. Commencer par crer le tableau de contingence sur lequel le test doit sappliquer : tab.cont<-table(facteur,relevel(reponse,ref="1")) o reponse est un vecteur contenant la rponse binaire de chaque individu et facteur un vecteur contenant la classe de chaque individu (dans le mme ordre que reponse). Raliser ensuite le test : prop.test(tab.cont). Une p - value signicative indique quau moins deux classes du facteur ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - deux pour identier les classes en question. Utiliser pour cela la fonction pairwise.prop.test(tab.cont,p.adjust.method=methode) (voir che 31 pour choisir la mthode de correction du seuil de rejet ). Sries apparies Test du rapport des vraisemblances en Modle Linaire Gnralis Mixte ( GLMM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple au sein des classes du facteur alatoire ; les classes du facteur xe et du facteur alatoire doivent tre exclusives. Commencer par crire le modle cens reprsenter les donnes, via la fonction glmer() du package lme4 : modele<-glmer(formule,family=binomial)

o formule est la formule contenant la variable expliquer, le facteur xe et le facteur alatoire (voir che 71). La loi binomiale est celle utiliser lorsque la variable expliquer est binaire (0 / 1). Crer un second modle, dit nul, appel modele.nul (voir che 71). Il nest pas possible de raliser une analyse de dviance comme avec les modles facteur xe. La dmarche avec les modles mixtes est la comparaison de modles par le test du rapport des vraisemblances. Le principe est de comparer le modle contenant le facteur dintrt avec un modle identique en tout point sauf quil ne comprend pas ce facteur. La p - value du test correspond celle du facteur qui a t enlev dans le second modle. Pour raliser le test : anova(modele,modele.nul). Une p - value signicative indique quau moins deux classes du facteur xe ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74). Test Q de Cochran (non paramtrique) Conditions : : le plan dexprience doit tre en blocs alatoires complets, avec une seule observation par modalit du facteur au sein de chaque bloc (i.e. de chaque classe du facteur alatoire) ; lchantillonnage doit tre alatoire et simple au sein des classes du facteur alatoire ; les classes du facteur xe et du facteur alatoire doivent tre exclusives. Pour raliser le test, utiliser la fonction cochran.qtest() du package RVAideMemoire : cochran.qtest(reponse,facteur.fixe,facteur.aleatoire). Si la p - value du test est signicative, cela indique quau moins deux classes du facteur xe ont un eet dirent sur la variable expliquer (sans prciser lesquelles). La fonction ralise alors automatiquement toutes les comparaisons deux - - deux possibles par le test des signes de Wilcoxon.

42. Comparaison de plusieurs probabilits de rponse deux facteurs


Sries non apparies Analyse de dviance en Modle Linaire Gnralis ( GLM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes des facteurs doivent tre exclusives. Commencer par crire le modle cens reprsenter les donnes : modele<-glm(formule,family=binomial) o formule est la formule contenant la variable expliquer et les deux facteurs (voir che 71). La loi binomiale est celle utiliser lorsque la variable expliquer est binaire (0 / 1). Raliser ensuite lanalyse de dviance via anova(modele,test="Chi"). Le tableau renvoy donne leet de chaque facteur (et de leur interaction si elle est prise en compte) et la p - value associe. Si une p - value est signicative, cela indique quau moins deux classes du facteur en question (ou au moins deux combinaisons de classes des deux facteurs si cest leet de linteraction qui est signicatif) ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - deux pour identier les classes (ou combinaisons de classes) en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74). Sries apparies Test du rapport des vraisemblances en Modle Linaire Gnralis Mixte ( GLMM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple au sein des classes du facteur alatoire ; les classes des facteurs xes et du facteur alatoire doivent tre exclusives. Commencer par crire le modle cens reprsenter les donnes, via la fonction glmer() du package lme4 : modele<-glmer(formule,family=binomial) o formule est la formule contenant la variable expliquer, les deux facteurs xes et le facteur alatoire (voir che 71). La loi binomiale est celle utiliser lorsque la variable expliquer est binaire (0 / 1). Crer ensuite deux modles dits rduits : lun sans le premier facteur (mais avec linteraction si elle est prise en compte) et lautre sans le second facteur (mais avec linteraction si elle est prise en compte). Si linteraction est prise en compte dans le modle initial, crer galement un modle additif, avec les deux facteurs mais sans leur interaction. Il nest pas possible de raliser une analyse de dviance comme avec les modles facteurs xes. La dmarche avec les modles mixtes est la comparaison de modles par le test du rapport des vraisemblances. Le principe est de comparer le modle contenant le facteur dintrt (ou linteraction dintrt) avec un modle identique en tout point sauf quil ne comprend pas ce facteur (ou cette interaction). La p - value du test correspond celle du facteur

(ou de linteraction) qui a t enlev(e) dans le second modle. Raliser donc une srie de tests de la forme : anova(modele,modele.reduit), en comparant chaque fois le modle complet avec lun des deux ou trois modles rduits. Une p - value signicative indique quau moins deux classes du facteur xe test (ou au moins deux combinaisons de classes des deux facteurs si cest linteraction qui est teste) ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes (ou combinaisons de classes) en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74).

43. Conformit de plusieurs eectifs avec des valeurs thoriques


Test du 2 de conformit (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les individus ne doivent pas pouvoir tre dcompts dans plusieurs eectifs la fois ; au moins 80 % des eectifs thoriques doivent tre non nuls et 5 (voir ci - dessous pour obtenir les eectifs thoriques). Pour raliser le test : chisq.test(effectifs,p=prop.theo) o effectifs est un vecteur contenant les eectifs et prop.theo un vecteur contenant les proportions thoriques (et non pas les eectifs thoriques), dans le mme ordre queffectifs. La somme de ces proportions doit tre gale 1. Les eectifs thoriques sont donns par la fonction chisq.test(effectifs,p=prop.theo)$expected. Une p - value signicative indique quau moins un eectif dire de sa valeur thorique, sans prciser le(s)quel(s). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier l(les) eectif(s) en question. Utiliser pour cela la fonction chisq.gof.multcomp() du package RVAideMemoire : chisq.gof.multcomp(effectifs,p=prop.theo). Il peut arriver que les comparaisons deux - - deux nindiquent aucune dirence signicative, contrairement au test global. Dans ce cas, la solution la plus prudente est de considrer quon ne peut pas savoir quel eectif est responsable du rejet de lhypothse nulle dans le test global.

44. Comparaison de plusieurs eectifs sans facteur (effectifs bruts)


Test du 2 de conformit (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les individus ne doivent pas pouvoir tre dcompts dans plusieurs eectifs la fois ; au moins 80 % des eectifs thoriques doivent tre non nuls et 5 (voir ci - dessous pour obtenir les eectifs thoriques). Pour raliser le test : chisq.test(effectifs) o effectifs est un vecteur contenant les eectifs. Les eectifs thoriques sont donns par la fonction chisq.test(effectifs)$expected. Une p - value signicative indique quau moins deux eectifs dirent lun de lautre, sans prciser lesquels. Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les eectifs en question. Utiliser pour cela la fonction chisq.gof.multcomp() du package RVAideMemoire : chisq.gof.multcomp(effectifs). Il peut arriver que les comparaisons deux - - deux nindiquent aucune dirence signicative, contrairement au test global. Dans ce cas, la solution la plus prudente est de considrer quon ne peut pas savoir quels eectifs sont responsables du rejet de lhypothse nulle dans le test global.

45. Comparaison de plusieurs eectifs un facteur


Sries non apparies Analyse de dviance en Modle Linaire Gnralis ( GLM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes du facteur doivent tre exclusives. Commencer par crire le modle cens reprsenter les donnes : modele<-glm(formule,family=poisson) o formule est la formule contenant la variable expliquer et le facteur (voir che 71). La loi de Poisson est la plus frquemment utilise lorsque la variable expliquer reprsente des donnes de comptage (i.e. des valeurs entires et positives). Appeler ensuite le rsum du modle via summary(modele) et comparer la valeur de la dviance rsiduelle (Residual deviance) avec celle des degrs de libert rsiduels (degrees of freedom, sur la mme ligne que la dviance rsiduelle). Si la dviance rsiduelle est infrieure ces degrs de libert (ddl), lanalyse peut continuer. Dans le cas inverse on dit quil y a surdispersion. Cela peut vouloir dire : quun ou plusieurs facteurs importants nont pas t intgrs dans le modle que la loi du modle (qui reprsente en fait la loi de distribution des erreurs du modle) nest pas adapte dans le pire des cas, les deux ! Dans le premier cas (o la dviance rsiduelle est infrieure aux ddl rsiduels), raliser lanalyse de dviance via anova(modele,test="Chi"). Le tableau renvoy donne leet du facteur et la p - value associe. Si cette p - value est signicative, cela indique quau moins deux classes du facteur ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74). Dans le second cas (o la dviance rsiduelle est suprieure aux ddl rsiduels), la loi de Poisson peut tre remplace par : une loi quasi - Poisson. Le modle scrit alors modele2<-glm(formule,family=quasipoisson). Lanalyse de dviance est ralise via anova(modele2,test="F") et les comparaisons deux - - deux ventuelles se font par la mthode des contrastes (voir che 74) une loi binomiale ngative. Il faut alors utiliser la fonction glm.nb() du package MASS et rcrire le modle : modele2<-glm.nb(formule). Lanalyse de dviance est ralise via anova(modele2,test="Chi") et les comparaisons deux - - deux ventuelles se font par la mthode des contrastes (voir che 74).

Dans tous les cas, quelle que soit la loi utilise (Poisson, quasi - Poisson ou binomiale ngative), il est ncessaire de vrier que le modle sajuste bien aux donnes (voir che 73). Sries apparies Test du rapport des vraisemblances en Modle Linaire Gnralis Mixte ( GLMM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple au sein des classes du facteur alatoire ; les classes du facteur xe et du facteur alatoire doivent tre exclusives. Commencer par crire le modle cens reprsenter les donnes, via la fonction glmer() du package lme4 : modele<-glmer(formule,family=poisson) o formule est la formule contenant la variable expliquer, le facteur xe et le facteur alatoire (voir che 71). La loi de Poisson est la plus frquemment utilise lorsque la variable expliquer reprsente des donnes de comptage (i.e. des valeurs entires et positives). Vrier que le modle sajuste bien aux donnes (voir che 73). Il nest pas possible dutiliser une loi quasi - Poisson ou binomiale ngative avec un modle mixte. Si le modle sajuste mal aux donnes, demander de laide un statisticien. Si le modle sajuste bien aux donnes, crer un second modle, dit nul, appel modele.nul (voir che 71). Il nest pas possible de raliser une analyse de dviance comme avec les modles facteur xe. La dmarche avec les modles mixtes est la comparaison de modles par le test du rapport des vraisemblances. Le principe est de comparer le modle contenant le facteur dintrt avec un modle identique en tout point sauf quil ne comprend pas ce facteur. La p - value du test correspond celle du facteur qui a t enlev dans le second modle. Pour raliser le test : anova(modele,modele.nul). Une p - value signicative indique quau moins deux classes du facteur xe ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74).

46. Comparaison de plusieurs eectifs deux facteurs


Sries non apparies Analyse de dviance en Modle Linaire Gnralis ( GLM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes des facteurs doivent tre exclusives. Commencer par crire le modle cens reprsenter les donnes : modele<-glm(formule,family=poisson) o formule est la formule contenant la variable expliquer et les deux facteurs (voir che 71). La loi de Poisson est la plus frquemment utilise lorsque la variable expliquer reprsente des donnes de comptage (i.e. des valeurs entires et positives). Appeler ensuite le rsum du modle via summary(modele) et comparer la valeur de la dviance rsiduelle (Residual deviance) avec celle des degrs de libert rsiduels (degrees of freedom, sur la mme ligne que la dviance rsiduelle). Si la dviance rsiduelle est infrieure ces degrs de libert (ddl), lanalyse peut continuer. Dans le cas inverse on dit quil y a surdispersion. Cela peut vouloir dire : quun ou plusieurs facteurs importants nont pas t intgrs dans le modle que la loi du modle (qui reprsente en fait la loi de distribution des erreurs du modle) nest pas adapte dans le pire des cas, les deux ! Dans le premier cas (o la dviance rsiduelle est infrieure aux ddl rsiduels), raliser lanalyse de dviance via anova(modele,test="Chi"). Le tableau renvoy donne leet de chaque facteur (et de leur interaction si elle est prise en compte) et la p - value associe. Si une p - value est signicative, cela indique quau moins deux classes du facteur en question (ou au moins deux combinaisons de classes des deux facteurs si cest leet de linteraction qui est signicatif) ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - deux pour identier les classes (ou combinaisons de classes) en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74). Dans le second cas (o la dviance rsiduelle est suprieure aux ddl rsiduels), la loi de Poisson peut tre remplace par : une loi quasi - Poisson. Le modle scrit alors modele2<-glm(formule,family=quasipoisson). Lanalyse de dviance est ralise via anova(modele2,test="F") et les comparaisons deux - - deux ventuelles passent par la mthode des contrastes (voir che 74) une loi binomiale ngative. Il faut alors utiliser la fonction glm.nb() du package MASS et rcrire le modle : modele2<-glm.nb(formule). Lanalyse de dviance est ralise via anova(modele2,test="Chi") et les

comparaisons deux - - deux ventuelles passent par la mthode des contrastes (voir che 74). Dans tous les cas, quelle que soit la loi utilise (Poisson, quasi - Poisson ou binomiale ngative), il est ncessaire de vrier que le modle sajuste bien aux donnes (voir che 73). Sries apparies Test du rapport des vraisemblances en Modle Linaire Gnralis Mixte ( GLMM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple au sein des classes du facteur alatoire ; les classes des facteurs xes et du facteur alatoire doivent tre exclusives. Commencer par crire le modle cens reprsenter les donnes, via la fonction glmer() du package lme4 : modele<-glmer(formule,family=poisson) o formule est la formule contenant la variable expliquer, les deux facteurs xes et le facteur alatoire (voir che 71). La loi de Poisson est la plus frquemment utilise lorsque la variable expliquer reprsente des donnes de comptage (i.e. des valeurs entires et positives). Vrier que le modle sajuste bien aux donnes (voir che 73). Il nest pas possible dutiliser une loi quasi - Poisson ou binomiale ngative avec un modle mixte. Si le modle sajuste mal aux donnes, demander de laide un statisticien. Si le modle sajuste bien aux donnes, crer ensuite deux modles dits rduits : lun sans le premier facteur (mais avec linteraction si elle est prise en compte) et lautre sans le second facteur (mais avec linteraction si elle est prise en compte). Si linteraction est prise en compte dans le modle initial, crer galement un modle additif, avec les deux facteurs mais sans leur interaction. Il nest pas possible de raliser une analyse de dviance comme avec les modles facteurs xes. La dmarche avec les modles mixtes est la comparaison de modles par le test du rapport des vraisemblances. Le principe est de comparer le modle contenant le facteur dintrt (ou linteraction dintrt) avec un modle identique en tout point sauf quil ne comprend pas ce facteur (ou cette interaction). La p - value du test correspond celle du facteur (ou de linteraction) qui a t enlev(e) dans le second modle. Raliser donc une srie de tests de la forme : anova(modele,modele.reduit), en comparant chaque fois le modle complet avec lun des deux ou trois modles rduits. Une p - value signicative indique quau moins deux classes du facteur xe test (ou au moins deux combinaisons de classes des deux facteurs si cest linteraction qui est teste) ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes (ou combinaisons de classes) en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74).

47. Conformit dune proportion avec une valeur thorique


Test binomial exact (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple. Pour raliser le test : binom.test(n1,n,p) o n1 est le nombre dindividus de la catgorie dintrt, n leectif total et p la proportion thorique de la catgorie dintrt (ex : pour comparer le sex - ratio dun chantillon de 20 individus contenant 8 femelles un sex - ratio quilibr, la syntaxe est binom.test(8,20,0.5)).

48. Conformit de plusieurs proportions avec des valeurs thoriques


Les donnes doivent tre prsentes sous la forme de deux variables qualitatives : lune dnissant les k classes tester, lautre dnissant les deux groupes lintrieur de chaque classe. Grce ces deux variables, les donnes peuvent (et doivent) tre organises en un tableau de contingence du type : Variable B (mesure) Classe 1 Classe 2 Variable A (classes tester) Classe 1 ... Classe k

o chaque case contient le nombre dindividus possdant la fois le caractre de la variable A et celui de la variable B. Ce tableau est obtenu de la manire suivante : tab.cont<-table(variableA,variableB) o variableA et variableB sont des vecteurs contenant la valeur de chaque individu pour chaque variable (dans le mme ordre). Une reprsentation graphique du tableau de contingence peut tre obtenue laide de la fonction mosaicplot(tab.cont). Les proportions compares sont celles de la premire colonne du tableau de contingence (Classe 1 de la variable B). Test du 2 (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes des deux variables doivent tre exclusives ; chaque case du tableau de contingence doit prsenter un eectif thorique non nul et au moins 80 % des eectifs thoriques doivent tre 5 (voir ci - dessous pour obtenir les eectifs thoriques). Pour raliser le test : prop.test(tab.cont,p=prop.theo) o prop.theo est un vecteur contenant les proportions thoriques de chaque classe (de 1 k). Pour obtenir les eectifs thoriques utiliser la fonction chisq.exp() du package RVAideMemoire : chisq.exp(tab.cont,prop.theo). Largument facultatif graph=TRUE permet dobtenir une reprsentation graphique des eectifs thoriques. Une p - value signicative indique quau moins une proportion dire de sa valeur thorique, sans prciser la(les)quelle(s). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier la (les) proportion(s) en question. Utiliser pour cela la fonction prop.multcomp du package RVAideMemoire : prop.multcomp(tab.cont,prop.theo) Il peut arriver que les comparaisons deux - - deux nindiquent aucune dirence signicative, contrairement au test global. Dans ce cas, la solution la plus prudente est de considrer quon ne peut pas savoir quelle classe est responsable du rejet de lhypothse nulle dans le test global.

49. Comparaison de deux proportions sans rptition


On dit quil ny a pas de rptition lorsque lon a une valeur de la proportion en question par population (i.e. un chantillon par population). Les donnes doivent tre prsentes sous la forme de deux variables qualitatives : lune dnissant les deux classes comparer, lautre dnissant les deux groupes lintrieur de chaque classe. Grce ces deux variables, les donnes peuvent (et doivent) tre organises en un tableau de contingence du type : Variable B (mesure) Classe 1 Classe 2 Variable A (classes comparer) Classe 1 Classe 2

o chaque case contient le nombre dindividus possdant la fois le caractre de la variable A et celui de la variable B. Ce tableau est obtenu de la manire suivante : tab.cont<-table(variableA,variableB) o variableA et variableB sont des vecteurs contenant la valeur de chaque individu pour chaque variable (dans le mme ordre). Une reprsentation graphique du tableau de contingence peut tre obtenue laide de la fonction mosaicplot(tab.cont). Sries non apparies Dans ces tests, les proportions compares sont celles de la premire colonne du tableau de contingence (Classe 1 de la variable B). Test du 2 dhomognit (ou dindpendance ; non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes des deux variables doivent tre exclusives ; chaque case du tableau de contingence doit prsenter un eectif thorique non nul et 5 (voir ci - dessous pour obtenir les eectifs thoriques). Pour raliser le test : prop.test(tab.cont). Les eectifs thoriques sont donns par la fonction chisq.test(tab.cont)$ expected. Test exact de Fisher (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes des deux variables doivent tre exclusives. Pour raliser le test : fisher.test(tab.cont).

Sries apparies Dans le cas de sries apparies, lindividu est soit une entit mesure deux fois, soit une paire dentits relies entre elles et sur qui la mme mesure a t ralise. Le tableau de contingence est donc dirent : Variable B (2me mesure) Classe 1 Classe 2 Variable A (1re mesure) Classe 1 Classe 2

Test binomial exact (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes des deux variables doivent tre exclusives ; les individus doivent pouvoir changer de classe lors de la 2me mesure. Pour raliser le test : binom.test(n1.2,ns,0.5) o n1.2 est le nombre dindividus qui sont de Classe 1 lors de la premire mesure et de Classe 2 lors de la seconde (case en haut droite), et ns est le nombre dindividus qui ont chang de classe entre les deux mesures (quel que soit le sens de ce changement : case en bas gauche + case en haut droite).

50. Comparaison de plusieurs proportions sans rptition


On dit quil ny a pas de rptition lorsque lon a une valeur de la proportion en question par population (i.e. un chantillon par population). Les donnes doivent tre prsentes sous la forme de deux variables qualitatives : lune dnissant les k classes comparer, lautre dnissant les deux groupes lintrieur de chaque classe. Grce ces deux variables, les donnes peuvent (et doivent) tre organises en un tableau de contingence du type : Variable B (mesure) Classe 1 Classe 2 Variable A (classes comparer) Classe 1 ... Classe k

o chaque case contient le nombre dindividus possdant la fois le caractre de la variable A et celui de la variable B. Ce tableau est obtenu de la manire suivante : tab.cont<-table(variableA,variableB) o variableA et variableB sont des vecteurs contenant la valeur de chaque individu pour chaque variable (dans le mme ordre). Une reprsentation graphique du tableau de contingence peut tre obtenue laide de la fonction mosaicplot(tab.cont). Les proportions compares sont celles de la premire colonne du tableau de contingence (Classe 1 de la variable B). Test du 2 dhomognit (ou dindpendance ; non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes des deux variables doivent tre exclusives ; chaque case du tableau de contingence doit prsenter un eectif thorique non nul et 5 (voir ci - dessous pour obtenir les eectifs thoriques). Pour raliser le test : prop.test(tab.cont). Les eectifs thoriques sont donns par la fonction chisq.test(tab.cont)$ expected. Une p - value signicative indique quau moins deux proportions dirent lune de lautre, sans prciser lesquelles. Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les proportions en question. Utiliser pour cela la fonction pairwise.prop.test(tab.cont,p.adjust.method=methode) (voir che 31 pour choisir la mthode de correction du seuil de rejet ).

51. Comparaison de plusieurs proportions avec rptitions et un facteur


On dit quil y a rptitions lorsque lon a plusieurs valeurs de la proportion en question par population (i.e. plusieurs chantillons par population). Avant de raliser lanalyse, il est ncessaire de mettre la variable expliquer au bon format. Celle - ci ne doit en eet pas tre un vecteur mais un tableau deux colonnes du type : Groupe 1 10 8 14 Groupe 2 16 24 11

[1,] [2,] [3,] ...

Dans ce tableau, chaque ligne correspond un chantillon et chaque colonne un groupe lintrieur des chantillons (les deux colonnes dnissent donc la proportion tudie ; ex : mles et femelles). Les donnes dans ce tableau sont des eectifs, i.e. chaque case contient le nombre dindividus appartenant la fois lchantillon [x,] (o x est le numro de la ligne) et au groupe (colonne) correspondant. Au sens statistique, un individu est reprsent par une ligne du tableau. Ce tableau peut tre obtenu via proportions<-cbind(groupe1,groupe2) o groupe1 et groupe2 sont des vecteurs correspondant aux deux colonnes (la 1re valeur correspondant la 1re ligne du tableau et les deux vecteurs tant dans le mme ordre). Sries non apparies Analyse de dviance en Modle Linaire Gnralis ( GLM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes du facteur doivent tre exclusives. Commencer par crire le modle cens reprsenter les donnes : modele<-glm(formule,family=binomial) o formule est la formule contenant la variable expliquer et le facteur (voir che 71). La loi binomiale est la plus frquemment utilise lorsque la variable expliquer reprsente des proportions. Appeler ensuite le rsum du modle via summary(modele) et comparer la valeur de la dviance rsiduelle (Residual deviance) avec celle des degrs de libert rsiduels (degrees of freedom, sur la mme ligne que la dviance rsiduelle). Si la dviance rsiduelle est infrieure ces degrs de libert (ddl), lanalyse peut continuer. Dans le cas inverse on dit quil y a surdispersion. Cela peut vouloir dire : quun ou plusieurs facteurs importants nont pas t intgrs dans le modle

que la loi du modle (qui reprsente en fait la loi de distribution des erreurs du modle) nest pas adapte dans le pire des cas, les deux ! Dans le premier cas (o la dviance rsiduelle est infrieure aux ddl rsiduels), raliser lanalyse de dviance via anova(modele,test="Chi"). Le tableau renvoy donne leet du facteur et la p - value associe. Si cette p - value est signicative, cela indique quau moins deux classe du facteur ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74). Dans le second cas (o la dviance rsiduelle est suprieure aux ddl rsiduels), la loi binomiale peut tre remplace par une loi quasi - binomiale. Le modle scrit alors modele2<-glm(formule,family=quasibinomial). Lanalyse de dviance est ralise via anova(modele2,test="F") et les comparaisons deux - - deux passent par la mthode des contrastes (voir che 74). Quelle que soit la loi utilise (binomiale ou quasi - binomiale), il est ncessaire de vrier que le modle sajuste bien aux donnes (voir che 73). Sries apparies Test du rapport des vraisemblances en Modle Linaire Gnralis Mixte ( GLMM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple au sein des classes du facteur alatoire ; les classes du facteur xe et du facteur alatoire doivent tre exclusives. Commencer par crire le modle cens reprsenter les donnes, via la fonction glmer() du package lme4 : modele<-glmer(formule,family=binomial) o formule est la formule contenant la variable expliquer, le facteur xe et le facteur alatoire (voir che 71). La loi binomiale est la plus frquemment utilise lorsque la variable expliquer reprsente des proportions. Vrier que le modle sajuste bien aux donnes (voir che 73). Il nest pas possible dutiliser une loi quasi - binomiale avec un modle mixte. Si le modle sajuste mal aux donnes, demander de laide un statisticien. Si le modle sajuste bien aux donnes, crer un second modle, dit nul, appel modele.nul (voir che 71). Il nest pas possible de raliser une analyse de dviance comme avec les modles facteur xe. La dmarche avec les modles mixtes est la comparaison de modles par le test du rapport des vraisemblances. Le principe est de comparer le modle contenant le facteur dintrt avec un modle identique en tout point sauf quil ne comprend pas ce facteur. La p - value du test correspond celle du facteur qui a t enlev dans le second modle. Pour

raliser le test : anova(modele,modele.nul). Une p - value signicative indique quau moins deux classes du facteur xe ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74).

52. Comparaison de plusieurs proportions avec rptitions et deux facteurs


On dit quil y a rptitions lorsque lon a plusieurs valeurs de la proportion en question par population (i.e. plusieurs chantillons par population). Avant de raliser lanalyse, il est ncessaire de mettre la variable expliquer au bon format. Celle - ci ne doit en eet pas tre un vecteur mais un tableau deux colonnes du type : Groupe 1 10 8 14 Groupe 2 16 24 11

[1,] [2,] [3,] ...

Dans ce tableau, chaque ligne correspond un chantillon et chaque colonne un groupe lintrieur des chantillons (les deux colonnes dnissent donc la proportion tudie ; ex : mles et femelles). Les donnes dans ce tableau sont des eectifs, i.e. chaque case contient le nombre dindividus appartenant la fois lchantillon [x,] (o x est le numro de la ligne) et au groupe (colonne) correspondant. Au sens statistique, un individu est reprsent par une ligne du tableau. Ce tableau peut tre obtenu via proportions<-cbind(groupe1,groupe2) o groupe1 et groupe2 sont des vecteurs correspondant aux deux colonnes (la 1re valeur correspondant la 1re ligne du tableau et les deux vecteurs tant dans le mme ordre). Sries non apparies Analyse de dviance en Modle Linaire Gnralis ( GLM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes des facteurs doivent tre exclusives. Commencer par crire le modle cens reprsenter les donnes : modele<-glm(formule,family=binomial) o formule est la formule contenant la variable expliquer et les deux facteurs (voir che 71). La loi binomiale est la plus frquemment utilise lorsque la variable expliquer reprsente des proportions. Appeler ensuite le rsum du modle via summary(modele) et comparer la valeur de la dviance rsiduelle (Residual deviance) avec celle des degrs de libert rsiduels (degrees of freedom, sur la mme ligne que la dviance rsiduelle). Si la dviance rsiduelle est infrieure ces degrs de libert (ddl), lanalyse peut continuer. Dans le cas inverse on dit quil y a surdispersion. Cela peut vouloir dire : quun ou plusieurs facteurs importants nont pas t intgrs dans le modle

que la loi du modle (qui reprsente en fait la loi de distribution des erreurs du modle) nest pas adapte dans le pire des cas, les deux ! Dans le premier cas (o la dviance rsiduelle est infrieure aux ddl rsiduels), lanalyse de dviance est ralise via anova(modele,test="Chi"). Le tableau renvoy donne leet de chaque facteur (et de leur interaction si elle est prise en compte) et la p - value associe. Si une p - value est signicative, cela indique quau moins deux classes du facteur en question (ou au moins deux combinaisons de classes des deux facteurs si cest leet de linteraction qui est signicatif) ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - deux pour identier les classes (ou combinaisons de classes) en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74). Dans le second cas (o la dviance rsiduelle est suprieure aux ddl rsiduels), la loi binomiale peut tre remplace par une loi quasi - binomiale. Le modle scrit alors modele2<-glm(formule,family=quasibinomial). Lanalyse de dviance est ralise via anova(modele2,test="F") et les comparaisons deux - - deux passent par la mthode des contrastes (voir che 74). Quelle que soit la loi utilise (binomiale ou quasi - binomiale), il est ncessaire de vrier que le modle sajuste bien aux donnes (voir che 73). Sries apparies Test du rapport des vraisemblances en Modle Linaire Gnralis Mixte ( GLMM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple au sein des classes du facteur alatoire ; les classes des facteurs xes et du facteur alatoire doivent tre exclusives. Commencer par crire le modle cens reprsenter les donnes, via la fonction glmer() du package lme4 : modele<-glmer(formule,family=binomial) o formule est la formule contenant la variable expliquer, les deux facteurs xes et le facteur alatoire (voir che 71). La loi binomiale est la plus frquemment utilise lorsque la variable expliquer reprsente des proportions. Vrier que le modle sajuste bien aux donnes (voir che 73). Il nest pas possible dutiliser une loi quasi - binomiale avec un modle mixte. Si le modle sajuste mal aux donnes, demander de laide un statisticien. Si le modle sajuste bien aux donnes, crer ensuite deux modles dits rduits : lun sans le premier facteur (mais avec linteraction si elle est prise en compte) et lautre sans le second facteur (mais avec linteraction si elle est prise en compte). Si linteraction est prise en compte dans le modle initial, crer galement un modle additif, avec les deux facteurs mais sans leur interaction.

Il nest pas possible de raliser une analyse de dviance comme avec les modles facteurs xes. La dmarche avec les modles mixtes est la comparaison de modles par le test du rapport des vraisemblances. Le principe est de comparer le modle contenant le facteur dintrt (ou linteraction dintrt) avec un modle identique en tout point sauf quil ne comprend pas ce facteur (ou cette interaction). La p - value du test correspond celle du facteur (ou de linteraction) qui a t enlev(e) dans le second modle. Raliser donc une srie de tests de la forme : anova(modele,modele.reduit), en comparant chaque fois le modle complet avec lun des deux ou trois modles rduits. Une p - value signicative indique quau moins deux classes du facteur xe test (ou au moins deux combinaisons de classes des deux facteurs si cest linteraction qui est teste) ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes (ou combinaisons de classes) en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74).

53. Conformit dune moyenne avec une valeur thorique


Test t de Student (paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; la distribution des donnes doit tre normale. Pour raliser le test : t.test(serie,mu=m.theo) o serie est un vecteur contenant la srie de donnes et m.theo la moyenne thorique comparer. Ce test tant assez robuste, il peut tre utilis lorsque la distribution des donnes ne suit pas une loi normale, condition quelle ne sen loigne pas trop et que lchantillon soit de grande taille (> 30 individus). Prendre garde aux individus extrmes qui ont une grande inuence sur la moyenne. Test des rangs signs de Wilcoxon (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; lchantillon doit contenir au moins 8 individus ; la distribution des donnes doit tre symtrique (uni- ou polymodale mais symtrique). Pour raliser le test : wilcox.test(serie,mu=m.theo). Ce test compare en fait la mdiane de lchantillon avec la valeur thorique. Mais si la distribution est symtrique, mdiane et moyenne sont trs proches. Examiner cette condition laide dun graphique de type boxplot() (voir che 11). La mdiane nest pas sensible aux individus extrmes. Test des signes de Wilcoxon (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple. Pour raliser le test, utiliser la fonction wilcox.sign.test() du package RVAideMemoire : wilcox.sign.test(serie,mu=m.theo). Ce test est utiliser lorsque les conditions du test des rangs signs de Wilcoxon ne sont pas runies. Il compare en fait la mdiane de lchantillon avec la valeur thorique.

54. Comparaison de deux moyennes


Sries non apparies Test t de Student (paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les individus ne doivent pas pouvoir tre dcompts dans les deux chantillons la fois ; la distribution des donnes dans chaque chantillon doit tre normale ; la variance des deux chantillons doit tre gale. Pour raliser le test : t.test(serie1,serie2,var.equal=TRUE) o serie1 et serie2 sont les deux vecteurs contenant les sries de donnes comparer. Si les deux sries correspondent aux deux classes dun facteur, la syntaxe peut tre t.test(variable~facteur), o variable est un vecteur contenant les valeurs de la variable mesure et facteur un vecteur contenant la classe de chaque individu (dans le mme ordre que variable). Ce test tant assez robuste, il peut tre utilis lorsque la distribution des donnes ne suit pas une loi normale, condition quelle ne sen loigne pas trop et que lchantillon soit de grande taille (> 30 individus). Il est cependant trs sensible la condition dhomoscdasticit. De plus prendre garde aux individus extrmes qui ont une grande inuence sur la moyenne. Si les variances sont ingales, appliquer la correction de Welch en prcisant var.equal=FALSE (ce qui est le cas par dfaut si var.equal nest pas prcis). Test de Mann - Whitney - Wilcoxon (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les individus ne doivent pas pouvoir tre dcompts dans les deux chantillons la fois ; les deux chantillons doivent contenir au moins 8 individus ; la distribution des donnes dans les deux chantillons doit avoir la mme forme (peu importe celle - ci). Pour raliser le test : wilcox.test(serie1,serie2) ou wilcox.test(variable~facteur). Ce test compare en fait la mdiane des deux chantillons, et est donc trs sensible la similitude de leur distribution. Examiner cette condition laide dun graphique de type hist() (voir che 10). Il faut de fait toujours rester prudent quant son interprtation car cette condition est dicile remplir. Test exact de Fisher (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les individus ne doivent pas pouvoir tre dcompts dans les deux chantillons la fois. Pour raliser le test, utiliser la fonction fisher.medtest du package RVAideMemoire : fisher.medtest(serie1,serie2). Ce test est utiliser lorsque les conditions du test de Mann - Whitney - Wilcoxon ne sont pas runies. Il compare en fait la mdiane des deux chantillons.

Sries apparies Test t de Student pour sries apparies (paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; la distribution des donnes dans chaque chantillon doit tre normale. Pour raliser le test : t.test(serie1,serie2,paired=TRUE). Ce test tant assez robuste, il peut tre utilis lorsque la distribution des donnes ne suit pas une loi normale, condition quelle ne sen loigne pas trop et que lchantillon soit de grande taille (> 30 individus). Prendre garde aux individus extrmes qui ont une grande inuence sur la moyenne. Test des rangs signs de Wilcoxon (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les deux chantillons doivent contenir au moins 8 individus ; la distribution des dirences entre les valeurs apparies doit tre symtriques (voir ci - dessous pour vrier cette condition). Pour raliser le test : wilcox.test(serie1,serie2,paired=TRUE). Ce test compare en fait la mdiane des deux chantillons. Mais si la distribution des dirences entre les valeurs apparies est symtrique, mdiane et moyenne sont trs proches. Examiner cette condition laide dun graphique de type boxplot(serie1-serie2) (voir che 11). La mdiane nest pas sensible aux individus extrmes. Test des signes de Wilcoxon (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple. Pour raliser le test, utiliser la fonction wilcox.sign.test() du package RVAideMemoire : wilcox.sign.test(serie1,serie2). Ce test est utiliser lorsque les conditions du test des rangs signs de Wilcoxon ne sont pas runies. Il compare en fait la mdiane des deux chantillons.

55. Comparaison de plusieurs moyennes un facteur


Sries non apparies Analyse de variance ( ANOVA) en Modle Linaire ( LM) (paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes du facteur doivent tre exclusives ; la distribution des donnes doit tre normale dans chaque classe du facteur ; la variance des donnes doit tre gale entre toutes les classes du facteur ; la distribution des rsidus du modle doit tre normale (voir che 73 pour tester cette hypothse). Commencer par crire le modle cens reprsenter les donnes : modele<-lm(formule), o formule est la formule contenant la variable expliquer et le facteur (voir che 71). LANOVA est ralise grce la fonction anova(modele). Le tableau renvoy donne leet du facteur et la p - value associe. Si cette p - value est signicative, cela indique quau moins deux classes du facteur ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Utiliser pour cela la fonction pairwise.t.test(variable,facteur,p.adjust.method=methode) (voir che 31 pour choisir la mthode de correction du seuil de rejet ). Ce test tant assez robuste, il peut tre utilis lorsque la distribution des donnes ne suit pas une loi normale, condition quelle ne sen loigne pas trop et que lchantillon soit de grande taille (> 30 individus). Il est cependant trs sensible la condition dhomoscdasticit. De plus prendre garde aux individus extrmes qui ont une grande inuence sur la moyenne. Test de Kruskal - Wallis (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes du facteur doivent tre exclusives ; la distribution des donnes doit avoir la mme forme dans toutes les classes du facteur (peu importe celle - ci). Pour raliser le test : kruskal.test(formule). Si la p - value est signicative, les comparaisons deux - - deux sont ralises grce la fonction pairwise.wilcox.test(variable,facteur,p.adjust.method=methode) (voir che 31 pour choisir la mthode de correction du seuil de rejet ). Ce test compare en fait la mdiane des dirents chantillons, et est donc trs sensible la similitude de leur distribution. Examiner cette condition laide dun graphique de type hist() (voir che 10). Il faut de fait toujours rester prudent quant son interprtation car cette condition est dicile remplir.

Sries apparies Test du rapport des vraisemblances en Modle Linaire Mixte ( LMM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple au sein des classes du facteur alatoire ; les classes du facteur xe et du facteur alatoire doivent tre exclusives ; la distribution des donnes doit tre normale dans chaque classe du facteur xe ; la variance des donnes doit tre gale entre toutes les classes du facteur xe ; la distribution des rsidus du modle doit tre normale (voir che 73 pour tester cette hypothse). Commencer par crire le modle cens reprsenter les donnes, via la fonction lmer() du package lme4 : modele<-lmer(formule,REML=FALSE) o formule est la formule contenant la variable expliquer, le facteur xe et le facteur alatoire (voir che 71). Crer un second modle, dit nul, appel modele.nul (voir che 71). Il nest pas possible de raliser une analyse de variance comme avec les modles facteur xe. La dmarche avec les modles mixtes est la comparaison de modles par le test du rapport des vraisemblances. Le principe est de comparer le modle contenant le facteur dintrt avec un modle identique en tout point sauf quil ne comprend pas ce facteur. La p - value du test correspond celle du facteur qui a t enlev dans le second modle. Pour raliser le test : anova(modele,modele.nul). Une p - value signicative indique quau moins deux classes du facteur xe ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Pour cela, commencer par rcrire le modle en remplaant REML=FALSE par REML=TRUE. Utiliser ensuite la mthode des contrastes pour les comparaisons (voir che 74). Test de Friedman (non paramtrique) Conditions : le plan dexprience doit tre en blocs alatoire complets, avec une seule observation par modalit du facteur au sein de chaque bloc (i.e. de chaque classe du facteur alatoire) ; lchantillonnage doit tre alatoire et simple au sein des classes du facteur alatoire ; les classes du facteur xe et du facteur alatoire doivent tre exclusives. Pour raliser le test : friedman.test(a.expliquer~fact.fixe|fact.aleatoire). Si la p - value du test est signicative, cela indique quau moins deux classes du facteur xe ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Utiliser pour cela la fonction wilcox.paired.multcomp() du package RVAideMemoire : wilcox.paired.multcomp(a.expliquer,fact.fixe,fact.aleatoire).

56. Comparaison de plusieurs moyennes deux facteurs


Sries non apparies Analyse de variance ( ANOVA) en Modle Linaire ( LM) (paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes des facteurs doivent tre exclusives ; la distribution des donnes doit tre normale dans chaque classe des deux facteurs ; la variance des donnes doit tre gale entre toutes les classes dun mme facteur ; la distribution des rsidus du modle doit tre normale (voir che 73 pour tester cette hypothse). Commencer par crire le modle cens reprsenter les donnes : modele<-lm(formule) o formule est la formule contenant la variable expliquer et les deux facteurs (voir che 71). LANOVA est ralise grce la fonction anova(modele). Le tableau renvoy donne leet de chaque facteur (et de leur interaction si elle est prise en compte) et la p - value associe. Si une p - value est signicative, cela indique quau moins deux classes du facteur en question (ou au moins deux combinaisons de classes des deux facteurs si cest leet de linteraction qui est signicatif) ont un eet dirent des autres sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes (ou combinaisons de classes) en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74). Ce test tant assez robuste, il peut tre utilis lorsque la distribution des donnes ne suit pas une loi normale, condition quelle ne sen loigne pas trop et que lchantillon soit de grande taille (> 30 individus). Il est cependant trs sensible la condition dhomoscdasticit. De plus prendre garde aux individus extrmes qui ont une grande inuence sur la moyenne. Sries apparies Test du rapport des vraisemblances en Modle Linaire Mixte ( LMM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple au sein des classes du facteur alatoire ; les classes des facteurs xes et du facteur alatoire doivent tre exclusives ; la distribution des donnes doit tre normale dans chaque classe des facteurs xes ; la variance des donnes doit tre gale entre toutes les classes dun mme facteur xe ; la distribution des rsidus du modle doit tre normale (voir che 73 pour tester cette hypothse). Commencer par crire le modle cens reprsenter les donnes, via la fonction lmer() du package lme4 : modele<-lmer(formule,REML=FALSE) o formule est la formule contenant la variable expliquer, les deux facteurs xes et le facteur alatoire (voir che 71). Crer deux modles dits rduits : lun sans le premier facteur (mais avec linteraction si elle est prise en compte) et lautre sans le second facteur (mais avec linteraction si elle est prise en compte). Si linteraction est prise en

compte dans le modle initial, crer galement un modle additif, avec les deux facteurs mais sans leur interaction. Il nest pas possible de raliser une analyse de dviance comme avec les modles facteurs xes. La dmarche avec les modles mixtes est la comparaison de modles par le test du rapport des vraisemblances. Le principe est de comparer le modle contenant le facteur dintrt (ou linteraction dintrt) avec un modle identique en tout point sauf quil ne comprend pas ce facteur (ou cette interaction). La p - value du test correspond celle du facteur (ou de linteraction) qui a t enlev(e) dans le second modle. Raliser donc une srie de tests de la forme : anova(modele,modele.reduit), en comparant chaque fois le modle complet avec lun des deux ou trois modles rduits. Une p - value signicative indique quau moins deux classes du facteur xe test (ou au moins deux combinaisons de classes des deux facteurs si cest linteraction qui est teste) ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes (ou combinaisons de classes) en question. Pour cela, commencer par rcrire le modle en remplaant REML=FALSE par REML=TRUE. Utiliser ensuite la mthode des contrastes pour les comparaisons (voir che 74).

57. Comparaison de plusieurs temps de survie


Avant danalyser des temps de survie, il est indispensable davoir bien compris les notions suivantes : censure : un individu est dit censur lorsque sa mort est survenue avant le dbut de ltude (censure gauche) ou quelle na pas t observe avant la n de ltude (parce que ltude sest arrte ou parce que lindividu en est sorti ; censure droite). Cette che ne traite pas des censures gauche risque instantan : ce risque est celui de mourir linstant t, sachant que la mort nest pas survenue avant. Il y a globalement 3 situations direntes lorsque lon analyse des temps de survie : le risque instantan est constant quel que soit lge des individus et aucune donne nest censure le risque instantan est constant quel que soit lge des individus et il existe des donnes censures le risque instantan nest pas constant, i.e. il augmente ou diminue avec lge des individus. Pour savoir si le risque instantan est constant, tracer la courbe de survie des individus grce la fonction plotsurvivors() du package RVAideMemoire : plotsurvivors(mort,censure) o mort est un vecteur contenant le temps de mort de chaque individu et censure un vecteur indiquant si lindividu est censur ou non (0 si censur ou 1 si non censur, i.e. 0 si la mort na pas t observe ou 1 si elle la t), dans le mme ordre que mort. Le risque instantan est constant si la courbe de survie est une droite. Risque instantan constant et absence de donnes censures Analyse de dviance en Modle Linaire Gnralis ( GLM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; si certaines variables explicatives sont des facteurs, leurs classes doivent tre exclusives. Commencer par crire le modle cens reprsenter les donnes : modele<-glm(formule,family=Gamma) o formule est la formule contenant la variable expliquer et les variables explicatives (voir che 71). La loi Gamma sert modliser la constance du risque instantan. Raliser ensuite lanalyse de dviance via anova(modele,test="Chi"). Le tableau renvoy donne leet de chaque variable explicative (et de leurs interactions si elles sont prises en compte) et la p - value associe. Si une p - value est signicative, cela indique : si la variable explicative en question est quantitative, quelle a un eet sur le temps de survie si la variable explicative en question est un facteur, quau moins deux classes de ce facteur ont un eet dirent sur le temps de survie (sans pr-

ciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74) si la p - value correspond linteraction entre deux variables, quau moins deux combinaisons des deux variables ont un eet dirent sur le temps de survie (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les combinaisons en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74). Comme pour tout modle, il est ncessaire de vrier quil sajuste bien aux donnes (voir che 73). Risque instantan constant et prsence de donnes censures Analyse de dviance en rgression de survie (paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; si certaines variables explicatives sont des facteurs, leurs classes doivent tre exclusives ; les censures doivent tre indpendantes des conditions dexprience. Commencer par crer la variable expliquer, qui doit tre un objet de survie. Utiliser pour cela la fonction Surv() du package survival : si tous les individus sont observs pendant toute la dure de ltude : a.expliquer<-Surv(mort,censure) si tous les individus ne sont pas observs pendant toute la dure de ltude : a.expliquer<-Surv(start,stop,censure) o start est un vecteur contenant le moment o chaque individu rentre dans ltude et stop un vecteur contenant le moment o il en sort (dans le mme ordre que start). Crer ensuite le modle cens reprsenter les donnes, grce la fonction survreg() du package survival : modele<-survreg(formule,dist="exponential") o formule est la formule contenant la variable expliquer et les variables explicatives (voir che 71). La loi exponentielle sert modliser la constance du risque instantan. Raliser ensuite lanalyse de dviance via anova(modele). Le tableau renvoy donne leet de chaque variable explicative (et de leurs interactions si elles sont prises en compte) et la p - value associe. Si une p - value est signicative, cela indique : si la variable explicative en question est quantitative, quelle a un eet sur le temps de survie si la variable explicative en question est un facteur, quau moins deux classes de ce facteur ont un eet dirent sur le temps de survie (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Utiliser pour cela la fonction surv.multcomp() du package RVAideMemoire :

surv.multcomp(a.expliquer,facteur,matrice,type="survreg",distribution="exponential"), o facteur est le facteur dont on veut comparer les classes et matrice est la matrice des comparaisons, construite de la mme faon que pour la mthode des contrastes (voir che 74) si la p - value correspond linteraction entre deux variables, quau moins deux combinaisons des deux variables ont un eet dirent sur le temps de survie (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les combinaisons en question. Utiliser pour cela la fonction surv.multcomp() du package RVAideMemoire : surv.multcomp(a.expliquer,interaction,matrice,type="survreg",distribution="exponential") (voir che 74 pour crer le nouveau facteur interaction et la matrice des comparaisons). Risque instantan dpendant de lge des individus Analyse de dviance en rgression de survie (paramtrique) La procdure est identique celle mise en uvre lorsque le risque est constant, except le fait que le modle de rgression de survie doit tre dni avec dist="weibull". La loi de Weibull est en eet la plus utilise lorsque le risque instantan nest pas constant. On peut appeler le rsum du modle via summary(modele). La valeur du paramtre Scale indique lvolution de ce risque : < 1 : le risque diminue avec lge des individus > 1 : le risque augmente avec lge des individus. Pour les comparaisons deux - - deux, il faut prciser distribution="weibull" la fonction surv.multcomp(). Analyse de dviance en modle de Cox (semi - paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; si certaines variables explicatives sont des facteurs, leurs classes doivent tre exclusives ; les censures doivent tre indpendantes des conditions dexprience ; la relation entre chaque variable explicative quantitative (ou covariable) et le risque instantan doit tre log - linaire ; le rapport des risques instantans de deux individus doit tre indpendant du temps (voir ci - dessous pour tester ces deux hypothses, dont la seconde est dite des risques proportionnels). Crer le modle cens reprsenter les donnes, grce la fonction coxph() du package survival : modele<-coxph(formule) o formule est la formule contenant la variable expliquer (i.e. lobjet de survie cr via la fonction Surv()) et les variables explicatives (voir che 71). Pour tester lhypothse de log - linarit entre les covariables et le risque instantan, utiliser la fonction cox.resid() du package RVAideMemoire : cox.resid(modele,list(variable1=variable1,variable2=variable2... )) o le 2nd argument est une liste contenant chaque covariable. La fonction trace un graphe par covariable. Sur ces graphes, la ligne rouge reprsente la tendance du nuage de point. On accepte lhypothse de log - linarit pour une

covariable si la ligne rouge correspondante est peu prs horizontale. Dans le cas contraire il vaut mieux alors la transformer en facteur en la dcoupant en classes, puis la rintgrer au modle. Pour tester lhypothse des risques proportionnels, utiliser la fonction cox.zph() du package survival : cox.zph(modele). La fonction teste lhypothse pour chaque variable explicative, ainsi que pour le modle global. Si une p - value est signicative, cela indique que lhypothse nest pas respecte pour la variable explicative en question, qui est dite dpendante du temps. Il vaut mieux alors lintgrer au modle en temps que strate et non variable explicative (pour les variables explicatives quantitatives, cela passe par un dcoupage en classes et une transformation en facteur). Leet de la variable ne sera plus calcul, mais pris en compte travers la dnition de risques instantans de base dirents selon les strates. Pour intgrer une strate dans la formule du modle, ajouter +strata(variable) aprs les variables explicatives (et retirer la variable dsormais stratie des variables explicatives). Une fois toutes ces vrications faites, raliser lanalyse de dviance via anova(modele). Le tableau renvoy donne leet de chaque variable explicative (et de leurs interactions si elles sont prises en compte) et la p - value associe. Si une p - value est signicative, cela indique : si la variable explicative en question est quantitative, quelle a un eet sur le temps de survie si la variable explicative en question est un facteur, quau moins deux classes de ce facteur ont un eet dirent sur le temps de survie (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Utiliser pour cela la fonction surv.multcomp() du package RVAideMemoire : surv.multcomp(a.expliquer,facteur,matrice,type="coxph"), o facteur est le facteur dont on veut comparer les classes et matrice est la matrice des comparaisons, construite de la mme faon que pour la mthode des contrastes (voir che 74). Ajouter largument strata=variable si une variable explicative est stratie dans modele si la p - value correspond linteraction entre deux variables, quau moins deux combinaisons des deux variables ont un eet dirent sur le temps de survie (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les combinaisons en question. Utiliser pour cela la fonction surv.multcomp() du package RVAideMemoire : surv.multcomp(a.expliquer,interaction,matrice,type="coxph") (voir che 74 pour crer le nouveau facteur interaction et la matrice des comparaisons). Ajouter largument strata=variable si une variable explicative est stratie dans modele.

58. i Tracer des courbes de survie


La premire tape est de crer les donnes des courbes de survie. Utiliser pour cela la fonction survfit() du package survival, mais de faon dirente selon lobjectif dsir : pour reprsenter une courbe par niveau dun facteur : courbes<-survfit (formule) o formule est la formule contenant la variable expliquer (i.e. lobjet de survie, voir che 57) et le facteur (voir che 71). Il est possible dajouter une strate dans la formule (voir che 57) pour tracer des courbes par niveau du facteur et par strate. Pour tracer une courbe par combinaison des classes de deux facteurs (si cest leet de linteraction entre ces deux facteurs qui doit tre reprsent), commencer par crer un nouveau facteur : interaction<-factor(paste(facteur1,facteur2, sep=":")) puis utiliser ce facteur comme variable explicative dans formule pour reprsenter une courbe moyenne aprs ajustement dun modle de Cox : courbes<-survfit(modele) (voir che 57 pour la cration dun modle de Cox). Tracer ensuite ces courbes de survie, simplement via plot(courbes). Les individus censurs sont reprsents par une croix (+). Comme pour tout graphique, R ore de nombreuses possibilits de personnalisation grce aux arguments facultatifs de plot() : pour tracer les intervalles de conance ( 95 %) des courbes de survie, utiliser largument conf.int (TRUE ou FALSE) pour que le trac des lignes (pleine, pointille. . .) dire si plusieurs sont reprsentes, utiliser largument lty (voir laide de la fonction par()) pour que la couleur des lignes dire si plusieurs sont reprsentes, utiliser largument col (voir laide de la fonction par()). Enn, pour ajouter une lgende, utiliser la fonction legend() (voir laide de cette fonction, qui possde de nombreux arguments facultatifs).

59. Indpendance de deux variables qualitatives


Les donnes doivent tre organises en un tableau de contingence du type : Variable B Classe 1 . . . Classe c Variable A Classe 1 ... Classe k

o chaque case contient le nombre dindividus possdant la fois le caractre de la variable A et celui de la variable B. Ce tableau est obtenu de la manire suivante : tab.cont<-table(variableA,variableB) o variableA et variableB sont des vecteurs contenant la valeur de chaque individu pour chaque variable (dans le mme ordre). Une reprsentation graphique du tableau de contingence peut tre obtenue laide de la fonction mosaicplot(tab.cont). Test du 2 dhomognit (ou dindpendance ; non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes des deux variables doivent tre exclusives ; chaque case du tableau de contingence doit prsenter un eectif thorique non nul et 5 (voir ci - dessous pour obtenir les eectifs thorique). Pour raliser le test : chisq.test(tab.cont). Les eectifs thoriques sont donns par la fonction chisq.test(tab.cont)$ expected) Test exact de Fisher (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes des deux variables doivent tre exclusives. Pour raliser le test : fisher.test(tab.cont). Si le message davertissement out of workspace apparat, augmenter la valeur de largument workspace (par dfaut workspace=200000). Si un autre message davertissement apparat, cela peut tre cause dun tableau trop complexe analyser. Quel que soit le test utilis, une p - value signicative indique que les deux variables ne sont pas indpendantes, sans prciser les classes qui sont lorigine de cette liaison. Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Utiliser pour cela la fonction fisher.multcomp() du package RVAideMemoire : fisher.multcomp(tab.cont). La fonction ralise un test exact de Fisher sur chaque tableau de contingence 2 x 2 possible partir de tab.cont, et renvoie tous les rsultats dont la p - value est infrieure 0,1. Il est ncessaire dinterprter ces rsultats pour reprer les classes qui apparaissent systmatiquement

dans les tests qui donnent un p - value signicative. Ce sont ces classes qui sont lies. Il peut arriver que les comparaisons deux - - deux nindiquent aucune liaison signicative, contrairement au test global. Dans ce cas, la solution la plus prudente est de considrer quon ne peut pas savoir quelles classes sont responsables du rejet de lhypothse nulle dans le test global.

60. Corrlation entre deux variables


Coecient de corrlation linaire de Pearson (paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les deux variables doivent tre quantitatives ; chaque individu doit possder une valeur pour les deux variables ; chaque variable doit avoir une distribution normale ; pour chaque valeur dune variable, la distribution des valeurs possibles de la seconde doit suivre une loi normale (voir ci - dessous pour tester cette hypothse, dite de binormalit) ; la relation entre les deux variables doit tre linaire. Avant de raliser le test, il est indispensable de vrier que la relation entre les deux variables est linaire. Examiner cette condition laide dun graphique de type plot() (voir che 13). Pour raliser le test : cor.test(variable1,variable2,method="pearson") o variable1 et variable2 sont des vecteurs contenant la valeur de chaque individu pour chaque variable (dans le mme ordre). R renvoie la valeur du coecient de corrlation et son intervalle de conance 95 %. Pour tester lhypothse de binormalit, tester la normalit des rsidus de la rgression de la 1re variable sur la 2me et inversement, en utilisant les fonctions qqnorm() et shapiro.test() (voir ches 38 et 73) sur lm(variable1~variable2)$resid et lm(variable2~variable1)$resid. Ce test tant assez robuste, la condition de binormalit est peu contraignante lorsque lchantillon est de grande taille (> 20 individus). Il peut dans ces conditions tre aussi utilis pour des variables qualitatives ordinales codes sous forme numrique. Prendre garde aux individus extrmes qui ont une grande inuence sur le coecient de corrlation. Coecient de corrlation de Spearman (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les deux variables doivent tre quantitatives ou qualitatives ordinales (codes numriquement) ; chaque individu doit possder une valeur pour les deux variables ; la relation entre les deux variables doit tre monotone (ascendante ou descendante, mais pas forcment linaire). Avant de raliser le test, il est indispensable de vrier que la relation entre les deux variables est monotone. Examiner cette condition laide dun graphique de type plot() (voir che 13). Pour raliser le test : cor.test(variable1,variable2,method="spearman"). R ne calcule pas lintervalle de conance du coecient de corrlation, pour lobtenir utiliser la fonction spearman.ci() du package RVAideMemoire, qui le calcule par bootstrap : spearman.ci(variable1,variable2). La fonction renvoie par dfaut lintervalle de conance 95 %.

Coecient dassociation de Cramer (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les deux variables doivent tre qualitatives (ordinales ou nominales) ; chaque individu doit possder une valeur pour les deux variables ; chaque classe des deux variables doit contenir au moins 5 % du nombre total dindividus. Pour raliser le test, utiliser la fonction cramer.cor() du package RVAideMemoire : cramer.cor(variable1,variable2). La fonction renvoie lintervalle de conance 95 % du coecient dassociation, calcul par bootstrap. Contrairement aux coecients de Pearson et Spearman, le coecient dassociation de Cramer nest pas un coecient de corrlation (encore moins de corrlation linaire) car les variables auxquelles il sintresse ne sont pas quantitatives. Il reprsente simplement lintensit de la liaison entre deux variables qualitatives.

61. Conformit dun coecient de corrlation linaire avec une valeur thorique
Dans la pratique, un coecient de corrlation est le plus souvent compar la valeur nulle, ce qui permet de conclure sil y a corrlation ou pas entre les deux variables. La fonction cor.test() ralise systmatiquement ce test et en revoie la p - value lorsquelle calcule un coecient de corrlation de Pearson ou de Spearman (voir che 60). Pour comparer un coecient de corrlation de Pearson une valeur quelconque, utiliser la fonction cor.conf() du package RVAideMemoire : cor.conf(variable1,variable2,theo=valeur) o variable1 et variable2 sont des vecteurs contenant la valeur de chaque individu pour les deux variables (dans le mme ordre), et valeur la valeur thorique comparer (entre -1 et 1). Les conditions dutilisation de ce test sont identiques celles du calcul du coecient de corrlation linaire de Pearson (voir che 60). De faon plus gnrale, on peut tester la conformit dun coecient de corrlation (ou dassociation) avec une valeur thorique quelconque simplement en regardant si celle - ci est contenue dans lintervalle de conance du coecient (le niveau de prcision de cet intervalle tant le plus souvent de 95 %, mais cette valeur est toujours modiable).

62. Comparaison de plusieurs coecients de corrlation linaire


Ces tests ne sappliquent quaux coecients de corrlation linaire de Pearson (voir che 60). Leurs conditions dutilisation sont identiques celles du calcul du coecient de corrlation linaire de Pearson (voir che 60). Comparaison de deux coecients Pour raliser le test, utiliser selon la situation lune des deux fonctions suivantes, contenues dans le package RVAideMemoire : cor.2comp(variable1,variable2,variable3,variable4) o variable1 et variable2 sont des vecteurs contenant la valeur de chaque individu pour les deux variables dnissant la 1re corrlation (dans le mme ordre), tandis que variable3 et variable4 sont des vecteurs contenant la valeur de chaque individu pour les deux variables dnissant la 2nde corrlation (dans le mme ordre) cor.multcomp(variable1,variable2,facteur) o variable1 et variable2 sont des vecteurs contenant la valeur de chaque individu pour les deux variables tester (dans le mme ordre), et facteur un vecteur contenant la valeur de chaque individu pour le facteur dnissant les deux groupes comparer. Si les deux coecients de corrlation ne sont signicativement pas dirents, les deux fonctions renvoient la valeur du coecient de corrlation commun, son intervalle de conance 95 % et le rsultat du test de conformit de ce coecient avec la valeur nulle (cette valeur thorique peut tre modie grce largument theo=valeur). Comparaison de plus de deux coecients Pour raliser le test, utiliser la fonction cor.multcomp() du package RVAideMemoire : cor.multcomp(variable1,variable2,facteur) o variable1 et variable2 sont des vecteurs contenant la valeur de chaque individu pour les deux variables tester (dans le mme ordre), et facteur un vecteur contenant la valeur de chaque individu pour le facteur dnissant les groupes comparer (dans le mme ordre que les deux premiers vecteurs). Si les coecients de corrlation ne sont signicativement pas dirents, la fonction renvoie la valeur du coecient de corrlation commun, son intervalle de conance 95 % et le rsultat du test de conformit de ce coecient avec la valeur nulle (cette valeur thorique peut tre modie grce largument theo=valeur). Si la p - value du test est signicative, cela indique quau moins deux coecients dirent lun de lautre, sans prciser lesquels. La fonction eectue alors toutes les comparaisons deux - - deux possibles.

63. La rgression linaire simple au sens des moindres carrs


Ce type de rgression est utilis lorsque lon a une variable expliquer et une variable explicative, la relation entre les deux tant linaire. Il est indispensable dobserver graphiquement la relation entre les deux variables avant denvisager une rgression linaire (voir che 13), ne serait - ce que pour contrler si cette relation est eectivement linaire. Conditions : lchantillonnage doit tre alatoire et simple ; chaque individu doit possder une valeur pour les deux variables ; la relation entre les deux variables doit tre linaire ; pour chaque valeur de la variable explicative la distribution des rsidus de la rgression doit suivre une loi normale, de plus toutes ces lois normales doivent avoir la mme variance (hypothse dite dquivariance) ; les rsidus de la rgression doivent tre indpendants des deux variables (voir che 73 pour tester les deux conditions prcdentes). La rgression scrit regression<-lm(formule), o lm() construit un modle linaire, tandis que formule est la formule contenant la variable expliquer et la variable explicative (voir che 71). Paramtres de la rgression Valeurs, erreurs standards et intervalles de conance La plupart des informations sur la rgression sont donnes par la fonction summary(regression). En particulier, la ligne (Intercept) du tableau Coefficients donne la valeur (Estimate) et lerreur standard (Std. Error) de lordonne lorigine de la droite de rgression, tandis que la ligne ayant le nom de la variable explicative donne la valeur et lerreur standard du coecient directeur (ou pente) de la droite. Les intervalles de conance de lordonne lorigine et du coecient directeur sont obtenus grce la fonction confint(regression). Tests de conformit avec la valeur nulle Lorsque la fonction summary(regression) est appele, R ralise automatiquement un test de conformit des paramtres de la droite par rapport zro. Les p - values de ces tests sont donnes dans le tableau Coefficients, sur la ligne (Intercept) pour lordonne lorigine et sur la ligne ayant le nom de la variable explicative pour le coecient directeur. Analyse des contributions individuelles La rgression linaire est trs sensible aux individus extrmes. Ceux - ci peuvent en eet avoir une grande inuence sur ses paramtres. Il est donc indispensable de vrier que la valeur des paramtres nest pas due en grande partie seulement un ou quelques individus. Pour cela utiliser la fonction ind.contrib() du package RAideMemoire : ind.contrib(regression). La

fonction calcule la valeur des paramtres de la droite de rgression en enlevant tour de rle chaque individu. Elle renvoie la dirence entre les paramtres de la rgression complte et ceux calculs, exprime en proportion des paramtres de la rgression complte. Par dfaut elle trace un graphique pour reprsenter les rsultats, pour obtenir seulement le tableau des rsultats utiliser les arguments graph=FALSE et print.diff=TRUE. Pouvoir explicatif de la rgression Le coecient de dtermination R2 reprsente la part de la variance de la variable expliquer qui est explique par la variable explicative. Il varie entre 0 (i.e. la variable explicative napporte aucune information) et 1 (i.e. les valeurs prises par la variable expliquer sont totalement expliques par la variable explicative). Graphiquement, plus R2 est lev et plus les points sont proches de la droite de rgression. Dans le cas de la rgression linaire simple (i.e. avec une seule variable explicative), le coecient de dtermination est gal au carr du coecient de corrlation linaire de Pearson (voir che 60). La valeur de R2 est donne lorsque la fonction summary(regression) est appele. Il se nomme Multiple R-Squared. Prdiction partir de la rgression Le but dune rgression linaire est souvent de dterminer lquation de la droite, qui sert ensuite prdire les valeurs prises par la variable expliquer partir de valeurs connues de la variable explicative. Cette prdiction peut tre ralise grce la fonction predict(regression,list(explicative=valeur)) o valeur est soit un nombre, soit un vecteur de nombres correspondant aux valeurs de la variable explicative pour lesquelles on souhaite obtenir la valeur de la variable expliquer. Il faut toutefois tre vigilant car lquation de la droite de rgression est tablie partir dune certaine gamme de valeurs de la variable explicative. Il est donc dautant plus hasardeux de prdire une valeur de la variable expliquer partir dune valeur de la variable explicative que celle - ci est loigne de cette gamme. Rien ne dit par exemple que la relation entre les deux variables est toujours linaire en dehors de la gamme de valeurs qui a servi dnir la rgression.

64. La rgression linaire simple au sens des moindres rectangles


Ce type de rgression est utilis lorsque lon a deux variables considres sur un pied dgalit, aucune ntant explique par lautre. On dit ces variables interdpendantes. En pratique la rgression linaire au sens des moindres rectangles est surtout utilise en allomtrie, o sont compares plusieurs caractristiques physiques dun mme organe ou organisme (en gnral lune des deux variables est la taille ou la masse, ce qui permet dutiliser ces mesures simples comme reet de mesures plus diciles raliser). Il est indispensable dobserver graphiquement la relation entre les deux variables avant denvisager une rgression linaire (voir che 13), ne serait - ce que pour contrler si cette relation est eectivement linaire. Conditions : lchantillonnage doit tre alatoire et simple ; chaque individu doit possder une valeur pour les deux variables ; la relation entre les deux variables doit tre linaire ; chaque variable doit avoir une distribution normale ; pour chaque valeur dune variable, la distribution des valeurs possibles de la seconde doit suivre une loi normale (voir ci - dessous pour tester cette hypothse, dite de binormalit). La rgression scrit grce la fonction least.rect() du package RVAideMemoire : regression<-least.rect(variable.x,variable.y), o variable.x et variable.y sont des vecteurs contenant la valeur de chaque individu pour chaque variable (dans le mme ordre). Les noms variable.x et variable.y nont quune valeur graphique : variable.x est destin tre trac en abscisses et variable.y en ordonnes. Pour tester lhypothse de binormalit, tester la normalit des rsidus de la rgression de la 1re variable sur la 2me et inversement, en utilisant les fonctions qqnorm() et shapiro.test() (voir ches 38 et 73) sur lm(variable.x~variable.y)$resid et lm(variable.y~variable.x)$resid. Paramtres de la rgression Valeurs et intervalles de conance Toutes les informations importantes sur la rgression sont donnes en appelant regression. En particulier, la fonction renvoie lquation de la droite de rgression et la valeur de ses paramtres : (Intercept) correspond lordonne lorigine et le coecient variable.x correspond au coecient directeur de la droite. La fonction renvoie galement lintervalle de conance 95 % de ces paramtres. Test de conformit du coecient directeur avec une valeur thorique Le coecient directeur est gnralement compar la valeur 1, qui correspond en allomtrie une relation disomtrie entre les deux caractristiques

compares. Par dfaut la fonction least.rect() utilise cette valeur 1 pour raliser le test, dont le rsultat est renvoy en appelant regression. La valeur thorique peut tre modie grce largument theo=valeur. Analyse des contributions individuelles La rgression linaire est trs sensible aux individus extrmes. Ceux - ci peuvent en eet avoir une grande inuence sur ses paramtres. Il est donc indispensable de vrier que la valeur des paramtres nest pas due en grande partie seulement un ou quelques individus. Pour cela utiliser la fonction ind.contrib() du package RAideMemoire : ind.contrib(regression). La fonction calcule la valeur des paramtres de la droite de rgression en enlevant tour de rle chaque individu. Elle renvoie la dirence entre les paramtres de la rgression complte et ceux calculs, exprime en proportion des paramtres de la rgression complte. Par dfaut elle trace un graphique pour reprsenter les rsultats, pour obtenir seulement le tableau des rsultats utiliser les arguments graph=FALSE et print.diff=TRUE. Prcision de la rgression En comparaison avec la mthode des moindres carrs et son coecient de dtermination R2 (voir che 63), il ny a pas pour la rgression linaire au sens des moindres rectangles de quantication de cette prcision. Cependant on peut utiliser le coecient de corrlation linaire de Pearson (voir che 60) pour sen faire une ide : plus ce coecient est proche de 1 ou -1, plus la prcision est grande. Un appel regression renvoie ce coecient de corrlation. Prdiction partir de la rgression Le but dune rgression au sens des moindres rectangles nest gnralement pas de prdire les valeurs dune variable, puisquaucune des deux variables nest explicative (et donc contrle). Cependant, sil en est besoin, il sut simplement dutiliser lquation de la droite renvoye en appelant regression. Il faut toutefois tre vigilant car lquation de la droite de rgression est tablie partir dune certaine gamme de valeurs de variable.x. Il est donc dautant plus hasardeux de prdire une valeur de variable.y partir dune valeur de variable.x que celle - ci est loigne de cette gamme. Rien ne dit par exemple que la relation entre les deux variables est toujours linaire en dehors de la gamme de valeurs qui a servi dnir la rgression.

65. Comparaison de plusieurs droites de rgression linaire simple


Droites de rgression au sens des moindres carrs Lanalyse ralise est en fait une analyse de la covariance (ANCOVA), puisquelle fait intervenir une variable expliquer quantitative, une variable explicative quantitative (la covariable) et une variable explicative qualitative (le facteur, qui dnit les droites comparer). Conditions : identiques celles de lanalyse de la variance (voir che 55), de plus la relation entre la variable expliquer et la covariable doit tre linaire. Commencer par crire le modle modele<-lm(a.expliquer~covariable* facteur) o a.expliquer, covariable et facteur sont des vecteurs contenant la valeur de chaque individu pour chacune des trois variables (dans le mme ordre). LANCOVA est ralise grce la fonction anova(modele). Le tableau renvoy donne leet de la covariable, celui du facteur et celui de leur interaction. Si la p - value associe la covariable est signicative, cela indique que les coecients directeurs des droites de rgression sont dirents de la valeur nulle. Si la p - value associe linteraction facteur - covariable est signicative, cela indique quau moins deux coecients directeurs sont dirents lun de lautre, sans prciser lesquels. Pour identier ces coecients, utiliser la fonction reg.slpcomp() du package RVAideMemoire : reg.slpcomp(a.expliquer,covariable,facteur). Cette fonction renvoie la valeur et lintervalle de conance de chaque coecient directeur. Elle eectue galement toutes les comparaisons deux - - deux possibles. Dans le cas de coecients directeurs dirents (i.e. de droites non parallles), les rgressions doivent tre tudies sparment (voir che 63). Si la p - value associe linteraction facteur - covariable nest pas signicative, cela indique que les coecients directeurs ne sont pas dirents (i.e. les droites de rgression sont parallles). On peut dans ce cas calculer la valeur du coecient commun et comparer les ordonnes lorigine des direntes droites de rgression. Utiliser pour cela la fonction reg.intcomp() du package RVAideMemoire : reg.intcomp(a.expliquer,covariable,facteur). Cette fonction renvoie la valeur et lintervalle de conance du coecient directeur commun toutes les rgressions, lordonne lorigine de chaque rgression ainsi que son intervalle de conance et le rsultat du test de conformit avec la valeur nulle (cette valeur thorique peut tre modie par largument theo=valeur, o valeur est un vecteur contenant lordonne lorigine thorique de chaque rgression, dans lordre alphabtique des modalits du facteur). Elle eectue galement toutes les comparaisons deux - - deux possibles entre les ordonnes lorgine.

Finalement, les rgressions qui ne dirent ni par leur coecient directeur ni par leur ordonne lorigine peuvent tre regroupes (i.e. les classes correspondantes du facteur peuvent tre regroupes). Droites de rgression au sens des moindres rectangles Il nexiste pas de test statistique simple permettant de comparer des droites de rgression au sens des moindres rectangles. On peut cependant utiliser la fonction lr.multcomp() du package RVAideMemoire, qui compare simplement les intervalles de conance des paramtres des droites de rgression. Ses conditions dutilisation sont identiques celles de la rgression linaire simple au sens des moindres rectangles (voir che 64). Pour raliser les comparaisons : lr.multcomp(variable.x,variable.y,facteur) o variable.x, variable.y et facteur sont des vecteurs contenant la valeur de chaque individu pour chacune des trois variables (dans le mme ordre). Les direntes droites de rgression sont dnies par rapport aux classes du facteur. Les noms variable.x et variable.y nont quune valeur graphique : variable.x est trac en abscisses, variable.y en ordonnes.

66. La rgression logistique binaire simple


Ce type de rgression est utilis lorsque lon a une variable expliquer binaire (0 = pas de rponse, 1 = rponse ; ex : mort ou vivant) et une variable explicative quantitative continue. La variable tudie est donc une probabilit de rponse. Conditions : lchantillonnage doit tre alatoire et simple ; les classes de la variable expliquer doivent tre exclusives. Eet de la variable explicative sur la variable expliquer Choix du modle Commencer par construire le Modle Linaire Gnralis (GLM ) cens reprsenter les donnes : modele1<-glm(formule,family=binomial(link="logit")) o formule est la formule contenant la variable expliquer et la variable explicative (voir che 71). La loi binomiale (qui reprsente en fait la loi de distribution des erreurs du modle) est utiliser lorsque la variable expliquer est binaire. La prcision link="logit" dcrit la fonction de lien qui rend la relation entre les deux variables linaires (ce nest pas vraiment directement la relation entre les variables qui est rendue linaire, mais peu importe ici). Appeler ensuite le rsum du modle via summary(modele1). Parmi les informations renvoyes, noter la valeur de la dviance rsiduelle (Residual deviance). Cette valeur reprsente de faon globale lcart entre les valeurs prdites par le modle et les donnes relles. Elle doit donc tre la plus faible possible. Comparer cette dviance rsiduelle avec celle du second modle : modele2<-glm(formule,family=binomial(link="cloglog")). Choisir celui des deux modles qui possde la plus petite dviance rsiduelle pour continuer lanalyse. On le nommera simplement modele.lineaire. Eet de la variable explicative Appeler le rsum du modle via summary(modele.lineaire). Parmi les informations renvoyes, le tableau Coefficients donne la valeur (Estimate) du coecient directeur de la droite de rgression (cette droite de rgression ne relie pas directement la variable expliquer avec la variable explicative), ainsi que le rsultat du test de conformit de ce coecient avec la valeur nulle. Ce quil faut observer ici est le rsultat du test de conformit. Si la p - value est signicative, cela veut dire que la variable explicative a rellement un eet sur la probabilit de rponse et lanalyse peut continuer. Dans le cas contraire lanalyse sarrte car la variable explicative na pas deet. Paramtres de la courbe de rgression Valeurs, erreurs standards et intervalles de conance Si la variable explicative a un eet sur la probabilit de rponse, la courbe

de rgression (celle qui relie directement les deux variables) est logistique (i.e. sigmode). Il faut construire le modle de cette rgression pour en obtenir les paramtres (ici un modle trois paramtres est utilis, voir che 67 pour un modle quatre paramtres). Utiliser pour cela la procdure suivante, qui fait appel la fonction logis.noise() du package RVAideMemoire : > y<-logis.noise(modele.lineaire) > modele.logistique<-nls(y~SSlogis(explicative,Asymp,mid,scale)) Appeler ensuite le rsum du modle via summary(modele.logistique). Parmi les informations renvoyes, le tableau Coefficients donne la valeur (Estimate) et lerreur standard (Std. Error) des trois paramtres de la courbe : lasymptote (Asymp), labscisse du point dinexion (mid) et lchelle (scale). Les intervalles de conance de ces paramtres sont obtenus grce la fonction confint(modele.logistique). Tests de conformit avec la valeur nulle Lorsque la fonction summary(modele.logistique) est appele, R ralise automatiquement un test de conformit des paramtres de la courbe par rapport la valeur nulle. Les p - values de ces tests sont donnes dans le tableau Coefficients, sur la ligne de chaque paramtre. Ajustement du modle aux donnes Il est toujours dicile dans le cas dune rgression logistique binaire de savoir si le modle est bien ajust aux donnes. On peut sen faire une ide graphiquement grce la fonction logis.fit() du package RVAideMemoire. Il faut au pralable avoir trac la courbe de rgression (voir che 68), puis utiliser : logis.fit(modele.lineaire). La fonction dcoupe en fait les valeurs de la variable explicative en un certains nombre dintervalles (par dfaut 5, pour changer cette valeur utiliser largument int), et calcule la probabilit de rponse et son erreur standard pour chaque intervalle. Les points et barres derreurs correspondants sont ensuite ajouts sur la courbe de rgression. Il faut garder en tte que cette procdure comporte une grande part darbitraire (surtout dans le choix du nombre dintervalles) et na rien voir avec un quelconque test. Prdiction partir de la rgression Le but de la rgression logistique est souvent de prdire la probabilit de rponse selon une valeur donne de la variable explicative. Cette prdiction peut tre ralise grce la fonction predict(modele.lineaire,list(explicative=valeur),type="response") o valeur est soit un nombre, soit un vecteur de nombres correspondant aux valeurs de la variable explicative pour lesquelles on souhaite obtenir la probabilit de rponse.

67. La rgression non linaire simple


Ce type de rgression est utilis lorsque que la relation entre une variable expliquer et une variable explicative nest pas linaire, mais que lon connat le type dquation qui peut la reprsenter. Lobservation graphique de cette relation est donc primordiale pour choisir le type dquation (voir che 13). Paramtres de la rgression Rgression quadratique (ou polynomiale du 2nd degr) Elle scrit regression<-lm(a.expliquer~explicative+I(explicative2)) o a.expliquer et explicative sont des vecteurs contenant la valeur de chaque individu pour les deux variables (dans le mme ordre), et I() une fonction indiquant que ce qui est situ entre ses parenthses est une formule mathmatique. La rgression est analyse grce summary(regression) de la mme faon quune rgression linaire simple au sens des moindres carrs (valeur, erreur standard et conformit des paramtres avec la valeur nulle, pouvoir explicatif et prdiction ; voir che 63). Elle peut tre tendue une rgression polynomiale de degr suprieur en rajoutant les autres termes via la fonction I() dans la formule. Autres rgressions non linaires Leur syntaxe est toujours de la forme regression<-nls(a.expliquer~equation) o nls() est la fonction construisant la rgression et equation une fonction dpendante de lquation choisie, la plupart du temps parmi les suivantes :
Type de rgression Asymptotique Michaelis - Menten Exponentielle 2 paramtres Exponentielle 3 paramtres Sigmode Logistique 3 paramtres Logistique 4 paramtres Weibull Gompertz En cloche Biexponentielle Equation
ax y = 1+bx y = a(1 ebx ) y = a becx

equation SSmicmen(explicative,a,b) SSasympOrig(explicative,a,b SSasymp(explicative,a,b,c) SSlogis(explicative,a,b,c) SSfpl(explicative,a,b,c,d) SSweibull(explicative,a,b,c,d) SSgompertz(explicative,a,b,c) SSbiexp(explicative,a,b,c,d)

y=

y =a+

a 1+becx ba
cx 1+e d d

y = a be(cx cx y = aebe

y = aebx cedx

La valeur, lerreur standard et le rsultat du test de conformit avec la valeur nulle des paramtres de lquation sont donns par la fonction summary(regression). Lintervalle de conance 95 % des paramtres est donn par la fonction confint(regression).

Prdiction partir de la rgression Quelle que soit la rgression, la syntaxe est toujours de la forme predict( regression,list(explicative=valeur)) o valeur est soit un nombre, soit un vecteur de nombres correspondant aux valeurs de la variable explicative pour lesquelles on souhaite obtenir la valeur de la variable expliquer. Il faut toutefois tre vigilant car lquation de la droite de rgression est tablie partir dune certaine gamme de valeurs de la variable explicative. Il est donc dautant plus hasardeux de prdire une valeur de la variable expliquer partir dune valeur de la variable explicative que celle - ci est loigne de cette gamme. Rien ne dit par exemple que la relation entre les deux variables est toujours de la mme forme en dehors de la gamme de valeurs qui a servi dnir la rgression.

68. i Tracer une droite ou une courbe de rgression simple


La premire tape est identique pour tous les types de rgression : reprsenter le nuage de points. Ceci est obtenu simplement via plot(explicative,a.expliquer) o explicative et a.expliquer sont des vecteurs contenant la valeur de chaque individu pour chaque variable. Dans le cas de la rgression linaire au sens des moindres rectangles (o les deux variables sont interdpendantes), la syntaxe est plot(variable.x,variable.y). Rgression linaire au sens des moindres carrs La droite sobtient simplement via abline(regression) (voir che 63 pour plus dinformations sur la rgression linaire simple au sens des moindres carrs). Il est possible de tracer un intervalle de conance autour de la droite de rgression. On sintresse gnralement : soit lintervalle de conance des points de la droite, i.e. lintervalle de conance de la moyenne de la variable expliquer pour une valeur donne de la variable explicative soit lintervalle de conance des valeurs individuelles, i.e. lintervalle de conance des valeurs individuelles prises par la la variable expliquer pour une valeur donne de la variable explicative. Pour ajouter lun de ces intervalles de conance sur la droite, utiliser la fonction reg.ci() du package RVAideMemoire : reg.ci(regression,type=type. ci), o type.ci vaut "mean" pour lintervalle de conance des moyennes ou "ind" pour lintervalle de conance des valeurs individuelles.

Rgression linaire au sens des moindres rectangles La droite sobtient simplement via abline(regression) (voir che 64 pour plus dinformations sur la rgression linaire simple au sens des moindres rectangles).

Rgression logistique binaire La courbe sobtient simplement via lines(explicative,modele.lineaire$fitted.values) (voir che 66 pour plus dinformations sur la rgression logistique binaire simple). On peut se faire une ide graphique de lajustement du modle aux donnes en utilisant la fonction logis.fit() du package RVAideMemoire : logis.fit(modele.lineaire) (voir che 66).

Autres rgressions non linaires La procdure est lgrement plus longue dans ce cas. Elle fait appel la fonction seq2() du package RVAideMemoire : > x<-seq2(explicative) > y<-predict(regression,list(explicative=x)) > lines(x,y) Voir che 67 pour plus dinformations sur la rgression non linaire simple.

69. Lanalyse de la covariance un facteur


Ce type danalyse est utilis lorsque lon a une variable expliquer quantitative et deux variables explicatives, lune quantitative (la covariable) et lautre qualitative (le facteur). Lanalyse de la covariance (ANCOVA) peut tre employe pour des donnes telles que eectifs, des proportions, des probabilits de rponse, des moyennes ou encore pour comparer des droites de rgression linaire au sens des moindres carrs (sur ce dernier point, voir che 63). Cette che ne traite pas de lANCOVA mixte (i.e. avec facteur alatoire). Pour plus dinformations, voir Bates (2010). Moyennes Dans ce cadre, lANCOVA est utilise pour comparer des moyennes en fonction des modalits dun facteur, tout en tenant compte dune variable auxiliaire (la covariable). Le but est dliminer linuence de la covariable, qui peut tre une variable dirente de la variable expliquer ou une mesure antrieure (ex : en dbut dexprience) de cette mme variable expliquer. La covariable ne doit pas tre inuence par le facteur. Si elle lest, il convient dutiliser lanalyse de la covariance avec beaucoup de prudence (surtout au moment de conclure). Conditions : identiques celles de lanalyse de la variance (voir che 55), de plus la relation entre la variable expliquer et la covariable doit tre linaire. Commencer par crire le modle cens reprsenter les donnes : modele<-lm(a.expliquer~covariable+facteur) o a.expliquer, covariable et facteur sont des vecteurs contenant la valeur de chaque individu pour chacune des trois variables (dans le mme ordre). Lanalyse est ensuite ralise via la fonction anova(modele). Le tableau renvoy donne leet de la covariable et celui du facteur. Si la p - value associe au facteur est signicative, cela indique quau moins deux moyennes dirent lune de lautre (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les moyennes en question. Utiliser pour cela la fonction scheffe.test() du package agricolae : scheffe.test(modele,trt="facteur") (le facteur doit tre entre guillemets). Eectifs, proportions et probabilits de rponse Dans ce cadre, lANCOVA est utilise : soit pour comparer les valeurs de la variable expliquer en fonction des modalits du facteur, tout en tenant compte dune variable auxiliaire (la covariable). Le but est ici dliminer linuence de la covariable, qui peut tre une variable dirente de la variable expliquer ou une mesure antrieure (ex : en dbut dexprience) de cette mme variable expliquer

soit pour comparer la relation entre la variable et la covariable en fonction des modalits du facteur. Quel que soit lobjectif, la covariable ne doit pas tre inuence par le facteur. Si elle lest, il convient dutiliser lanalyse de la covariance avec beaucoup de prudence (surtout au moment de conclure). Conditions : lchantillonnage doit tre alatoire et simple ; les classes du facteur doivent tre exclusives. Commencer par crire le modle cens reprsenter les donnes : modele<-glm(formule,family=loi) o formule est la formule contenant la variable expliquer, le facteur et la covariable (voir che 71), et loi dpend du type de variable expliquer (voir che 41 pour des probabilits de rponse, 45 pour des eectifs et 51 pour des proportions). Attention, selon lobjectif de lanalyse lordre des variables explicatives nest pas forcment le mme (voir che 71). Si la variable expliquer reprsente des eectifs ou des proportions, il est indispensable de vrier sil ny a pas surdispersion des rsidus. Si cest le cas il est ncessaire de remplacer la loi du modle par quasipoisson (voir che 45) ou quasibinomial (voir che 51), ou dutiliser la fonction glm.nb() du package MASS (voir che 45). Lanalyse est ensuite ralise via la fonction anova(modele), en prcisant test="F" si la loi est quasipoisson ou quasibinomial, test="Chi" dans tous les autres cas . Le tableau renvoy donne leet de la covariable, celui du facteur et celui de leur interaction. Si linteraction facteur - covariable a t prise en compte dans le modle et que la p - value associe est signicative, cela indique quil y a une relation entre la variable expliquer et la covariable, mais quelle est dirente selon la modalit du facteur. Si la p - value associe la covariable est signicative et que linteraction ne lest pas (ou quelle na pas t prise en compte dans le modle), cela indique quil y a une relation entre la variable expliquer et la covariable, indpendamment de la modalit du facteur. Lanalyse peut donc tre rduite une analyse de la rgression entre la variable expliquer et la covariable (voir che 66 pour des probabilits de rponse, non dvelopp dans cet ouvrage pour les eectifs et les proportions ; cependant la procdure est la mme que lANCOVA, sans le facteur). Si la p - value associe au facteur est signicative et que linteraction ne lest pas (ou quelle na pas t prise en compte dans le modle), cela signie que les valeurs de la variable expliquer sont direntes selon la modalit du facteur, indpendamment de la covariable. Lanalyse peut donc tre rduite une comparaison de probabilits de rponse (voir che 41), deectifs (voir che 45) ou de proportions (voir che 51). Quelle que soit la loi utilise dans le modle, il est ncessaire de vrier que celui - ci sajuste bien aux donnes (voir che 73).

70. La rgression linaire multiple


Une rgression linaire multiple est une rgression linaire au sens des moindres carrs (voir che 63) o le nombre de variables explicatives est au moins gal deux. Conditions : lchantillonnage doit tre alatoire et simple ; chaque individu doit possder une valeur pour chaque variable ; la relation entre la variable expliquer et les variables explicatives doit tre linaire ; pour chaque valeur des variables explicatives la distribution des rsidus de la rgression doit suivre une loi normale, de plus toutes ces lois normales doivent avoir la mme variance (hypothse dquivariance) ; les rsidus de la rgression doivent tre indpendants des variables explicatives (voir che 73 pour tester les deux conditions prcdentes). La rgression scrit regression<-lm(formule o lm() construit un modle linaire, tandis que formule est la formule est la formule contenant la variable expliquer et les variables explicatives (voir che 71). Paramtres de la rgression Valeurs, erreurs standards et intervalles de conances La plupart des informations sur la rgression sont donnes par la fonction summary(regression). En particulier, la ligne (Intercept) du tableau Coefficients donne la valeur (Estimate) et lerreur standard (Std. Error) de lordonne lorigine de la droite de rgression, tandis que la ligne associe chaque variable explicative donne la valeur et lerreur standard de son coecient dans lquation de la droite. Les intervalles de conance de lordonne lorigine et des coecients sont obtenus grce la fonction confint(regression). Tests de conformit avec la valeur nulle Lorsque la fonction summary(regression) est appele, R ralise automatiquement un test de conformit des paramtres de la droite par rapport zro. Les p - values de ces tests sont donnes dans le tableau Coefficients, sur la ligne (Intercept) pour lordonne lorigine et sur la ligne correspondant chaque variable explicative pour son coecient associ. Analyse des contributions individuelles La rgression linaire est trs sensible aux individus extrmes. Ceux - ci peuvent en eet avoir une grande inuence sur ses paramtres. Il est donc indispensable de vrier que la valeur des paramtres nest pas due en grande partie seulement un ou quelques individus. Pour cela utiliser la fonction ind.contrib() du package RAideMemoire : ind.contrib(regression). La fonction calcule la valeur des paramtres de la droite de rgression en enlevant tour de rle chaque individu. Elle renvoie la dirence entre les paramtres de

la rgression complte et ceux calculs, exprime en proportion des paramtres de la rgression complte. Par dfaut elle trace un graphique pour reprsenter les rsultats, pour obtenir seulement le tableau des rsultats utiliser les arguments graph=FALSE et print.diff=TRUE. Pouvoir explicatif de la rgression Le coecient de dtermination R2 reprsente la part de la variance de la variable expliquer qui est explique par la rgression. Il varie entre 0 (i.e. la rgression napporte aucune information) et 1 (i.e. les valeurs prises par la variable expliquer sont totalement expliques par la rgression). Graphiquement, plus R2 est lev et plus les points sont proches de la droite de rgression. Sa valeur (ajuste dans le cas de la rgression multiple) est donne lorsque la fonction summary(regression) est appele. Il se nomme Adjusted R-Squared. Prdiction partir de la rgression Le but dune rgression linaire est souvent de dterminer lquation de la droite, qui sert ensuite prdire les valeurs prises par la variable expliquer partir de valeurs connues de la variable explicative. Cette prdiction peut tre ralise grce la fonction predict(regression,list(explicative1=valeur1,explicative2=valeur2,...)) o valeur1, valeur2, . . . sont soit des nombres, soit des vecteurs de nombres correspondant aux valeurs des variables explicatives pour lesquelles on souhaite obtenir la valeur de la variable expliquer. Il faut toutefois tre vigilant car lquation de la droite de rgression est tablie partir dune certaine gamme de valeurs des variables explicatives. Il est donc dautant plus hasardeux de prdire une valeur de la variable expliquer partir de valeurs des variables explicatives que celles - ci sont loignes de cette gamme. Rien ne dit par exemple que la relation entre les variables est toujours linaire en dehors de la gamme de valeurs qui a servi dnir la rgression.

71. Construction de la formule dun modle


La construction de modles est un lment essentiel dans lanalyse statistique des rsultats dune tude. Elle peut tre relativement simple si les notions suivantes sont bien comprises : variable expliquer et variable explicative variable quantitative et facteur (voir che 1) facteur xe et facteur alatoire (voir che 1) plan dchantillonnage (voir che 2) et plan dexprience (voir che 3). Nous nous arrtons dans cet ouvrage aux modles deux variables explicatives. Le principe est cependant le mme au - del de deux variables. Formules une variable explicative Formules facteur xe ou variable explicative quantitative Ces formules sont les plus simples construire. Elles scrivent simplement a.expliquer~explicative, o a.expliquer et explicative sont des vecteurs contenant la valeur de chaque individu pour chaque variable (dans le mme ordre). Le symbole ~ signie expliqu par . Si la variable explicative est quantitative cette formule sutilise dans une rgression simple, tandis que si cest un facteur elle sutilise (le plus souvent) dans un modle linaire ou linaire gnralis. Formules mixtes On appelle mixte une formule qui contient au moins un facteur alatoire. Cest le cas notamment lorsque lon veut prendre en compte des sries apparies (voir che 1), des grappes (voir che 2) ou des blocs (voir che 3). Les modles mixtes sont grs par les packages nlme et lme4. Les formules sont crites diremment selon le package utilis. Dans cet ouvrage, lutilisation du package lme4 a t privilgie. La formule scrit a.expliquer~explicative+(1|aleatoire), o aleatoire est un vecteur contenant la valeur de chaque individu pour le facteur alatoire (dans le mme ordre qua.expliquer et explicative). La syntaxe (1|x) indique que le facteur x est alatoire. Si la variable explicative est quantitative cette formule sutilise dans une rgression simple mixte, tandis que si cest un facteur elle sutilise dans un modle linaire mixte ou linaire gnralis mixte. Formules deux variables explicatives Attention, si le nombre de rptitions nest pas identique pour les deux variables, leur ordre dentre dans le modle a une importance sur le calcul de leur eet. En eet, R calcule leet de chaque variable de faon squentielle, i.e. il calcule celui de la 1re variable puis celui de la 2nde sachant la 1re. Leet

de la 2nde variable est donc calcul sur la variation de la variable expliquer qui reste aprs avoir retir la variation due la 1re variable explicative. Il faut donc bien rchir au sens biologique des variables explicatives : si lobjectif est dliminer linuence dune variable avant de calculer leet dune autre, placer celle dont on veut liminer linuence en premier si lon connat a priori limportance relative des deux variables dans le systme biologique, placer celle qui a le plus dimportance en premier si lon a aucune ide a priori, tester les deux modles (en inversant lordre des variables dans le deuxime), comparer les rsultats puis interprter leurs dirences ventuelles en terme biologique pour retenir le modle le plus pertinent. Formules facteur(s) xe(s) et / ou variable(s) explicative(s) continue(s) A partir de deux variables explicatives, il est ncessaire de se poser la question de la relation qui lie ces variables. Deux cas de gures sont ainsi possibles : les variables explicatives sont croises : cest le cas lorsque tous les croisements entre les modalits de la 1re variable et celles de la 2nde sont reprsents par au moins un individu. Pour crire la formule, il faut se poser une autre question : linteraction entre les deux variable (i.e. le fait que leet de lune puisse dpendre de la valeur prise par la seconde) doit - elle tre prise en compte ? si non, le modle est additif. La formule scrit alors : a.expliquer~explicative1+explicative2 si oui, le modle est multiplicatif. La formule scrit alors : a.expliquer~explicative1*explicative2 La partie droite de cette formule est identique : explicative1+explicative2+explicative1:explicative2, i.e. 1re variable + 2nde variable + interaction entre les deux Si les deux variables explicatives sont quantitatives la formule sutilise dans une rgression multiple, si ce sont deux facteurs elle sutilise (le plus souvent) dans un modle linaire ou linaire gnralis, enn si lune est quantitative et lautre est un facteur la formule sutilise dans une analyse de la covariance les variables explicatives sont hirarchises : dans ce cas une variable est subordonne lautre (ex : des populations subordonnes des rgions). On ne peut donc pas croiser toutes les modalits de la 1re variable avec celles de la 2nde. La formule scrit : a.expliquer~explicative1/explicative2, o le slash (/) signie que la variable de droite est subordonne celle de gauche. La partie droite de cette formule est identique : explicative1+explicative1:explicative2, i.e. 1re variable + interaction entre les deux .

Formules mixtes Si crire une formule deux variables explicatives peut tre compliqu, ajouter un facteur alatoire est relativement simple : pour un modle crois : additif : a.expliquer~explicative1+explicative2+(1|aleatoire) multiplicatif : a.expliquer~explicative1*explicative2+(1|aleatoire) pour un modle hirarchis : a.expliquer~explicative1/explicative2+(1|aleatoire) Formules des modles nuls On appelle nul un modle qui ne contient aucune variable explicative. Sa formule est donc simple : sans facteur alatoire : a.expliquer~1 avec facteur alatoire : a.expliquer~1+(1|aleatoire)

72. Slection de modle


Les modles prsents dans cet ouvrage sont toujours relativement simples, ne contenant quune ou deux variables explicatives. Cependant il arrive frquemment que lanalyse dbute avec un grand nombre de facteurs et / ou de covariables. Lobjectif devant toujours tre dtre le plus parcimonieux possible dans lexplication du phnomne observ, ltape de slection du modle le plus simple et pertinent est trs importante. Cette procdure de slection peut se faire de deux manires, la main ou automatiquement. Slection manuelle Deux tapes sont ncessaires : 1. appeler summary(modele1) o modele1 est le modle le plus complexe (dit satur), intgrant toutes les variables explicatives et leurs interactions. Noter le terme le moins signicatif. Crer ensuite un 2me modle identique au premier mais en retirant ce terme, en commenant toujours par les interactions de plus grand ordre (une interaction entre deux variables scrit variable1:variable2). Ce 2me modle peut tre construit trs simplement via modele2<-update(modele1,~.-terme). La fonction reprend le modele1 avec toutes ses variables explicatives (ce que signie le symbole ~.), mais te le terme dsir (qui doit tre prcd du signe -) 2. comparer les deux modles via anova(modele1,modele2). Si les modles ont t crs via la fonction glm(), prciser test="F" pour une loi quasipoisson ou quasibinomial, test="Chi" dans tous les autres cas. La p - value renvoye par le test indique leet du terme t dans le 2me modle. Si celle - ci est signicative, le terme en question ne peut tre enlev du modle, dans le cas contraire celui - ci peut tre simpli. Rpter la procdure en testant chaque terme un un et en simpliant ainsi le modle satur petit petit. Note sur les Modles Linaires Mixtes ( LMM) : tous les modles comparer doivent avoir t crs avec loption REML=FALSE (par dfaut REML=TRUE). Une fois le meilleur modle dtermin, il doit tre rcrit avec loption REML=TRUE pour tre analys. Slection automatique La slection est base sur une valeur reprsentant lajustement du modle aux donnes, le Critre dInformation dAkaike (AIC ). Plus lAIC est faible, meilleure est ladquation du modle. Utiliser la fonction dredge() du package MuMIn : dredge(modele1). Cette fonction calcule lAIC de tous les modles possibles partir du modle satur

et renvoie un tableau classant tous ces modles. Parmi les arguments facultatifs de la fonction, deux sont particulirement intressants : m.max=valeur, o valeur est le nombre maximal de variables explicatives intgrer dans les modles tester fixed=variables, o variables est un vecteur contenant les variables explicatives intgrer dans tous les modles tester (entre guillemets). Attention, si n < 40, o n est le nombre dindividus et k le nombre de k paramtres estims par modle (renvoy par le fonction dredge()), il faut utiliser lAICc (AIC corrig) et non pas lAIC. Dans le cas de modles avec une loi quasipoisson ou quasibinomial, le critre utilis est le QAICc, driv de lAIC pour les distributions quasi . Note sur les Modles Linaires Mixtes ( LMM) : le modle satur (modele1) doit avoir t cr avec loption REML=FALSE (par dfaut REML=TRUE). Une fois le meilleur modle dtermin, il doit tre rcrit avec loption REML=TRUE pour tre analys. Il faut tre conscient dune chose lorsque lon utilise une procdure de slection automatique : le modle avec lAIC le plus faible nest pas forcment celui qui biologiquement a le plus de sens. Il ne faut donc pas utiliser cette procdure aveuglment mais toujours rchir aux variables et interactions qui sont retenues. Il est ainsi possible denlever des termes manuellement si ceux - ci ne sont pas pertinents ou trop complexes interprter (comme une interaction dordre trois ou quatre).

73. Vrication de la validit dun modle


Ecrire un modle pour analyser des donnes est une chose, mais il est trs important de vrier que ce modle sajuste bien aux donnes. Si ce nest pas le cas, toute analyse dcoulant de ce modle ne serait pas valide. Les vrications eectuer se font essentiellement graphiquement et tournent globalement autour de trois points : la variance, lindpendance et la normalit des rsidus du modle (les rsidus tant les carts entre les valeurs rellement observes et celles prdites par le modle, nommes tted values). Ces trois vrications essentielles sont ralises grce la fonction plotresid() du package RVAideMemoire. Selon lanalyse, utiliser plotresid(modele) ou plotresid(regression). Cette fonction renvoie deux graphes et le rsultat dun test statistique : le graphe de gauche sert tester lquivariance et lindpendance des rsidus. Sur ce graphe, la ligne rouge reprsente la tendance du nuage de points. Les hypothses dquivariance et dindpendance sont acceptes lorsque cette ligne ne sloigne pas trop de lhorizontale. Plus prcisment, lhypothse dquivariance est accepte lorsque la dispersion verticale des points est peu prs constante sur toute la longueur de laxe des abscisses. Lhypothse dindpendance est accepte lorsque lorientation du nuage de points est horizontale le graphe de droite sert tester la normalit des rsidus. Lhypothse de normalit est accepte lorsque les points sont peu prs aligns sur une droite (voir che 38) le test statistique ralis est un test de Shapiro - Wilk appliqu aux rsidus, qui teste lui aussi leur normalit (voir che 38).

74. La mthode des contrastes


Lanalyse de dviance en modle linaire gnralis (GLM ) est, comme lanalyse de variance (ANOVA) ou le test du 2 dhomognit, un test global qui calcule leet dun facteur sur une variable expliquer. Pour cela il compare les valeurs de la variable expliquer pour les direntes classes du facteur tudi. Comme tout test global, il indique si au moins deux classes du facteur donnent des valeurs de la variable expliquer direntes, mais sans prciser lesquelles. Une p - value signicative doit donc entraner la ralisation de comparaisons deux - - deux pour identier les classes en question. Cest par la mthode des contrastes que sont ralises ces comparaisons dans le cas dun GLM ou dun modle linaire mixte (LMM ou GLMM). La procdure se fait en trois tapes : 1. crer la matrice des contrastes, i.e. la matrice des comparaisons raliser. Celle - ci est de la forme : Classe 1 Classe 2 Classe 3 Contraste 1 1 -1 0 Contraste 2 0 1 -1 Contraste 3 2 -1 -1 Dans cette matrice, les comparaisons (ou contrastes) doivent tre reprsentes en lignes, tandis que les classes du facteur sont en colonne. Les conventions dcriture des contrastes sont les suivantes : les classes nintervenant pas dans la comparaison doivent avoir une valeur nulle les classes comparer doivent avoir une valeur non nulle et un signe oppos il est possible deectuer des regroupements de classes la somme des valeurs positives et ngatives dun contraste doit tre nulle. Attention, R considre les classes du facteur dans lordre alphabtique, i.e. la 1re colonne correspond la 1re classe dans lordre alphabtique, et ainsi de suite. Pour crer la matrice : contrastes<-rbind(ligne1,ligne2,...) o ligne1 est un vecteur contenant les valeurs de la 1re ligne, de gauche droite (dans notre exemple c(1,-1,0)). Pour ne pas se tromper dans linterprtation des comparaisons, on peut utiliser colnames(contrastes)<-levels(facteur) qui donne aux colonnes le nom de chaque classe du facteur, dans lordre alphabtique 2. crer un nouveau modle ne contenant que le facteur tudi : modle linaire mixte : modele2<-lmer(variable~facteur-1+(1|aleatoire)) o variable, facteur et aleatoire dpendent du modle initial

GLM : modele2<-glm(variable~facteur-1,family=loi) o loi dpend du modle initial GLM mixte : modele2<-glmer(variable~facteur-1+(1|aleatoire),family=loi) Si cest linteraction entre deux facteurs qui est tudie, crer dabord un nouveau facteur : interaction<-factor(paste(facteur1,facteur2, sep=":")). Puis crer le modele2 en remplaant facteur par interaction. 3. raliser les comparaisons grce la fonction adjust.esticon() du package RVAideMemoire : adjust.esticon(modele2,contrastes). La fonction renvoie un tableau avec une ligne par contraste (dans le mme ordre que la matrice) et sur chaque ligne le rsultat du test de comparaison des classes correspondantes.

Index des packages externes


Ces packages ncessitent dtre installs pour lutilisation de certaines fonctions prsentes dans cet ouvrage (voir che 7) : ade4 : ches 15, 16, 17 et 18 agricolae : che 69 lawstat : che 37 lme4 : ches 41, 42, 45, 46, 51, 52, 55, 56 et 71 MASS : ches 45, 46 et 69 MuMIn : che 72 outliers : che 33 pwr : che 4 RVAideMemoire : ches 10, 12, 13, 14, 18, 34, 41, 43, 44, 48, 53, 54, 55, 57, 59, 60, 61, 62, 63, 64, 65, 66, 68, 70, 73 et 74 survival : ches 57 et 58.

Bibliographie et ouvrages / documents / liens recommands


Bates D. (2010) lme4 :Mixed-eects modeling with R. [en ligne : http ://lm e4.r-forge.r-project.org] Champely S. (2005) Introduction lanalyse multivarie (factorielle) sous R. [pdf en ligne] Crawley M.J. (2007) The R Book. Editions John Wiley & Sons, inc. Dagnelie P. (2003) Principes dexprimentation : planication des expriences et analyse de leurs rsultats. Les presses agronomiques de Gembloux. [en ligne : http ://www.dagnelie.be] Dagnelie P. (2006a) Statistique thorique et applique. 1. Statistique descriptive et base de linfrence statistique. 2me dition. Editions De Boeck. Dagnelie P. (2006b) Statistique thorique et applique. 2. Infrence statistique une et deux dimensions. 2me dition. Editions De Boeck. Fox J. (2002) Cox Proportional-Hazards Regression fot Survival Data. [en ligne : http ://cran.r-project.org/, rubrique Contributed : Web Appendix to the book An R and S-PLUS Companion to Applied Regression] Millot G. (2008) Comprendre et raliser les tests statistiques laide de R. Editions De Boeck. Paradis E. (2002) R pour les dbutants. [en ligne : http ://cran.rproject.org/, rubrique Contributed] Poinsot D. (2004) Statistiques pour statophobes. [en ligne : http ://perso. univ-rennes1.fr/denis.poinsot] Poinsot D. (2005) R pour les statophobes. [en ligne : http ://perso.univrennes1.fr/denis.poinsot] R Development Core Team (2011). R : A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http ://www.R-project.org. Les nombreux cours en ligne de D. Chessel, A.B. Dufour, J.R. Lobry et M. Royer : http ://pbil.univ-lyon1.fr/R/enseignement.html

Les cours en ligne de M.-L. Delignette-Muller : http ://www2.vetlyon.fr/ens/biostat/accueil.html Le forum du groupe des utilisateurs du logiciel R : http ://forums.cirad. fr/logiciel-R/index.php Semin-R, un autre groupe dutilisateurs de R : http ://rug.mnhn.fr/seminr