Vous êtes sur la page 1sur 28

Millot Millot

Comprendre et réaliser

Millot
les tests statistiques à l’aide de R
Manuel de biostatistique
Comprendre et réaliser
les tests statistiques à l’aide de R

Comprendre et réaliser les tests statistiques


Ce livre s’adresse aux étudiants, médecins et chercheurs de chaque test à l’aide de R, en incluant toutes les étapes du
désirant réaliser des tests alors qu’ils débutent en statistique. test, et notamment l’analyse graphique des données.
Une approche simple et détaillée R, le logiciel de référence
Illustré par 88 figures et accompagné d’exercices avec cor- L’originalité de ce manuel est de proposer non seulement
rection, l’ouvrage aborde la statistique de la manière la plus une explication très détaillée sur l’utilisation des tests les
simple qui soit, sans démonstration mathématique, mais
en insistant sur les détails, afin de bien maîtriser toutes les
plus classiques, mais aussi la possibilité de réaliser ces tests
à l’aide de R, logiciel de référence en statistique, gratuit, Manuel de biostatistique
subtilités des tests. disponible sur Internet et compatible avec Windows, Mac
OS et Linux. L’autre originalité est de proposer l’ensemble
Des notions essentielles traitées en profondeur des exemples d’application des tests à partir d’un seul fichier
L’ouvrage explore des points fondamentaux en statistique : de données, ce qui facilite la compréhension et le passage
la check-list à effectuer avant de réaliser un test, la gestion éventuel vers d’autres logiciels d’analyse. Ce fichier, ainsi que 4 e édition
des individus extrêmes, l’origine de la p value, la puissance l’intégralité du code R de ce manuel, est disponible en ligne.
ou la conclusion d’un test. Il explique comment choisir un

à l’aide de R
test à partir de ses propres données. Il décrit 35 tests statis- Gaël MILLOT, Docteur en Génétique Humaine, Maître
tiques sous forme de fiches, dont 24 non paramétriques, de Conférence en Génétique et Biostatistique à l’Univer-
ce qui couvre la plupart des tests à une ou deux variables sité Pierre et Marie Curie (Paris VI), responsable du pôle
observées. Il traite de toutes les subtilités des tests, comme Statistique de la plateforme Hub-C3BI de l’Institut Pasteur.
les corrections de continuité, les corrections de Welch pour
le test t et l’anova, ou les corrections de p value lors des L’auteur reverse la moitié de ses droits d’auteur à différents
comparaisons multiples. Il propose un exemple d’application organismes de recherche sur les maladies génétiques.

a La 4e édition de la référence dans le domaine


des tests statistiques et de R
a Accessible aux débutants : aucun prérequis
nécessaire en mathématiques ou en informatique
a Nombreux exemples d’application et exercices corrigés
Photo : StationaryTraveller - istockphoto.com
Conception graphique : Primo&Primo®

ISBN : 978-2-8073-0291-4

9 782807 302914

9782807302914_RETESTA_CV+NOTO.indd 1 05/12/2017 10:11


Millot

Comprendre et réaliser
les tests statistiques à l’aide de R
Manuel de biostatistique
4e édition

9782807302914_RETESTA_INT.indd A 21/11/2017 10:26


Pour toute information sur notre fonds et les nouveautés dans votre domaine de spécialisation,
consultez notre site web: www.deboecksuperieur.com

© De Boeck Supérieur s.a., 2018 4e édition


Rue du Bosquet, 7 - 1348 Louvain-la-Neuve

Tous droits réservés pour tous pays.


Il est interdit, sauf accord préalable et écrit de l’éditeur, de reproduire (notamment par photocopie) partiellement ou
totalement le présent ouvrage, de le stocker dans une banque de données ou de le communiquer au public, sous
quelque forme et de quelque manière que ce soit.

Dépôt légal:
Bibliothèque nationale, Paris: janvier 2018
Bibliothèque royale de Belgique, Bruxelles : 2018/13647/002 ISBN 978-2-8073-0291-4

9782807302914_RETESTA_INT.indd B 21/11/2017 10:26


Comprendre et réaliser
les tests statistiques
à l'aide de R

4ème édition

"Aucun chercheur – sauf s'il est assuré d'avoir du


génie et, en outre, beaucoup de chance – ne peut plus
ignorer la méthode statistique"
(Schwartz, 1963)

"You know nothing, Jon Snow"


(Free Falk Ygritte, 301 AL)

9782807302914_RETESTA_INT.indd 1 21/11/2017 10:26


SOMMAIRE

ABREVIATIONS ET SYMBOLES .................................................................................................................. 15

CHAPITRE 1 : PRESENTATION DE R ......................................................................................................... 17

1.1. Introduction .................................................................................................................................................. 17

1.2. Installation et description de l'interface R classique ................................................................................. 17


1.2.1. Installation de R sous Windows et macOS ...................................................................................... 17
1.2.2. Installation de packages ................................................................................................................... 18
1.2.3. Récupérer des manuels d'aide .......................................................................................................... 20
1.2.4. Découverte ....................................................................................................................................... 20

1.3. Installation et description de RStudio ........................................................................................................ 22


1.3.1. Installation ....................................................................................................................................... 22
1.3.2. Console (panneau inférieur gauche) ................................................................................................ 23
1.3.3. Panneau d'édition (supérieur gauche) .............................................................................................. 24
1.3.4. Panneau "environnement et historique" (supérieur droit) ................................................................ 24
1.3.5. Panneau d'outils (inférieur droit) ..................................................................................................... 25
1.3.5.1. Onglet Files ....................................................................................................................... 25
1.3.5.2. Onglet Plots ....................................................................................................................... 26
1.3.5.3. Onglet Packages ................................................................................................................ 26
1.3.5.4. Onglet Help ....................................................................................................................... 28
1.3.5.5. Onglet Viewer .................................................................................................................... 28

1.4. Description des principaux attributs de R ................................................................................................. 28


1.4.1. L'instruction ..................................................................................................................................... 28
1.4.2. Les objets ......................................................................................................................................... 29
1.4.2.1. Les objets de données ........................................................................................................ 29
1.4.2.2. Les fonctions...................................................................................................................... 30
1.4.3. Les opérateurs .................................................................................................................................. 32
1.4.4. Les attributs spéciaux....................................................................................................................... 33

1.5. Premiers pas : R est une calculatrice .......................................................................................................... 34

1.6. Manipulation des objets de données ........................................................................................................... 34


1.6.1. Création d'objets de données............................................................................................................ 34
1.6.1.1. Création par écriture .......................................................................................................... 35
1.6.1.2. Création par importation de fichiers .................................................................................. 42
1.6.1.3. Création par utilisation du tableur de R ............................................................................. 46
1.6.2. Description d'un objet de données ................................................................................................... 47
1.6.2.1. La fonction length()..................................................................................................... 47
1.6.2.2. La fonction mode() ......................................................................................................... 48
1.6.2.3. La fonction typeof()..................................................................................................... 49
1.6.2.4. La fonction class() ....................................................................................................... 50
1.6.2.5. La fonction str() ............................................................................................................ 51
1.6.2.6. La fonction attributes() ........................................................................................... 52
1.6.2.7. La fonction summary() .................................................................................................. 53
1.6.3. Analyse et modification des données dans un objet de données ...................................................... 55
1.6.3.1. Vecteurs ............................................................................................................................. 55
1.6.3.2. Matrices ............................................................................................................................. 56
1.6.3.3. Data frames ........................................................................................................................ 61
1.6.3.4. Listes.................................................................................................................................. 69
1.6.3.5. Facteurs.............................................................................................................................. 73
1.6.3.6. Tables ................................................................................................................................ 76

1.7. Notion d'import et export ............................................................................................................................ 78


1.7.1. Sauver des lignes de code et les réimporter dans RStudio ............................................................... 78
1.7.2. Sourcer du code ............................................................................................................................... 79

9782807302914_RETESTA_INT.indd 7 21/11/2017 10:26


8 Sommaire

1.7.3. Exporter des données au format texte, csv, etc. ............................................................................... 79
1.7.4. Sauvegarder et réimporter des objets de données au format R ........................................................ 81

1.8. Fonctions de statistique descriptive ............................................................................................................ 82

1.9. Manipuler les instructions conditionnelles ou répétées en boucles .......................................................... 85


1.9.1. Attributs de condition ...................................................................................................................... 85
1.9.2. Attributs de répétition ...................................................................................................................... 87

1.10. Graphiques ................................................................................................................................................. 90


1.10.1. Découverte de la fenêtre graphique ............................................................................................... 90
1.10.2. Différents types de graphique ........................................................................................................ 91
1.10.2.1. Description des fonctions classiques ............................................................................... 91
1.10.2.2. Arguments communs de ces fonctions ............................................................................ 97
1.10.3. Ajout d'éléments sur un graphique ................................................................................................. 99
1.10.4. Paramètres graphiques ................................................................................................................... 99
1.10.5. Manipulation des polices de caractères ........................................................................................ 103
1.10.6. Manipulation des couleurs ........................................................................................................... 109
1.10.7. Tracer plusieurs graphiques côte à côte dans une même fenêtre.................................................. 123
1.10.8. Gérer plusieurs fenêtres graphiques ............................................................................................. 125
1.10.8.1. Interface R classique ...................................................................................................... 125
1.10.8.2. Interface RStudio ........................................................................................................... 126
1.10.9. Exporter un graphique.................................................................................................................. 128
1.10.9.1. Interface R classique ...................................................................................................... 128
1.10.9.2. Interface RStudio ........................................................................................................... 130
1.10.10. Le package ggplot2 .................................................................................................................... 130
1.10.10.1. Présentation de l'approche graphique .......................................................................... 130
1.10.10.2. Syntaxe ........................................................................................................................ 134
1.10.10.3. Exemples de graphiques .............................................................................................. 138
1.10.10.4. la fonction qplot() .................................................................................................. 157
1.10.10.5. Comment gérer les graphiques classiques de R avec ceux de ggplot2 ........................ 159

1.11. Création de fonctions ............................................................................................................................... 160


1.11.1. Notions de base ............................................................................................................................ 160
1.11.2. Récupération des résultats générés par function(){} ........................................................... 163
1.11.3. Fonctions avec arguments ............................................................................................................ 164
1.11.4. Création d'opérateurs ................................................................................................................... 170
1.11.5. Notion d'environnement ............................................................................................................... 170
1.11.6. Fonctions primitives et fonctions clôtures ................................................................................... 180
1.11.7. Accès au code des fonctions prédéfinies de R ............................................................................. 183
1.11.8. Toute action dans R fait appel à une fonction .............................................................................. 187

1.12. Exercices ................................................................................................................................................... 187

1.13. Correction des exercices .......................................................................................................................... 189

CHAPITRE 2 : NOTIONS DE BASE DE LA STATISTIQUE .................................................................... 197

2.1. Introduction ................................................................................................................................................ 197

2.2. Définitions de la statistique, de la population et de l'échantillon ........................................................... 198

2.3. L'individu.................................................................................................................................................... 200

2.4. Les variables aléatoires .............................................................................................................................. 201


2.4.1. Définition ....................................................................................................................................... 201
2.4.2. Deux types de variables aléatoires ................................................................................................. 205
2.4.2.1. Variable quantitative........................................................................................................ 205
2.4.2.2. Variable qualitative.......................................................................................................... 205

9782807302914_RETESTA_INT.indd 8 21/11/2017 10:26


Sommaire 9

2.4.3. Particularités de certaines variables qualitatives ............................................................................ 206


2.4.3.1. Exclusivité des classes ..................................................................................................... 206
2.4.3.2. Classes appariées ............................................................................................................. 207
2.4.3.3. Cas des variables fixées ................................................................................................... 208
2.4.4. Observer la distribution des valeurs d'une variable quantitative : l'histogramme .......................... 210
2.4.4.1. Choix du nombre de classes ............................................................................................ 210
2.4.4.2. Fixer l'intervalle des classes............................................................................................. 210
2.4.4.3. Ordonnée en effectif, proportion ou densité .................................................................... 211
2.4.4.4. La fonction hist() de R ............................................................................................... 212
2.4.5. Observer la distribution des valeurs d'une variable qualitative ...................................................... 214
2.4.6. Limite entre l'aspect quantitatif et qualitatif d'une variable ........................................................... 215

2.5. Les différents types de tableaux de données ............................................................................................ 218


2.5.1. Cas standard ................................................................................................................................... 218
2.5.2. Le tableau disjonctif complet pour les variables qualitatives......................................................... 218
2.5.3. Le tableau de contingence pour une ou deux variables qualitatives .............................................. 219

2.6. Avant d'entreprendre toute analyse statistique : la check-list ............................................................... 220

2.7. Les paramètres de statistique descriptive les plus employés .................................................................. 221
2.7.1. La moyenne et la médiane ............................................................................................................. 221
2.7.2. Les quantiles .................................................................................................................................. 223
2.7.3. La variance, l'écart type et le coefficient de variation .................................................................... 223
2.7.4. La covariance ................................................................................................................................. 224
2.7.5. Le coefficient de corrélation linéaire de Pearson ........................................................................... 227

2.8. Exercices ..................................................................................................................................................... 229

2.9. Corrections des exercices ........................................................................................................................... 230

CHAPITRE 3 : DEMARCHE SCIENTIFIQUE ET ERREURS ASSOCIEES .......................................... 236

3.1. Formulation de la question scientifique ................................................................................................... 236


3.1.1. Décalage entre la question posée et l'approche envisagée ............................................................. 236
3.1.2. Faits supposés avérés ..................................................................................................................... 237

3.2. Organisation de l'étude scientifique ......................................................................................................... 238


3.2.1. Individus non semblables ............................................................................................................... 238
3.2.2. Conditions environnementales non semblables ............................................................................. 239

3.3. Interprétation du résultat .......................................................................................................................... 242

3.4. La gestion des individus extrêmes (outliers en anglais) ........................................................................... 243

3.5. Conclusion .................................................................................................................................................. 245

CHAPITRE 4 : LES ETAPES D'UN TEST STATISTIQUE ....................................................................... 246

4.1. Introduction à lire avant de se lancer dans ce chapitre .......................................................................... 246

4.2. Les deux hypothèses statistiques ............................................................................................................... 248

4.3. La Variable de Test (VT) ........................................................................................................................... 250


4.3.1. Définition ....................................................................................................................................... 250
4.3.2. Différents types de VT ................................................................................................................... 250
4.3.2.1. Tests paramétriques et non paramétriques ....................................................................... 251
4.3.2.2. Estimateur et VT.............................................................................................................. 252
4.3.2.3. VT et distribution de probabilité ...................................................................................... 252

4.4. Distributions de probabilité ...................................................................................................................... 253


4.4.1. Définition de la distribution de probabilité et de la loi de probabilité............................................ 253

9782807302914_RETESTA_INT.indd 9 21/11/2017 10:26


10 Sommaire

4.4.2. Paramètres d'une distribution de probabilité .................................................................................. 253


4.4.2.1. Cas des variables discrètes : quantile, probabilité et fonction de répartition ................... 253
4.4.2.2. Cas des variables continues : quantile, densité de probabilité et fonction de répartition . 255
4.4.2.3. Calcul de la probabilité de voir apparaître une valeur de variable continue .................... 257
4.4.3. Comment utiliser les distributions de probabilité connues avec R................................................. 260
4.4.4. Différentes lois de probabilité discrètes ......................................................................................... 261
4.4.4.1. Loi binomiale ................................................................................................................... 261
4.4.4.2. Loi multinomiale ............................................................................................................. 267
4.4.4.3. Loi de Pascal et loi binomiale négative ........................................................................... 269
4.4.4.4. Loi géométrique ............................................................................................................... 272
4.4.4.5. Loi hypergéométrique ...................................................................................................... 274
4.4.4.6. Loi de Poisson ................................................................................................................. 276
4.4.5. Différentes lois de probabilité continues........................................................................................ 278
4.4.5.1. Loi normale ou de Laplace-Gauss ................................................................................... 278
4.4.5.2. Loi normale centrée réduite ............................................................................................. 282
4.4.5.3. Loi exponentielle ............................................................................................................. 285
4.4.5.4. Loi gamma ....................................................................................................................... 286
4.4.5.5. Loi de F2 .......................................................................................................................... 289
4.4.5.6. Loi de Fisher-Snedecor .................................................................................................... 291
4.4.5.7. Loi de Student.................................................................................................................. 294
4.4.6. Distributions de probabilité qui ne suivent pas de loi connue ........................................................ 296
4.4.6.1. Distribution de probabilité de Mann-Whitney ................................................................. 296
4.4.6.2. Distribution de probabilité de Wilcoxon.......................................................................... 301
4.4.6.3. Distribution de probabilité du test des signes de Wilcoxon ............................................. 307
4.4.7. Rapport entre toutes ces distributions de probabilité ..................................................................... 312
4.4.8. Remarques importantes .................................................................................................................. 313
4.4.8.1. Ne pas confondre la loi de probabilité d'une variable mesurée et celle d'une VT............ 313
4.4.8.2. Simulation avec R de la fluctuation d'une VT due à l'échantillonnage ............................ 314
4.4.8.3. Importance du tirage aléatoire des individus dans la formation de l'échantillon ............. 317

4.5. Hypothèse H0, distribution de probabilité de la VT et échantillon : le cocktail magique de l'obtention


de la p value ............................................................................................................................................... 318

4.6. Conclusion d'un test statistique et les deux risques d'erreurs associés .................................................. 321
4.6.1. Conclure, c'est deux vérités, deux décisions soit quatre probabilités ............................................. 321
4.6.2. L'hypothèse H0 et le risque D : définitions ..................................................................................... 323
4.6.3. La correction de la p value ou du seuil de rejet D .......................................................................... 325
4.6.3.1. Le problème soulevé ........................................................................................................ 325
4.6.3.2. La technique de Bonferroni ............................................................................................. 328
4.6.3.3. La technique séquentielle (Holm) .................................................................................... 329
4.6.3.4. La méthode de Benjamini & Hochberg (BH) .................................................................. 331
4.6.3.5. Quand appliquer la correction ? ....................................................................................... 332
4.6.3.6. Comment choisir la méthode de correction à appliquer ? ................................................ 335
4.6.4. L'hypothèse H1 et son influence sur le risque D ............................................................................. 335
4.6.4.1 Le problème de l'hypothèse H1 ......................................................................................... 335
4.6.4.2. Test bilatéral et unilatéral ................................................................................................ 336
4.6.4.3. Obtenir la p value en test bilatéral et unilatéral ............................................................... 339
4.6.4.4. Placer les seuils D de rejet en test bilatéral et unilatéral .................................................. 342
4.6.4.5. Comment choisir entre test bilatéral et unilatéral ?.......................................................... 347
4.6.5. Le risque E et la puissance 1-E du test ........................................................................................... 348
4.6.5.1. Retour sur les définitions du risque E et de la puissance 1-E ........................................... 349
4.6.5.2. Variations de E et 1-E suivant la distribution de probabilité de la VT sous H1................ 349
4.6.6. D et E en termes de faux positifs et faux négatifs .......................................................................... 355
4.6.7. Propriétés de la puissance 1-E........................................................................................................ 357
4.6.7.1 A lire avant de se lancer dans ce paragraphe .................................................................... 357
4.6.7.2. La puissance d'un test diminue quand décroît le Dseuil ..................................................... 357
4.6.7.3. La puissance d'un test croît quand augmente l'effectif n de l'échantillon ........................ 359
4.6.7.4. La puissance d'un test augmente avec l'écart entre les paramètres testés......................... 365
4.6.8. Le danger de considérer la p value comme un indicateur de forte ou faible significativité ........... 367

9782807302914_RETESTA_INT.indd 10 21/11/2017 10:26


Sommaire 11

4.6.9. Alors comment fixer la puissance d'un test ? ................................................................................. 369


4.6.9.1. Considérations générales ................................................................................................. 369
4.6.9.2. Réaliser des abaques ........................................................................................................ 371
4.6.9.3. Les fonctions disponibles sous R ..................................................................................... 373
4.6.9.4. Le ncp des lois de probabilité de VT sous R ................................................................... 375
4.6.10. Comment conclure finalement ? .................................................................................................. 379

4.7. Récapitulation............................................................................................................................................. 381

4.8. Exercices ..................................................................................................................................................... 382

4.9. Correction des exercices ............................................................................................................................ 385

CHAPITRE 5 : LES TESTS STATISTIQUES .............................................................................................. 401

5.1. A lire absolument avant d'utiliser un test ................................................................................................ 401

5.2. Quel test appliquer et quelle fonction de R utiliser ? .............................................................................. 410

Comparaison d'effectifs et de proportions ......................................................................................................... 413

5.3. F2 de conformité.......................................................................................................................................... 414


5.3.1. Méthode ......................................................................................................................................... 414
5.3.2. Exemple avec R ............................................................................................................................. 418
5.3.3. Tests de comparaisons deux à deux ............................................................................................... 425

5.4. F2 d'homogénéité ........................................................................................................................................ 429


5.4.1. Méthode ......................................................................................................................................... 429
5.4.2. Exemples avec R ............................................................................................................................ 435
5.4.3. Tests de comparaisons deux à deux ............................................................................................... 444

5.5. Test G .......................................................................................................................................................... 447


5.5.1. Méthode ......................................................................................................................................... 447
5.5.2. Exemples avec R ............................................................................................................................ 450
5.5.3. Tests de comparaisons deux à deux ............................................................................................... 451

5.6. Test exact de Fisher.................................................................................................................................... 454


5.6.1. Tableau de contingence 2 u 2 ........................................................................................................ 454
5.6.1.1. Méthode ........................................................................................................................... 454
5.6.1.2. Exemples avec R ............................................................................................................. 460
5.6.2. Tableau de contingence c u k ......................................................................................................... 471
5.6.2.1. Méthode ........................................................................................................................... 471
5.6.2.2. Exemple avec R ............................................................................................................... 472
5.6.2.3. Tests de comparaisons deux à deux ................................................................................. 474

5.7. Test de Mantel-Haenszel............................................................................................................................ 476


5.7.1. Méthode ......................................................................................................................................... 476
5.7.2. Exemples avec R ............................................................................................................................ 482
5.7.3. Tests de comparaisons deux à deux ............................................................................................... 489

5.8. Comparaison d'une proportion observée à une proportion théorique .................................................. 491
5.8.1. Méthode ......................................................................................................................................... 491
5.8.2. Exemples avec R ............................................................................................................................ 494

5.9. Comparaison de deux proportions observées .......................................................................................... 505


5.9.1. Méthode ......................................................................................................................................... 505
5.9.2. Exemples avec R ............................................................................................................................ 509

5.10. Comparaison de deux proportions en séries appariées (test de Mac Nemar) ..................................... 514
5.10.1. Méthode ....................................................................................................................................... 514
5.10.2. Exemples avec R .......................................................................................................................... 519

9782807302914_RETESTA_INT.indd 11 21/11/2017 10:26


12 Sommaire

5.11. Comparaison de plusieurs proportions observées ................................................................................. 525


5.11.1. Méthode ....................................................................................................................................... 525
5.11.2. Exemple avec R ........................................................................................................................... 528
5.11.3. Tests de comparaisons deux à deux ............................................................................................. 532

5.12. Comparaison de plusieurs proportions observées à plusieurs proportions théoriques...................... 537


5.12.1. Méthode ....................................................................................................................................... 537
5.12.2. Exemple avec R ........................................................................................................................... 540
5.12.3. Tests de comparaisons deux à deux ............................................................................................. 544

Comparaison de moyennes ................................................................................................................................ 545

5.13. Le test t de Student de comparaison de moyennes ................................................................................ 546


5.13.1. Comparaison d'une moyenne observée à une valeur théorique .................................................... 546
5.13.1.1. Méthode ......................................................................................................................... 546
5.13.1.2. Exemples avec R ........................................................................................................... 548
5.13.2. Comparaison de deux moyennes observées ................................................................................. 554
5.13.2.1. Méthode ......................................................................................................................... 554
5.13.2.2. Exemple avec R ............................................................................................................. 557
5.13.3. Comparaison de deux moyennes observées avec variances différentes (test de Welch) ............. 560
5.13.3.1. Méthode ......................................................................................................................... 560
5.13.3.2. Exemples avec R ........................................................................................................... 561
5.13.4. Comparaison de deux moyennes observées en séries appariées .................................................. 567
5.13.4.1. Méthode ......................................................................................................................... 567
5.13.4.2. Exemple avec R ............................................................................................................. 570

5.14. Comparaison d'au moins deux moyennes observées ............................................................................. 575


5.14.1. Anova (analyse de variances à un facteur) ................................................................................... 575
5.14.1.1. Méthode ......................................................................................................................... 575
5.14.1.2. Exemple avec R ............................................................................................................. 580
5.14.2. Anova avec variances différentes (correction de Welch) ............................................................. 583
5.14.2.1. Méthode ......................................................................................................................... 583
5.14.2.2. Exemple avec R ............................................................................................................. 584
5.14.3. Tests de comparaisons deux à deux ............................................................................................. 587

Comparaison de médianes ................................................................................................................................. 590

5.15. Comparaison d'une médiane observée à une valeur théorique (test des signes de Wilcoxon) .......... 591
5.15.1. Méthode ....................................................................................................................................... 591
5.15.2. Exemples avec R .......................................................................................................................... 597

5.16. Comparaison de deux médianes observées (test de Mann-Whitney-Wilcoxon) ................................. 605


5.16.1. Méthode ....................................................................................................................................... 605
5.16.2. Exemples avec R .......................................................................................................................... 614

5.17. Comparaison de deux médianes observées en séries appariées (test des signes de Wilcoxon) .......... 623
5.17.1. Méthode ....................................................................................................................................... 623
5.17.2. Exemples avec R .......................................................................................................................... 632

5.18. Comparaison d'au moins deux médianes observées.............................................................................. 640


5.18.1. Test de Kruskal-Wallis ................................................................................................................ 640
5.18.1.1. Méthode ......................................................................................................................... 640
5.18.1.2. Exemple avec R ............................................................................................................. 644
5.18.1.3. Tests de comparaisons deux à deux ............................................................................... 650
5.18.2. Test des médianes ........................................................................................................................ 653
5.18.2.1. Méthode ......................................................................................................................... 653
5.18.2.2. Exemple avec R ............................................................................................................. 657
5.18.2.3. Tests de comparaisons deux à deux ............................................................................... 660

9782807302914_RETESTA_INT.indd 12 21/11/2017 10:26


Sommaire 13

Comparaison de variances ................................................................................................................................. 662

5.19. Comparaison de deux variances observées ............................................................................................ 663


5.19.1. Test de Fisher-Snedecor ............................................................................................................... 663
5.19.1.1. Méthode ......................................................................................................................... 663
5.19.1.2. Exemple avec R ............................................................................................................. 666
5.19.2. Test d'Ansari-Bradley .................................................................................................................. 670
5.19.2.1. Méthode ......................................................................................................................... 670
5.19.2.2. Exemples avec R ........................................................................................................... 678

5.20. Comparaison d'au moins deux variances observées ............................................................................. 688


5.20.1. Test de Bartlett ............................................................................................................................. 688
5.20.1.1. Méthode ......................................................................................................................... 688
5.20.1.2. Exemple avec R ............................................................................................................. 691
5.20.2. Test de Fligner- Killeen ............................................................................................................... 695
5.20.2.1. Méthode ......................................................................................................................... 695
5.20.2.2. Exemple avec R ............................................................................................................. 699
5.20.3. Tests de comparaisons deux à deux ............................................................................................. 704

Corrélations entre variables ............................................................................................................................... 705

5.21. Test du coefficient de corrélation linéaire de Pearson .......................................................................... 706


5.21.1. Méthode ....................................................................................................................................... 706
5.21.2. Exemple avec R ........................................................................................................................... 712

5.22. Test du coefficient de corrélation de Spearman .................................................................................... 717


5.22.1. Méthode ....................................................................................................................................... 717
5.22.2. Exemples avec R .......................................................................................................................... 724

5.23. Test du coefficient de corrélation de Kendall ........................................................................................ 732


5.23.1. Méthode ....................................................................................................................................... 732
5.23.2. Exemples avec R .......................................................................................................................... 737

5.24. Test de F2 ................................................................................................................................................... 742


5.24.1. Méthode ....................................................................................................................................... 742
5.24.2. Exemple avec R ........................................................................................................................... 743

5.25. Tests de corrélations multiples ................................................................................................................ 744

Comparaison de distributions ............................................................................................................................ 746

5.26. Ajustement d'une distribution observée à une distribution théorique ................................................ 747
5.26.1. Introduction.................................................................................................................................. 747
5.26.2. Test de F2 de conformité .............................................................................................................. 748
5.26.2.1. Méthode ......................................................................................................................... 748
5.26.2.2. Exemple avec R ............................................................................................................. 751
5.26.3. Test de Kolmogorov-Smirnov ..................................................................................................... 756
5.26.3.1. Méthode ......................................................................................................................... 756
5.26.3.2. Exemple avec R ............................................................................................................. 762
5.26.4. Test de Shapiro-Wilk ................................................................................................................... 769
5.26.4.1. Méthode ......................................................................................................................... 769
5.26.4.2. Exemple avec R ............................................................................................................. 774

5.27. Comparaison de deux distributions observées (test de Kolmogorov-Smirnov) .................................. 778


5.27.1. Méthode ....................................................................................................................................... 778
5.27.2. Exemple avec R ........................................................................................................................... 783

Autres tests.......................................................................................................................................................... 789

5.28. Tests autour de la régression ................................................................................................................... 790


5.28.1. Introduction.................................................................................................................................. 790
5.28.2. Principe de la régression linéaire simple ...................................................................................... 791

9782807302914_RETESTA_INT.indd 13 21/11/2017 10:26


14 Sommaire

5.28.3. Comparaison d'une régression observée à une régression nulle................................................... 794


5.28.3.1. Méthode ......................................................................................................................... 794
5.28.3.2. Exemple avec R ............................................................................................................. 803
5.28.4. Comparaison d'une régression observée à une régression théorique............................................ 814
5.28.4.1. Méthode ......................................................................................................................... 814
5.28.4.2. Exemples avec R ........................................................................................................... 817

5.29. Test autour de la survie ........................................................................................................................... 822


5.29.1. Introduction.................................................................................................................................. 822
5.29.2. Comparaison de deux courbes de survie (test du logrank) ........................................................... 828
5.29.2.1. Méthode ......................................................................................................................... 828
5.29.2.2. Exemple avec R ............................................................................................................. 836

ANNEXES ......................................................................................................................................................... 847

01. Formule développée de la variance et de la covariance ..................................................................... 847


02. L'estimateur........................................................................................................................................ 848
03. Distribution normale de variables mesurées et théorème central limite............................................. 855
04. Rappel des moyennes et variances des distributions de probabilité ................................................... 857
05. Rappel sur les combinaisons .............................................................................................................. 858
06. Passage du F2 au Z2 dans le cas de la comparaison d'une proportion observée à une proportion
théorique .......................................................................................................................................... 860
07. Passage du F2 au Z2 dans le cas de la comparaison de deux proportions observées .......................... 861
08. Retrouver la formule de la VT à partir de la formule du F2 dans le cas de la comparaison de plusieurs
proportions observées ...................................................................................................................... 864
09. Estimation de la fluctuation de la VT F2 avec correction de continuité de Yates .............................. 865
10. Comment se comportent les différents couples de proportions (pG1/F1 , pG1/F2), (pG2/F1 , pG2/F2), (pF1/G1 ,
pF1/G2) et (pF2/G1 , pF2/G2) lors d'un test exact de Fisher sur tableau de contingence 2 u 2 ................. 868
11. Anova et régression linéaire sont liées ............................................................................................... 871
12. Procédure lorsque la fonction solve() n'est pas utilisable ............................................................. 876
13. Précisions sur la médiane et autres quantiles ..................................................................................... 877
14. Rendre non paramétrique un test paramétrique ................................................................................. 879
15. Définitions autour des faux positifs et faux négatifs .......................................................................... 883
16. Exemples graphiques avec R ............................................................................................................. 886
17. Exécution des codes du chapitre 5 depuis un fichier ......................................................................... 892
18. Edition des graphiques du chapitre 5 dans un fichier de type "pdf" .................................................. 893
19. Différences entre les fonctions sort(), rank() et order()...................................................... 894
20. Les objets de mode "expression", "call" et "name" pour manipuler du code sans l'exécuter ............. 895
21. Symboles mathématiques et formats particuliers dans les graphiques............................................... 899
22. Comparaison de chaînes de caractères ............................................................................................... 902
23. Identifier des chaînes de caractères à l'aide d'expressions régulières................................................. 904
24. Modifier le format d'affichage des nombres ...................................................................................... 910
25. Problème de virgule flottante et d'entier long .................................................................................... 916
26. Principaux attributs de R.................................................................................................................... 918

REFERENCES .................................................................................................................................................. 942

REMERCIEMENTS ........................................................................................................................................ 944

INDEX................................................................................................................................................................ 945

9782807302914_RETESTA_INT.indd 14 21/11/2017 10:26


ABREVIATIONS ET SYMBOLES

Seuls sont répertoriés ici les abréviations et symboles qui ne sont pas systématiquement
définis au-dessous des formules statistiques. Ils proviennent généralement du chapitre 4.

D risque de rejeter l'hypothèse H0 alors que H0 est vraie (risque de 1ère espèce)
Dseuil seuil de rejet de l'hypothèse H0
E risque de conserver l'hypothèse H0 alors que H0 est fausse (risque de 2ème espèce)
1-E puissance d'un test
J risque de 3ème espèce
'réel écart réel entre deux paramètres
'seuil limite de pertinence pour l'écart entre deux paramètres
P moyenne au niveau d'une population
Pf moyenne de la taille des femmes dans la population du Guateverde
Ph moyenne de la taille des hommes dans la population du Guateverde
V écart type au niveau d'une population
V2 variance au niveau d'une population
Vf écart type de la taille des femmes dans la population du Guateverde
Vh écart type de la taille des hommes dans la population du Guateverde
’ infini
§n·
Cnk combinaison d'ordre k des n éléments, s'écrit également ¨¨ ¸¸
©k ¹
k
¦ i 1
somme des i éléments, i prenant les valeurs 1, 2, ..., k

ddl degrés de liberté (df en anglais pour degrees of freedom)


f(k) distribution de probabilité de la variable discrète X ou fonction de masse de X
f(xi) distribution de probabilité de la variable continue x ou densité de probabilité de x
F(k) fonction de répartition de la variable discrète X
F(xi) fonction de répartition de la variable continue x
H0 hypothèse principale ou hypothèse nulle
H1 hypothèse alternative
m moyenne au niveau d'un échantillon
mh moyenne de la taille des hommes du Guateverde dans un échantillon
mf moyenne de la taille des femmes du Guateverde dans un échantillon
M estimateur de la moyenne d'un échantillon et, ce qui revient au même, VT du test
de comparaison d'une moyenne observée à une valeur théorique sur grand
échantillon
Mcalc valeur de l'estimateur de moyenne calculée à partir d'un échantillon
Mseuil valeur de la VT M au-dessus ou au-dessous de laquelle H0 est rejetée (test
unilatéral)
Mseuil inf valeur de la VT estimateur de moyenne M au-dessous de laquelle H0 est rejetée
(test bilatéral)
Mseuil sup valeur de la VT estimateur de moyenne M au-dessus de laquelle H0 est rejetée
(test bilatéral)
ncp non central parameter (paramètre de non-centralité)
OS Operating system (système d'exploitation)
p soit p value soit probabilité

9782807302914_RETESTA_INT.indd 15 21/11/2017 10:26


16 Abréviations et symboles

P(x = 4) probabilité que x = 4


s écart type au niveau d'un échantillon
sM écart type de l'estimateur M (équivalent de la SEM)
SEM Standard Error of the Mean (erreur type en français)
x variable aléatoire continue
X variable aléatoire (ce peut être une mesure ou une VT)
Xcalc valeur de la VT calculée à partir d'un échantillon
Xseuil valeur de la VT au-dessus ou au-dessous de laquelle l'hypothèse H0 est rejetée
(test unilatéral)
Xseuil inf valeur de la VT au-dessous de laquelle l'hypothèse H0 est rejetée (test bilatéral)
Xseuil sup valeur de la VT au-dessus de laquelle H0 est rejetée (test bilatéral)
VT Variable de Test

9782807302914_RETESTA_INT.indd 16 21/11/2017 10:26


CHAPITRE 1
PRESENTATION DE R

1.1. Introduction

R a été créé par deux membres du département de statistique de l'université d'Auckland : Ross
Ihaka et Robert Gentleman, également dénommés R & R (Ihaka and Gentleman, 1996). Il n'a
depuis cessé d'évoluer et aujourd'hui son développement est assuré par la fondation R (The R
Foundation) et par la contribution de personnes du monde entier (contributors).

R est un logiciel qui utilise son propre langage, dérivé du langage informatique S,
spécialement développé pour la statistique (Becker et al., 1988; Chambers and Hastie, 1992).
On parle donc de logiciel R, de langage R ou d'environnement R. Son succès provient du fait
que : (1) il est gratuit, (2) il est compatible avec les systèmes d'exploitation les plus utilisés
(Windows, macOS, Linux), (3) des documentations sont disponibles en ligne, (4) il est intégré
dans un nombre grandissant de logiciels ou d'environnements de programmation et (5) il est
très puissant. La plupart des fonctions statistiques de calcul et de graphique sont disponibles
dans la version de base. Si ce n'est pas le cas, vous pouvez trouver des fonctions
supplémentaires dans des packages élaborés par des statisticiens et disponibles sur le net. En
dernier recours, pour ceux qui exigent des fonctions particulièrement pointues, vous pouvez
modifier des programmes à partir des codes disponibles ou bien en écrire vous-même en
langage R afin de réaliser ce que vous souhaitez (voir le paragraphe 1.11 et Genolini, 2010).

Dans cet ouvrage, nous présenterons toutes les informations nécessaires à l'utilisation de R, au
travers de deux interfaces : la version classique de R et celle de RStudio. Le terme "interface
R classique" (et parfois plus simplement "interface R") sera employé lorsqu'il sera nécessaire
de distinguer l'interface classique de l'interface RStudio. Sinon, le simple terme "R" désignera
l'environnement R d'une manière générale, sans distinguer les deux interfaces.

1.2. Installation et description de l'interface R classique

1.2.1. Installation de R sous Windows et macOS

Le logiciel R est téléchargeable sur le site http://www.r-project.org/. Il faut ensuite cliquer sur
Download, CRAN, CRAN signifiant Comprehensive R Archive Network (Réseau d'archives de
R globales). Choisissez un site miroir en France, les téléchargements seront probablement
plus rapides. Vous trouverez ensuite un encadrement légendé Download and install R.

Il est préférable, dans un premier temps, d'utiliser la version 3.3.3 de R, soit celle employée
dans cet ouvrage. Lorsque vous aurez pris l'habitude de R, vous pourrez vous reporter vers la
version la plus récente.

Pour Windows, cliquez sur Download R for Windows, ensuite sur base, puis sur
Previous releases, sur R 3.3.3 et enfin sur Download R 3.3.3 for Windows (71
megabytes, 32/64 bit). Le programme d'installation est alors téléchargé sur votre
ordinateur. Il suffit de cliquer dessus et de suivre les instructions. Un dossier portant le

9782807302914_RETESTA_INT.indd 17 21/11/2017 10:26


18 Chapitre 1. Présentation de R

nom de la version de R téléchargée est créé (R-3.3.3 dans notre cas). Il est situé, à partir
du disque dur C:, dans la série de dossiers suivante : Programmes / R (l'adresse de
localisation étant C:\Program Files\R). Dans ce dossier se trouve le dossier library qui
comprend les packages de base de R (nous y reviendrons dans le paragraphe 1.2.2). Un
autre élément utile doit être localisé : le fichier .Rdata. Celui-ci n'est pas apparent au
début. Il contiendra tous les objets que vous créerez et sauvegarderez dans R. Sur mon
ordinateur, il apparaîtra, à partir du disque dur C:, dans la série de dossiers suivante :
Utilisateurs / Gael / Mes documents (l'adresse de localisation étant
C:\Users\Gael\Documents). Un autre fichier peut apparaître au même endroit que le
fichier .RData, c'est le fichier .Rhistory. Il contient les dernières instructions exécutées
dans la console, mais il présente peu d'intérêt lorsqu'on se sert d'un éditeur de code (voir
le paragraphe 1.2.4).

Pour macOS, cliquez sur Dowload R for (Mac) OS X, puis sur old (en bas de page) et
enfin sur R-3.3.3.pkg. Le programme d'installation est alors téléchargé sur votre
ordinateur. Il suffit de cliquer dessus et de suivre les instructions pour que R soit
installé. Les deux éléments library et .Rdata décrits dans la version R de Windows sont
également installés dans la version R de macOS. Attention : .Rdata sera présent dans le
répertoire racine de l'utilisateur (l'icône "Maison" sur la gauche de la fenêtre
d'exploration, ou touches Shift + cmd + h) mais il sera caché. Il est alors plus simple
d'utiliser le terminal de macOS pour manipuler ce fichier. Quant au dossier library, il se
trouve en cliquant, à partir du disque dur, dans la série de dossiers suivante :
Bibliothèque / Frameworks / R.framework / Versions / 3.3 / Resources (l'adresse de
localisation étant /Library/Frameworks/R.framework/Versions/3.3/ Resources).

1.2.2. Installation de packages

Un package est une compilation d'outils qui ne se trouve pas dans l'installation de base du
logiciel R. Pour en disposer, il faut le télécharger. Ceci peut s'effectuer soit
"automatiquement", c'est-à-dire directement depuis l'interface R, soit "manuellement", c'est-à-
dire depuis le site internet de R. Commençons par la première technique. Lorsque l'interface R
est démarrée, une barre de menus apparaît dans la partie supérieure de la fenêtre.

Pour Windows, cliquez sur le menu Packages puis sur Installer le(s) package(s) :

Dans la fenêtre ouverte, sélectionnez un site français. Dans la fenêtre suivante ouverte,
sélectionnez le ou les packages que vous souhaitez installer. Ceux-ci sont alors placés
dans le dossier library décrit dans le paragraphe 1.2.1 précédent.

Pour macOS, cliquez sur le menu Packages & Données puis sur Installateur de
Package :

9782807302914_RETESTA_INT.indd 18 21/11/2017 10:26


1.2. Installation et description de l’interface R classique 19

Dans le haut de la fenêtre ouverte, sélectionnez CRAN (binaries) puis cliquez sur
Acquérir Liste. Sélectionnez un site français puis le ou les packages que vous souhaitez
installer, et cliquez sur Installer/Mettre à Jour. Ceux-ci sont alors placés dans le dossier
library décrit dans le paragraphe 1.2.1 précédent.

Si l'interface R présente des difficultés à reconnaître les paramètres proxy utilisés par votre
ordinateur pour accéder à internet, ou si vous n'êtes pas administrateur de l'ordinateur, il est
possible de récupérer "manuellement" des packages depuis le site internet de R.

Pour Windows, reprenez la procédure de téléchargement du logiciel R mais cliquez sur


contrib au lieu de base. Cliquez ensuite sur le dossier de la version de R installée (par
exemple 3.3/ dans notre cas). Puis sélectionnez le package souhaité, dans sa version la
plus récente (par exemple coin_1.2-1.zip). Un fichier ".zip" est enregistré sur votre
disque dur. Décompressez-le. Trouvez le dossier décompressé sans le numéro de
version (par exemple coin) et glissez-le dans le dossier library décrit dans le paragraphe
1.2.1 précédent. Si vous n'êtes pas administrateur de l'ordinateur, glissez le dossier
décompressé sur le bureau.

Pour macOS, reprenez la procédure de téléchargement du logiciel R mais cliquez sur


mavericks au lieu de old. Avec des versions de R autre que 3.3.3, il faudra peut-être
cliquer sur leopard ou el-capitan, etc., au lieu de mavericks. Cliquez ensuite sur contrib/
puis sur le dossier de la version de R que vous avez installée (par exemple 3.3/ dans
notre cas), puis sur le package souhaité, dans sa version la plus récente (par exemple
coin_1.2-1.tgz). Un fichier ".tgz" est enregistré sur votre disque dur. Décompressez
celui-ci en cliquant dessus. Trouvez le dossier décompressé sans le numéro de version
(par exemple coin) et glissez-le dans le dossier library décrit dans le paragraphe 1.2.1
précédent. Si vous n'êtes pas administrateur de l'ordinateur, glissez le dossier
décompressé sur le bureau.

Pour être activé, un package doit être chargé dans l'environnement de travail de R. Si le
package coin est dans le dossier library, écrire la commande suivante dans la console :
> library("coin")

Si le package est situé ailleurs dans l'ordinateur, employer plutôt la commande suivante :
> library(coin, lib.loc = "C:/Users/Gael/Desktop/") # la zone en grisé correspond
au chemin absolu du dossier coin. Cette notion de chemin, reliée à la position
du dossier coin dans l'ordinateur, sera abordée dans le paragraphe 1.6.1.2

Les packages dont vous aurez besoin dans ce livre sont : coin, dichromat, ellipse, gdata,
ggplot2, ggrepel, gplots, gtools, lubridate, MASS, pROC, RColorBrewer, scatterplot3d,
splines, survival, et tcltk. Commencez par vérifier s'ils sont présents dans votre dossier
library, et récupérez-les si besoin. Ces packages requièrent souvent d'autres packages, qui
sont automatiquement installés, sauf si l'installation est "manuelle", mais dans ce cas, R
précisera quels sont les packages manquants.

9782807302914_RETESTA_INT.indd 19 21/11/2017 10:26


20 Chapitre 1. Présentation de R

1.2.3. Récupérer des manuels d'aide

Dans la page d'accueil de R, au lieu de cliquer sur Download, CRAN, cliquez sur
Documentation Manuals, ce qui vous donne accès à la documentation officielle de R, ainsi
qu'au lien contributed documentation. Avec ce lien, vous trouverez la documentation de
collaborateurs, dont certaines en français.

1.2.4. Découverte

Lorsque R est démarré, une fenêtre appelée console apparaît. Exemple pour Windows :

Et pour macOS :

9782807302914_RETESTA_INT.indd 20 21/11/2017 10:26


1.2. Installation et description de l’interface R classique 21

C'est dans cette fenêtre que nous lançons des instructions : création ou modification de
données, exécution de fonctions, tests statistiques sur nos données, etc. En bas se trouve le
symbole ">", appelé le prompt. A sa droite se trouve le curseur. Au-dessus de la fenêtre se
trouve une série d'icônes et encore au-dessus le menu.

Pour Windows, cliquez sur le menu Aide puis Console. Une fenêtre apparaît donnant les
raccourcis clavier pratiques. Notez que des raccourcis classiques (Ctrl+c, Ctrl+v, etc.)
sont compatibles dans R. Cliquez sur le menu Fichier et Sauver l'environnement de
travail pour sauvegarder les objets, que vous venez de créer, dans un fichier .Rdata
(voir le paragraphe 1.7.4). Vous pouvez arrêter un calcul qui dure trop longtemps avec
l'icône "STOP" ou appuyer sur la touche "Echappe" du clavier.

Pour macOS, notez que la plupart des raccourcis classiques (cmd+c, cmd+v, etc.) sont
compatibles dans R. Cliquez sur le menu Espace de Travail et Enregistrer l'Espace de
Travail pour sauvegarder les objets, que vous venez de créer, dans un fichier .Rdata
(voir le paragraphe 1.7.4). Vous pouvez arrêter un calcul qui dure trop longtemps avec
l'icône "STOP" ou appuyer sur la touche "Echappe" du clavier.

Conseil important aux débutants : écrivez votre code dans un éditeur de code, plutôt que
directement dans la console, puis exécutez le code à l'aide des commandes dédiées (voir le
paragraphe 1.3 concernant l'éditeur de RStudio) ou bien copiez-collez vos lignes de code dans
la console pour l'exécution. Et s'il y a des erreurs, corrigez-les dans l'éditeur puis
recommencez la procédure d'exécution. Trois avantages à cela : (1) un gain de temps
important car vous évitez de ressaisir des lignes qui ont déjà été notées, (2) si vous avez
beaucoup d'instructions, elles seront plus facile à lire, à manipuler et à modifier dans un
éditeur (par exemple, vous pouvez facilement rechercher une ligne de commande avec un mot
clé) et (3) Il n'existe pas d'alerte dans R sauf lorsqu'on quitte le logiciel. Ce dernier point est
important à savoir. Vous pouvez modifier ou perdre des données sans vous en rendre compte.
Ainsi, si vous n'avez pas sauvegardé votre code (procédure expliquée dans le paragraphe
1.7.1), le seul moyen de récupérer l'erreur est de recommencer l'écriture du code.

L'interface R propose un éditeur, très rudimentaire sous Windows (menu Fichier et Nouveau
script), et plutôt bien fait sous macOS (menu Fichier et Nouveau Document). Il existe
également des logiciels qui sont des éditeurs de code spécifiquement développés pour le
langage R, avec de nombreuses fonctionnalités facilitant l'écriture, la correction et la
visualisation post-exécution du code (voir la liste complète sur la page R anglaise de
Wikipédia). L'un d'eux, RStudio, a rapidement acquis une place de choix parmi les utilisateurs
du langage R et, à ce titre, il sera introduit dans le paragraphe 1.3 suivant.

Dans des cas très particuliers (par exemple la présentation d'un code et de ses résultats), vous
pouvez vous servir de logiciel de traitements de texte pour écrire votre code. Microsoft Word
peut éventuellement convenir puisque la plupart des mises en forme du texte n'affecte pas
l'exécution du code lors du copier-coller. Attention néanmoins avec les traitements de texte :
il est indispensable de désactiver toutes les mises en forme automatique du texte (pas de
changement des guillemets anglophones "" en guillemets français «» par exemple). Pour les
utilisateurs avancés, il est préférable d'employer R Markdown, en installant le package
rmarkdown sous RStudio (voir le site http://rmarkdown.rstudio.com/lesson-1.html).

Pour finir sur l'écriture du code, nous verrons dans le paragraphe 1.7.1 comment sauvegarder
des lignes de code, et comment réimporter ces lignes dans R.

9782807302914_RETESTA_INT.indd 21 21/11/2017 10:26


22 Chapitre 1. Présentation de R

1.3. Installation et description de RStudio

RStudio est un environnement, dit de développement intégré (IDE en anglais pour integrated
development environment). Il a été développé par Joseph J. Allaire, qui dirige la compagnie
RStudio inc (voir le site http://rstudio.com). En plus de la console classique de R, cet
environnement présente plusieurs panneaux, formant une interface conviviale qui facilite
grandement les manipulations dans R. On le rappelle, le terme "interface R classique" sera
employé lorsqu'il sera nécessaire de distinguer l'interface R classique de l'interface RStudio.
Le simple terme "R" désignera l'environnement R d'une manière générale, sans distinguer les
deux interfaces. Il s'adressera donc aussi bien à l'interface R classique qu'à RStudio.

1.3.1. Installation

Le logiciel R doit être installé en priorité (voir le paragraphe 1.2). La dernière version de
RStudio est disponible à cette adresse : https://www.rstudio.com/products/rstudio/download/.
Si besoin, certaines versions antérieures de RStudio sont également mises à disposition (tester
l'adresse : https://support.rstudio.com/hc/en-us/articles/206569407-Older-Versions-of-
RStudio ou l'adresse https://support.rstudio.com/hc/en-us/articles/200716783-RStudio-
Release-History pour comparer les versions). Il suffit ensuite de suivre les instructions
d'installation affichées par votre ordinateur. Attention : la version de RStudio décrite dans cet
ouvrage est la version 1.0.136.

Les informations relatives à l'utilisation de RStudio sont disponibles à l'adresse suivante :


https://support.rstudio.com/hc/en-us/. Le site internet fournit également des cheat sheets, qui
sont des fiches résumé très pratiques (https://www.rstudio.com/resources/cheatsheets/).

La fenêtre de RStudio est plus elaborée que celle de l'interface R classique. Elle présente un
menu et une barre d'icônes, dans la partie supérieure de la fenêtre, ainsi que quatre panneaux,
dont trois composés d'onglets :

9782807302914_RETESTA_INT.indd 22 21/11/2017 10:26


1.3. Installation et description de RStudio 23

1.3.2. Console (panneau inférieur gauche)

Le panneau principal de RStudio est la console, située par défaut dans le coin inférieur gauche
de la fenêtre. Souvent, la console occupe toute la partie gauche. Cliquez dans ce cas sur
l'icône "Dossier" en haut à droite de la console :

Le panneau "Console" correspond à la console de l'interface R classique, avec quelques


propriétés supplémentaires, comme par exemple une aide à l'écriture du code. Ce panneau est
considéré comme le principal car les autres panneaux ne sont pas essentiels à l'écriture et
l'exécution du code. En bas de la console se trouve le symbole ">", appelé le prompt et à sa
droite se trouve le curseur. Les instructions peuvent être directement tapées ou copiées-collées
à partir du prompt, mais comme expliqué dans le paragraphe 1.2.4, il est préférable de se
servir du panneau d'édition. En haut du panneau, à droite du mot "Console", se trouve le
chemin du répertoire de travail (par défaut ~/; ce qui signifie home directory, soit
C:\Users\Gael\Documents sur mon ordinateur). C'est dans ce répertoire que seront enregistrés
les fichiers par défaut, dont les fichiers .RData et .Rhistory (voir le paragraphe 1.2.4). L'icône
"Flèche" à droite affiche le contenu du répertoire de travail dans l'onglet File du panneau
inférieur droit. Ce répertoire de travail peut être modifié en cliquant, dans le menu, sur

9782807302914_RETESTA_INT.indd 23 21/11/2017 10:26


24 Chapitre 1. Présentation de R

Session / Set Working Directory / Choose Directory (voir également les fonctions getwd() et
setwd() dans l'annexe 26). Enfin, une icône "STOP" apparaît, en haut à droite du panneau,
quand du code est exécuté. Cliquez dessus si besoin pour arrêter une exécution trop longue.

1.3.3. Panneau d'édition (supérieur gauche)

Le panneau supérieur gauche est le panneau d'édition. Voir le paragraphe 1.3.2 si ce panneau
n'est pas apparent. Comme expliqué dans le paragraphe 1.2.4, il est important d'écrire et de
corriger son code dans cet éditeur, plutôt que dans la console, puis d'exécuter le code depuis
cet éditeur. Noter que les raccourcis classiques de Windows (Ctrl+c, Ctrl+v, Ctrl+z, Ctrl+a,
Ctrl+f, etc.) ou de macOS (cmd+c, cmd+v, cmd+z, cmd+a, cmd+f, etc.) sont compatibles
dans le panneau, ce qui signifie que le code de cet ouvrage, disponible sur le site
https://c3bi.pasteur.fr/gael-millot-livres/, peut être copié-collé dans l'éditeur de RStudio. Le
menu File / New File / R Script ouvre un nouvel onglet d'édition :

Exécute la
Rechercher / Réexécute la
ligne sur le
remplacer précédente
curseur ou le
Change exécution
Enregistre code
d'onglet le code Outils sélectionné

Sauve le
Sort l'onglet du Exécute le code dans le
panneau et code quand fichier caché
l'affiche en il est Compilation .active-
nouvelle enregistré R Markdown rstudio-
fenêtre document
temporaire et
Nombre total de Fonctions créées exécute le
lignes de code et dans le code code
position du
curseur Format du code
écrit

Cliquer sur le coin inferieur droit du panneau ouvre un menu. La sélection d'un thème ("R
Script" sur l'exemple ci-dessus) ne modifie pas le code mais simplement le système de
visualisation en couleur, la mise en forme et l'aide à l'écriture de ce code.

Pour exécuter un code écrit dans le panneau d'édition, sélectionnez le code et cliquez sur
l'icône "Run". Le code est alors exécuté dans la console.

La sauvegarde et réimportation de lignes de code seront abordées dans le paragraphe 1.7.1.

1.3.4. Panneau "environnement et historique" (supérieur droit)

L'onglet Environment permet de gérer les objets inclus dans les différents environnements de
R. La notion d'environnement est développée dans le paragraphe 1.11, et la gestion des objets
(import et export) dans le paragraphe 1.7.4. L'icône "Import Dataset" facilite l'import de
fichiers de données dans RStudio (voir le paragraphe 1.6.1.2).

9782807302914_RETESTA_INT.indd 24 21/11/2017 10:26


1.3. Installation et description de RStudio 25

Efface tous les


Affiche les Rafraichir
objets de
objets de
l'environnement
l'environnement
de travail
Ouvre un Ouvre un fichier (fonction
fichier rm(list =
de données
.RData ls()))
(fonction
(fonction read.table() et
load()) équivalent)
Recherche dans
Sauve les objets l'environnement
dans un fichier
.RData (fonction Affichage "liste"
save.image()) ou "grille"

L'onglet History gère l'historique des commandes exécutées dans la console, ce qui présente
peu d'intérêt si le code est systématiquement écrit et géré dans le panneau d'édition.

Colle les
lignes
Enregistre sélectionnées
l'historique de l'historique
dans un dans le Efface
fichier panneau l'historique
.Rhistory d'édition

Ouvre un Exécute les Recherche


fichier lignes Efface les
.Rhistory sélectionnées lignes
de l'historique sélectionnées

1.3.5. Panneau d'outils (inférieur droit)

Le panneau inférieur droit présente 5 onglets : Files, Plots, Packages, Help et Viewer.

1.3.5.1. Onglet Files

Cet onglet permet de naviguer dans les répertoires de l'ordinateur. Les icônes situées dans la
partie supérieure de l'onglet regroupent les fonctions classiques de gestion des fichiers et
dossiers. Noter qu'en cliquant sur l'icône "More", il est possible de gérer le répertoire de
travail (voir le paragraphe 1.3.2) :

9782807302914_RETESTA_INT.indd 25 21/11/2017 10:26


26 Chapitre 1. Présentation de R

1.3.5.2. Onglet Plots

Cet onglet affiche les résultats graphiques de R. Ce n'est pas tout à fait l'équivalent de la
fenêtre graphique de l'interface classique de R. C'est une version plus élaborée au sens où
l'onglet Plots propose un historique des graphiques affichés. Nous y reviendrons dans le
paragraphe 1.10.1.

Historique Efface le
des graphique
graphiques affiché

Affichage
dans une Supprime
Exporte le
nouvelle l'historique
graphique
fenêtre des
graphiques

1.3.5.3. Onglet Packages

Cet onglet affiche et gère l'ensemble des packages disponibles sur l'ordinateur.

9782807302914_RETESTA_INT.indd 26 21/11/2017 10:26


1.3. Installation et description de RStudio 27

Rechercher Rafraichit
Recherche la liste des
des mises packages
à jour des
packages
Installe installés Supprime le
des
package de
packages
l'ordinateur
Active le
package dans
l'environnement
de travail

Un package est une compilation d'outils qui ne se trouve pas dans l'installation de base du
logiciel R. Pour obtenir un package depuis internet, cliquez sur l'icône "Install" et spécifiez le
nom du package que vous souhaitez dans la nouvelle fenêtre :

Le package est installé par défaut dans le dossier library du logiciel R (voir le paragraphe
1.2.1) et il apparaît dans la liste de l'onglet Packages de RStudio.Un package a parfois besoin
d'outils se trouvant dans d'autres packages. Cliquer sur Install dependencies pour télécharger
ces packages additionnels. Si cette méthode ne fonctionne pas (en particulier si vous n'êtes
pas administrateur de l'ordinateur), une alternative est de récupérer "manuellement" les
packages, comme expliqué dans le paragraphe 1.2.2.

Pour être activé, un package doit être chargé dans l'environnement de travail de RStudio. Par
exemple, si le package coin est dans le dossier library, écrire la commande suivante dans la
console :
> library("coin")

Si le package est situé ailleurs dans l'ordinateur, employer plutôt la commande suivante :
> library(coin, lib.loc = "C:/Users/Gael/Desktop/") # la zone en grisé correspond
au chemin absolu du dossier coin. Cette notion de chemin, reliée à la position
du dossier coin dans l'ordinateur, sera abordée dans le paragraphe 1.6.1.2

Les packages dont vous aurez besoin dans ce livre sont indiqués dans le paragraphe 1.2.2.

9782807302914_RETESTA_INT.indd 27 21/11/2017 10:26


Millot Millot
Comprendre et réaliser

Millot
les tests statistiques à l’aide de R
Manuel de biostatistique
Comprendre et réaliser
les tests statistiques à l’aide de R

Comprendre et réaliser les tests statistiques


Ce livre s’adresse aux étudiants, médecins et chercheurs de chaque test à l’aide de R, en incluant toutes les étapes du
désirant réaliser des tests alors qu’ils débutent en statistique. test, et notamment l’analyse graphique des données.
Une approche simple et détaillée R, le logiciel de référence
Illustré par 88 figures et accompagné d’exercices avec cor- L’originalité de ce manuel est de proposer non seulement
rection, l’ouvrage aborde la statistique de la manière la plus une explication très détaillée sur l’utilisation des tests les
simple qui soit, sans démonstration mathématique, mais
en insistant sur les détails, afin de bien maîtriser toutes les
plus classiques, mais aussi la possibilité de réaliser ces tests
à l’aide de R, logiciel de référence en statistique, gratuit, Manuel de biostatistique
subtilités des tests. disponible sur Internet et compatible avec Windows, Mac
OS et Linux. L’autre originalité est de proposer l’ensemble
Des notions essentielles traitées en profondeur des exemples d’application des tests à partir d’un seul fichier
L’ouvrage explore des points fondamentaux en statistique : de données, ce qui facilite la compréhension et le passage
la check-list à effectuer avant de réaliser un test, la gestion éventuel vers d’autres logiciels d’analyse. Ce fichier, ainsi que 4 e édition
des individus extrêmes, l’origine de la p value, la puissance l’intégralité du code R de ce manuel, est disponible en ligne.
ou la conclusion d’un test. Il explique comment choisir un

à l’aide de R
test à partir de ses propres données. Il décrit 35 tests statis- Gaël MILLOT, Docteur en Génétique Humaine, Maître
tiques sous forme de fiches, dont 24 non paramétriques, de Conférence en Génétique et Biostatistique à l’Univer-
ce qui couvre la plupart des tests à une ou deux variables sité Pierre et Marie Curie (Paris VI), responsable du pôle
observées. Il traite de toutes les subtilités des tests, comme Statistique de la plateforme Hub-C3BI de l’Institut Pasteur.
les corrections de continuité, les corrections de Welch pour
le test t et l’anova, ou les corrections de p value lors des L’auteur reverse la moitié de ses droits d’auteur à différents
comparaisons multiples. Il propose un exemple d’application organismes de recherche sur les maladies génétiques.

a La 4e édition de la référence dans le domaine


des tests statistiques et de R
a Accessible aux débutants : aucun prérequis
nécessaire en mathématiques ou en informatique
a Nombreux exemples d’application et exercices corrigés
Photo : StationaryTraveller - istockphoto.com
Conception graphique : Primo&Primo®

ISBN : 978-2-8073-0291-4

9 782807 302914

9782807302914_RETESTA_CV+NOTO.indd 1 05/12/2017 10:11

Vous aimerez peut-être aussi