Vous êtes sur la page 1sur 7

Abonnez-vous à DeepL Pro pour traduire des fichiers plus volumineux.

Visitez www.DeepL.com/pro pour en savoir plus.

simpleR - Utilisation de R pour l'introduction aux statistiques

John Verzani
8e+05
6e+05
y

4e+05
2e+05

20000 40000 60000 80000 120000 160000


page i

Préface
Ces notes constituent une introduction à l'utilisation du logiciel statistique R dans le cadre d'un cours
d'introduction aux statistiques. Elles sont destinées à accompagner un livre d'introduction à la statistique tel que
"Exploring Statistics" de Kitchens. L'objectif n'est pas de montrer toutes les fonctionnalités de R, ni de remplacer
un manuel standard, mais plutôt d'être utilisé avec un manuel pour illustrer les fonctionnalités de R qui peuvent
être apprises dans le cadre d'un cours d'introduction à la statistique d'une durée d'un semestre.
Ces notes ont été écrites pour tirer parti de la version 1.5.0 de R ou d'une version ultérieure. Pour des raisons
pédagogiques, le signe égal,
=, est utilisé comme opérateur d'affectation et non comme la combinaison traditionnelle de flèches <-. Ceci a été ajouté à
R dans la version
1.4.0. Si seule une version plus ancienne est disponible, le lecteur devra procéder à un ajustement mineur.
Ce texte fait référence à plusieurs données et fonctions qui doivent être installées avant d'être utilisées. L'installation
des données est facile, mais les instructions varient en fonction de votre système. Pour les utilisateurs de Windows, vous
d e v e z télécharger le fichier "zip", puis l'installer à partir du menu "packages". Sous UNIX, on utilise la commande R
CMD INSTALL nomdupaquet.tar.gz. Certains des ensembles de données sont empruntés à d'autres auteurs,
notamment Kitchens. Le crédit est indiqué dans les fichiers d'aide des ensembles de données. Ce matériel est disponible
sous la forme d'un paquetage R auprès de :
http://www.math.csi.cuny.edu/Statistics/R/simpleR/Simple 0.4.zip pour les utilisateurs de Windows.
http://www.math.csi.cuny.edu/Statistics/R/simpleR/Simple 0.4.tar.gz pour les utilisateurs UNIX.

Si nécessaire, le fichier peut être envoyé par courrier électronique. En outre, les ensembles de données individuels
peuvent être trouvés en ligne dans le répertoire
http://www.math.csi.cuny.edu/Statistics/R/simpleR/Simple.
Il s'agit de la version 0.4 de ces notes, qui ont été générées pour la dernière fois le 22 août 2002. Avant d'imprimer
ces notes, il est conseillé de vérifier si la version la plus récente est disponible à l'adresse suivante
le département de mathématiques du CSI (http://www.math.csi.cuny.edu/Statistics/R/simpleR).
Copyright John Verzani (verzani@math.csi.cuny.edu), 2001-2. Tous droits réservés.
◯c

Contenu
Introduction 1
Qu'est-ce que R..........................................................................................................................................................................1
Note sur la notation ...............................................................................................................................................................1

Données 1
Démarrage R.............................................................................................................................................................................1
Saisie des données avec c.....................................................................................................................................................2
Les données sont un vecteur ..................................................................................................................................................3
Problèmes..................................................................................................................................................................................7

Données univariées 8
Données catégorielles................................................................................................................................................................8
Données numériques ...............................................................................................................................................................10
Problèmes................................................................................................................................................................................18

Données à deux variables 19


Traitement des données catégorielles bivariées ......................................................................................................................20
Traitement des données à deux variables : catégoriques et numériques.................................................................................21
Données à deux variables : numériques et numériques ..........................................................................................................22
Régression linéaire..................................................................................................................................................................24
Problèmes................................................................................................................................................................................31

Données multivariées 32
Stockage de données multivariées dans des cadres de données ...................................................................................32
Accès aux données dans les cadres de données ......................................................................................................................33
page ii

Manipulation des trames de données : empiler et dépiler ...............................................................................................34


Utiliser la notation de la formule du modèle de R...................................................................................................................35
Méthodes de visualisation des données multivariées .....................................................................................................35
Le paquet de treillis ..........................................................................................................................................................40
Problèmes................................................................................................................................................................................40
page iii

Données aléatoires 41
Générateurs de nombres aléatoires en R - les fonctions "r ..................................................................................................41
Problèmes................................................................................................................................................................................46

Simulations 47
Le théorème de la limite centrale ......................................................................................................................................47
Utilisation de simple.sim et de fonctions ...........................................................................................................................49
Problèmes................................................................................................................................................................................51

Analyse exploratoire des données 54


Notre boîte à outils ..................................................................................................................................................................54
Exemples.................................................................................................................................................................................54
Problèmes................................................................................................................................................................................58

Estimation de l'intervalle de confiance 59


Théorie de la proportion de la population .........................................................................................................................59
Test de proportionnalité ......................................................................................................................................................61
Le test z ................................................................................................................................................................................62
Le test t .................................................................................................................................................................................62
Intervalle de confiance pour la médiane .................................................................................................................................64
Problèmes................................................................................................................................................................................65

Test d'hypothèse 66
Tester un paramètre de population ....................................................................................................................................66
Test d'une moyenne.................................................................................................................................................................67
Tests pour la médiane .............................................................................................................................................................67
Problèmes................................................................................................................................................................................68

Tests à deux échantillons 68


Tests de proportion à deux échantillons..................................................................................................................................68
Tests t à deux échantillons......................................................................................................................................................69
Tests à deux échantillons résistants .....................................................................................................................................71
Problèmes................................................................................................................................................................................71

Tests du chi carré 72


La distribution du khi-deux..................................................................................................................................................72
Tests d'adéquation du chi carré...............................................................................................................................................72
Tests d'indépendance du chi carré...........................................................................................................................................74
Tests du chi carré pour l'homogénéité ....................................................................................................................................75
Problèmes................................................................................................................................................................................76

Analyse de régression 77
Modèle de régression linéaire simple .....................................................................................................................................77
Tester les hypothèses du modèle.............................................................................................................................................78
Inférence statistique................................................................................................................................................................79
Problèmes................................................................................................................................................................................83

Régression linéaire multiple 84


Le modèle ...............................................................................................................................................................................84
Problèmes................................................................................................................................................................................89

Analyse de la variance 89
analyse de la variance à un facteur .........................................................................................................................................89
Problèmes................................................................................................................................................................................92

Annexe : Installation de R 94

Annexe : Paquets externes 94

Annexe : Un exemple de session R 94


Un exemple de session impliquant une régression .................................................................................................................94
Tests t ....................................................................................................................................................................................97
Un exemple de simulation ......................................................................................................................................................99
page iv

Annexe : Que se passe-t-il lorsque R démarre ? 100

Annexe : Utilisation des fonctions 100


Le modèle de base ..............................................................................................................................................................100
Pour les boucles.....................................................................................................................................................................102
Expressions conditionnelles .................................................................................................................................................103

Annexe : Entrer des données dans R 103


L'utilisation de c ...................................................................................................................................................................104
Utilisation de la numérisation............................................................................................................................................104
Utilisation de la numérisation avec un fichier .................................................................................................................104
Modifier vos données........................................................................................................................................................104
Lecture de tableaux de données ............................................................................................................................................105
Champs de largeur fixe.........................................................................................................................................................105
Données du tableur.............................................................................................................................................................105
XML, urls..............................................................................................................................................................................106
"Formats "étrangers...............................................................................................................................................................106

Annexe : Trucs et astuces d'enseignement 106

Annexe : Sources d'aide et de documentation 107


Don page 1
nées

Section 1 : Introduction

Qu'est-ce que R
Ces notes décrivent comment utiliser R lors de l'apprentissage de l'introduction aux statistiques. L'objectif est de
permettre à ce logiciel de qualité d'être utilisé dans des cours de "niveau inférieur" où sont souvent utilisés
MINITAB, SPSS, Excel, etc. Le lecteur est censé avoir suivi au moins un cours de pré-calcul. Nous espérons que
les étudiants à qui l'on montre comment utiliser R à ce niveau précoce comprendront mieux les questions
statistiques et bénéficieront en fin de compte du programme plus sophistiqué malgré sa "courbe d'apprentissage"
plus raide.

Les avantages de R pour un étudiant débutant sont les suivants


• R est gratuit. R est un logiciel libre qui fonctionne sous UNIX, Windows et Macintosh.
• R dispose d'un excellent système d'aide intégré.
• R possède d'excellentes capacités graphiques.
• Les étudiants peuvent facilement migrer vers le programme commercial S-Plus si un logiciel commercial est
souhaité.
• Le langage R possède une syntaxe puissante et facile à apprendre, ainsi que de nombreuses fonctions statistiques
intégrées.
• Le langage est facile à étendre avec des fonctions écrites par l'utilisateur.
- R est un langage de programmation informatique. Pour les programmeurs, il sera plus familier que d'autres et pour
les nouveaux utilisateurs d'ordinateurs, le prochain pas vers la programmation ne sera pas si grand.
Quelles sont les lacunes de R par rapport à d'autres solutions logicielles ?
• Son interface graphique est limitée (S-Plus en a une bonne). Cela signifie qu'il peut être plus difficile à apprendre
au début.
• Il n'y a pas de soutien commercial. (Bien que l'on puisse affirmer que la liste de diffusion internationale est
encore meilleure).
• Le langage de commande est un langage de programmation et les étudiants doivent donc apprendre à apprécier les
problèmes de syntaxe, etc.
R est un environnement statistique open-source (GPL) modelé sur S et S-Plus (http://www.insightful.com). Le
langage S a été développé à la fin des années 1980 dans les laboratoires AT&T. Le projet R a été lancé par Robert
Gentleman et Ross Ihaka du département des statistiques de l'université d'Auckland en 1995. Il a rapidement gagné un
large public. Il est actuellement maintenu par l'équipe de développement de base de R, une équipe internationale de
développeurs bénévoles qui ne ménage pas ses efforts. Page web du projet R
http://www.r-project.org
est le principal site d'information sur R. On y trouve les instructions pour obtenir le logiciel, les paquets
d'accompagnement et d'autres sources de documentation.

Note sur la notation


Quelques conventions typographiques sont utilisées dans ces notes. Il s'agit notamment de polices de caractères
différentes pour les urls, les commandes R, les noms des ensembles de données et de la typographie différente pour le
des séquences plus longues de commandes R.
et pour
Ensembles de données.

Section 2 : Données
Les statistiques sont l'étude des données. Après avoir appris à démarrer R, la première chose que nous devons
être capables de faire est d'apprendre à entrer des données dans R et à manipuler les données une fois qu'elles sont
Don page 1
nées
entrées.

Démarrage R

Vous aimerez peut-être aussi