Académique Documents
Professionnel Documents
Culture Documents
John Verzani
8e+05
6e+05
y
4e+05
2e+05
Préface
Ces notes constituent une introduction à l'utilisation du logiciel statistique R dans le cadre d'un cours
d'introduction aux statistiques. Elles sont destinées à accompagner un livre d'introduction à la statistique tel que
"Exploring Statistics" de Kitchens. L'objectif n'est pas de montrer toutes les fonctionnalités de R, ni de remplacer
un manuel standard, mais plutôt d'être utilisé avec un manuel pour illustrer les fonctionnalités de R qui peuvent
être apprises dans le cadre d'un cours d'introduction à la statistique d'une durée d'un semestre.
Ces notes ont été écrites pour tirer parti de la version 1.5.0 de R ou d'une version ultérieure. Pour des raisons
pédagogiques, le signe égal,
=, est utilisé comme opérateur d'affectation et non comme la combinaison traditionnelle de flèches <-. Ceci a été ajouté à
R dans la version
1.4.0. Si seule une version plus ancienne est disponible, le lecteur devra procéder à un ajustement mineur.
Ce texte fait référence à plusieurs données et fonctions qui doivent être installées avant d'être utilisées. L'installation
des données est facile, mais les instructions varient en fonction de votre système. Pour les utilisateurs de Windows, vous
d e v e z télécharger le fichier "zip", puis l'installer à partir du menu "packages". Sous UNIX, on utilise la commande R
CMD INSTALL nomdupaquet.tar.gz. Certains des ensembles de données sont empruntés à d'autres auteurs,
notamment Kitchens. Le crédit est indiqué dans les fichiers d'aide des ensembles de données. Ce matériel est disponible
sous la forme d'un paquetage R auprès de :
http://www.math.csi.cuny.edu/Statistics/R/simpleR/Simple 0.4.zip pour les utilisateurs de Windows.
http://www.math.csi.cuny.edu/Statistics/R/simpleR/Simple 0.4.tar.gz pour les utilisateurs UNIX.
Si nécessaire, le fichier peut être envoyé par courrier électronique. En outre, les ensembles de données individuels
peuvent être trouvés en ligne dans le répertoire
http://www.math.csi.cuny.edu/Statistics/R/simpleR/Simple.
Il s'agit de la version 0.4 de ces notes, qui ont été générées pour la dernière fois le 22 août 2002. Avant d'imprimer
ces notes, il est conseillé de vérifier si la version la plus récente est disponible à l'adresse suivante
le département de mathématiques du CSI (http://www.math.csi.cuny.edu/Statistics/R/simpleR).
Copyright John Verzani (verzani@math.csi.cuny.edu), 2001-2. Tous droits réservés.
◯c
Contenu
Introduction 1
Qu'est-ce que R..........................................................................................................................................................................1
Note sur la notation ...............................................................................................................................................................1
Données 1
Démarrage R.............................................................................................................................................................................1
Saisie des données avec c.....................................................................................................................................................2
Les données sont un vecteur ..................................................................................................................................................3
Problèmes..................................................................................................................................................................................7
Données univariées 8
Données catégorielles................................................................................................................................................................8
Données numériques ...............................................................................................................................................................10
Problèmes................................................................................................................................................................................18
Données multivariées 32
Stockage de données multivariées dans des cadres de données ...................................................................................32
Accès aux données dans les cadres de données ......................................................................................................................33
page ii
Données aléatoires 41
Générateurs de nombres aléatoires en R - les fonctions "r ..................................................................................................41
Problèmes................................................................................................................................................................................46
Simulations 47
Le théorème de la limite centrale ......................................................................................................................................47
Utilisation de simple.sim et de fonctions ...........................................................................................................................49
Problèmes................................................................................................................................................................................51
Test d'hypothèse 66
Tester un paramètre de population ....................................................................................................................................66
Test d'une moyenne.................................................................................................................................................................67
Tests pour la médiane .............................................................................................................................................................67
Problèmes................................................................................................................................................................................68
Analyse de régression 77
Modèle de régression linéaire simple .....................................................................................................................................77
Tester les hypothèses du modèle.............................................................................................................................................78
Inférence statistique................................................................................................................................................................79
Problèmes................................................................................................................................................................................83
Analyse de la variance 89
analyse de la variance à un facteur .........................................................................................................................................89
Problèmes................................................................................................................................................................................92
Annexe : Installation de R 94
Section 1 : Introduction
Qu'est-ce que R
Ces notes décrivent comment utiliser R lors de l'apprentissage de l'introduction aux statistiques. L'objectif est de
permettre à ce logiciel de qualité d'être utilisé dans des cours de "niveau inférieur" où sont souvent utilisés
MINITAB, SPSS, Excel, etc. Le lecteur est censé avoir suivi au moins un cours de pré-calcul. Nous espérons que
les étudiants à qui l'on montre comment utiliser R à ce niveau précoce comprendront mieux les questions
statistiques et bénéficieront en fin de compte du programme plus sophistiqué malgré sa "courbe d'apprentissage"
plus raide.
Section 2 : Données
Les statistiques sont l'étude des données. Après avoir appris à démarrer R, la première chose que nous devons
être capables de faire est d'apprendre à entrer des données dans R et à manipuler les données une fois qu'elles sont
Don page 1
nées
entrées.
Démarrage R