Vous êtes sur la page 1sur 3

Université de Port-au-Prince (UP)

Statistiques pour informaticiens


Partie I du projet introduction au logiciel R
2021-2022
Session 1
Jeu de données.
Les données sont téléchargeables sur votre courriel personnel en format txt.
Le fichier de travail est nommé : Test data.txt.
On a des tables représentées de la façon suivante :
_ La première ligne est un en-tête contenant les noms de chacune des colonnes.
_ Chacune des lignes suivantes contient les données sur les variables.
_ l’étudiant peut convertir le fichier txt en fichier csv si besoin pour travailler sur R.
_l’étudiant devra envoyer 2 fichiers par email : le fichier doc ou pdf + le fichier « R »
Instructions. Vous devez écrire du code R pour répondre aux questions suivantes.
L’étudiant doit commenter les codes et présenter les résultats dans le fichier en faisant des captures
d’écran.
Le devoir devra être remis au plus tard le 6 février 2022 avant 12 : 00 am. Pour tout retard vous
perdez 1 point.
Le format de transmission du devoir est : prenom_nom_statsinfo_UP_projet_part1_22
Le devoir devrait être envoyé à l’adresse électronique suivant : gduvalsaint@yahoo.fr

1.Importation et mise en forme (2 pts)


1.1 Importer les jeux de données “ Test data .txt ”
1.2 Quel est le nom des variables du fichier importer
1.2 Combien y-a-t-il de variables et d’observations.
1.3 Dresser le dictionnaire des variables c.-à-d. présenter un tableau résumant le nom et le type
de chaque variable.
1.4 Afficher les 8 premières lignes de chaque variable.

2 Traitement des valeurs manquantes (2 pts)


2.1 Vérifier s’il y a des valeurs manques dans le jeu de données. Si oui, pouvez-vous identifier à
quelles variables correspondent ces valeurs manquantes.
2.2 Y-a-t-il des valeurs aberrantes dans le jeu de données.
2.3 Procéder à des recherches sur internet et remplacer les valeurs NA par des valeurs que vous
choisissez pour des variables suivantes :
1- Vaccins
2-nombre.doses
3- Signes.de.gravit.
3 Création de variables (2 pts)
Compléter la base de données initiale par les variables suivantes :
3.1 Transformer la variable «Sexe » en une variable binaire
3.2 Recodifier la variable « voyage » : « oui », « Oui » , « OUI » en 1 et « non », « Non », « Non » en
0
3.3 Recodifier à la variable caractérisant le « Profil agent santé » :
a) « Accoucheuse » en 1
b) « aide soignant » ou « Aide soignant » en 2
c) « appui » ou « Appui » en 3
d) Infirmier en 4
e) Médecin en 5
f) Pharmacien en 6
g) « sage femme » ou « Sage femme » en 7
h) « Technicien » en 8
i) «technicien labo » ou « Technicien labo » en 9
3.4 Une variable prenant la valeur 1 lorsque l’individu habite en « région centrale » et 0 sinon.
3.5 Une variable égale au carré de l’âge
3.5 Une variable égale au logarithme de l’âge.
3.6 Transformer la variable « age » en tranche d’âge en utilisant votre propre estimation de
classes.

4 Analyse descriptive (2 pts)


4.1 Calculer la moyenne, médiane l’écart-type, minimum, maximum et les quartiles pour l’ensemble
des variables continues suivantes : « Age », « Nombre.doses » et « Signes.de.gravit.»
4.2 Présenter un tableau d’effectif et de fréquence des variables «Nationalit.», « Femmes.enceintes» et
« Voyage » recodifié en question 3.2

5 Extraction (2 pts)
5.1 Afficher tous les âges qui sont supérieur à la moyenne de cette même variable.
5.2 Afficher la liste des femmes enceintes qui habite en région centrale
5.4 Afficher la profession des agents de Santé qui sont Accoucheuses
5.5 Extraire la liste des Médecins qui sont des hommes
5.6 Extraire la liste des infirmières qui sont des femmes dont l’âge ne dépasse pas 35 ans et qui habite
au Togo.
5.7 Extraire la liste des enseignants qui ont été vaccinés à la date de 18 mai 2020.

Vous aimerez peut-être aussi