Vous êtes sur la page 1sur 4

Travail personnel de l’étudiant

Université de Maroua Département d’Informatique et Télécommunications


Ecole Nationale Supérieure Polytechnique Dr Wansouwé Wanbitching
Filière : C1A3 - C2A2 Année académique 2018-2019 UE: Analyse des données et RO

Les étudiants formeront des groupes de 4 à partir des deux listes fusionnées et triées dans l’ordre
alphabétique des étudiants de C1A3 et C2A2. Le choix des sujets se fera de façon cyclique en commençant
par le sujet 1 que choisira le groupe 1.
Le devoir est à remettre au plus tard le samedi 02 mars 2019 à 15h30. Il comportera un support papier de 5
pages maximum y compris la page de garde.
Sujet 1 : Comparaison de plusieurs proportions
Reprenons l’exemple historique contenant la couleur des cheveux de garçons et filles d’un district écossais

Blond Roux Châtain Brun Noir de jais


Garçons 592 119 849 504 36
Filles 544 97 677 451 14

Nous cherchons à comparer les proportions de garçons pour différents groupes, ici différentes couleurs de
cheveux. Nous allons tester si ces proportions sont égales dans tous les groupes ou non, avec une erreur de
première espèce fixée à 5%.
Question : Tester l’égalité des proportions de garçons (pour différentes couleurs de cheveux).

Sujet 2 : Chômage et élection régionale


1. Utiliser l’archive regions-metropole-complet.tar.gz (téléchargeable aussi via la page
http://wiki.openstreetmap.org/wiki/WikiProject_France/Fonds_de_cartes) pour importer le fond de
carte dans un objet R appelé regions sans se préoccuper des coordonnées (readShapeSpatial).
2. Tracer les régions avec la fonction plot.
3. Ré-importer le shapefile regions-metropole.* en ajoutant comme argument proj4string =
CRS(‘’+proj=longlat +datum=WGS84’’) pour mentionner que les coordonnées sont en
latitude/longitude (mesures avec la norme WGS84, ce qui est le cas sur OpenStreetMap) et tracer
les régions pour constater l’amélioration.
4. Résumer l’objet regions. Quelle est le nomR de la variable de l’intitulé des régions.
5. Que donne regions#NOM( ou regions@data#NOM)?
6. Tracer la région 1 en utilisant plot (regions[1, ]).
7. Trouver le nom de cette région en utilisant la question 5.
8. Tracer la région Alsace.
9. Charger les données de chômage 2011 (par région) contenues dans le fichier txchom_region.csv
dans un objet R appelé chomregion. La variable CODGEO est le code officiel de la région ( que
l’on retrouve dans la variable NUMERO de regions).
10. Mettre les régions de chomregion dans le même ordre que celui des régions dans regions
(match).
11. Affecter le nom des lignes de regions (regions@data) au tableau chomregion ordonné.
12. Fusionner le tableau chomregion ordonné avec regions (spCbind).

1
13. Représenter le chômage du premier trimestre 2011 par région (spplot).
14. Représenter les majorités régionales (élection de 2010) avec comme couleurs pink2 pour les
divers gauche, salmon pour le parti radical de gauche, pink pour le PS et blue pour l’UMP
(argument col.regions).

Sujet 3 : Représentation graphique et projection


1. Tracer la carte des états des USA en utilisant le package map.
2. Transformer la carte en SpatialLines grâce à la fonction map2SpatialLines du package maptools
(le système de coordonnées est supposé être le WGS84).
3. Tracer cette carte et constater que la répresentation est identique.
4. Charger le package rgdal. Projeter les points de la carte avec la transformation polyconique
anciennement utilisée par l’US Geological Survey en utilisant spTransform et l’argument
CRS=CRS(‘’+proj=poly +lat_0=43 +lon_0=-103.25 +x_0=0 +y_0=
0 +ellps =clrk66 +units=m +no_defs’’). Tracer la nouvelle carte projetée
et constater la différence visuelle. Cette projection conserve les surfaces.
Sujet 4
1. Créer le tableau de contingence croisant le variables qualitatives type de laine (laine) et tension
(tension).
Ang Mer Tex
Faible 2 3 0
Forte 1 0 4
2. A partir de ce tableau, créer une matrice de caractère tabmat qui contient 3 colonnes et autant de
lignes que de croisement de modalités (ou cellules dans le tableau de contingence). Cette matrice
de caractère sera remplie à chaque ligne par la tension (ligne du tableau précédent), le type de
laine (colonne du tableau précédent), le type de laine (colonne du tableau précédent) et l’effectif
pour le croisement des modalités. Pour cela on utilisera les fonctions matrix et rep.
3. Transformer la matrice de caractère de la question précédente en data-frame appelé par exemple
tabframe, et contrôler le type de variables. Grâce à ce dataframe, affecter à n le nombre total
d’individus (sum) et affecter à nbefac le nombre de variables qualitatives (ncol).
4. Créer un compteur iter initialisé à 1 et une matrice tabcomplet de carctères, par exemple le
caractère ‘’ ’’, de la taille du jeu de données final.
5. Faire une boucle sur le nombre de lignes de tabmat. Chaque ligne i correspond à un croisement
de modalités (ou strates). Si le nombre d’individus qui prennent ce croisement de modalités i
n’est pas nul, alors répéter, sur autant de lignes tabcomplet qu’il faut, le croisement de modalité i
(en répartissant les modalités dans la colonne qui lui correspond). On pourra utiliser une boucle,
le compteur iter, la matrice tabmat et le data-frame tabframe.
Le résultat tabcomplet sera identique au tableau don initial.

Sujet 5 : Test de conformité d’une proportion


On s’intéresse aux intentions de vote pour un candidat A lors du deuxième tour des élections présidentielles.
Lors d’un sondage auprès de 1040 électeurs, le candidat A recueille 52.4% d’intentions de vote. Peut-on
considérer au seuil 95% qu’il va remporter l’élection ? Implicitement, nous supposons que l’échantillon est
représentatif, qu’il est tiré avec remise et que les électeurs voteront en respectant l’intention exprimée. Les
sondages aléatoires simples utilisent des échantillons tirés sans remise. Cependant, la procédure détaillée ci-
dessous est une approximation raisonnable quand le taux de sondage est faible, i.e. quand la taille de la
population est très grande par rapport à celle de l’échantillon.
2
Question : Tester l’égalité de la proportion à 50 % avec une erreur de première espèce de 5%.

Sujet 6 : Régression simple


La pollution de l’air constitue actuellement une des préoccupations majeures de santé publique. De
nombreuses études épidémiologiques ont permis de mettre en évidence l’influence sur la santé de certains
composés chimiques comme le dioxyde de souffre (SO2), le dioxyde d’azote (NO2), l’ozone (O3) ou des
particules sous forme de poussières contenues dans l’air.
Des associations de surveillance de la qualité de l’air mesurent la concentration des polluants. Elles
enregistrent également les conditions météorologiques comme la température, la nébulosité, le vent, etc.
Nous souhaitons analyser ici la relation entre le maximum journalier de la concentration en ozone (en
g / m3 ) et la température. Nous disposons de 112 données (ozone) relevées durant l’été 2001 à Rennes..
Etapes
1. Importer les données (à retrouver sur internet)
2. Représenter le nuage de points
3. Estimer les paramètres
4. Tracer la droite de régression
5. Analyser les résidus
6. Prévoir une nouvelle valeur

Sujet 7 : Fond de carte et tracé de points


L’objectif de cet exercice est d’utiliser une carte quelqconque et de projeter de l’information sur celle-
ci. Pour pouvoir positionner cette information, il est nécessaire de connaître les positions exactes
(latitudes et longitudes) de quelques points de la carte.
1. Importer la carte Tonga.png (à retrouver sur internet) dans l’objet macarte en utilisant readPNG.
2. Importer les latitudes (y) et longitudes (x) des 4 coins de la carte des Tonga quise trouvent dans
les 4 premières lignes du fichier bords. Que répresentent les 4 dernières lignes en termes
d’emplacements sur le globe ?
3. Pour representer les latitudes/longitudes sur une carte plane, il faut effectuer une projection. Pour
cela nous utilisons le package rgdal. Déclarer les noms des variables correspondant aux
latitudes/longitudes du data-frame bords en utilisant la fonction coordinates.
4. Le système de coordonnées qui a servi à mesurer les latitudes/longitudes du data-frame bords est
l’EPSG 4326. Il s’agit du code European Petroleum Survey Group du système global de
coordonnées WGS84. Il faut le déclarer avec
>proj4string(bords) <- CRS(‘’*projet=longlat +init=epsg :4326)
Résumer le data-frame bords et constater le système de coordonnées, en particulier que les
données ne sont pas projetées.
5. Projeter les données de bords dans le système de coordonnées planes Mercator (EPSG 3857)
grâce à
 Bordsproj <- spTransform(bords, CRS=CRS(‘’+init=epsg :3857’’))
La projection de Mercator (utilisée par GoogleMap ou OSM) est donnée par
 x*  

  
 y*  ln(tan( 4  2 ))  ln(tan( )  sec( ))

Avec  et  les longitude et latitude mesurées en radians. La longitude est dans l’intervalle [-  ,  ]
et la latitude dans ] -  /2,  /2[. Cette projection est ramenée en mètres en utilisant la règle de trois
suivante :

3
 c.x *
 x  2

 y  c. y *
 2
Avec c la circonférence terrestre (40075016 mètres environ). Retrouver les coordonnées de bordsproj
en utilisant les formules ci-dessus sur les points du data-frame bords.
6. Pourquoi les coordonnées des lignes 1 et 2 sont-elles si différentes ? Proposer une transformation
très simple sur les données projetées pour « trouver les lignes 1 et 2 proches » et créer un data-
frame b2.
7. Projeter les latitudes et longitudes des séismes contenus dans quakes. Veiller à bien ramener les
coordonnées du même côté de la carte plane (les coordonnées seront dans data-frame q2).
8. Tracer la carte en utilisant les bords projetés (rasterImage) et ajouter les points avec une couleur
différente selon la profondeur (utiliser l’objet Xq).

Sujet 8 : Comparaison de deux moyennes


Nous allons comparer les poids de poulpes mâles et femelles au stade adulte. Nous disposons pour cela des
données de 15 poulpes mâles et de 13 poulpes femelles pêchés au large des côtes mauritaniennes. Le
tableau ci-dessous donne un extrait du jeu de données.

Poids Sexe
300 Femelle
700 Femelle
850 Femelle
. .
. .
. .
5400 Mâle
Fig. Extrait du jeu de données sur les poulpes (poids en grammes)
Nous souhaitons tester l’égalité des moyennes théoriques inconnues des poids des poulpes femelles  1 et
mâles  2 , avec une erreur de première espèce fixée à 5%.
1. Importer les données
2. Comparer graphiquement les deux sous-populations
3. Estimer les statistiques de base (moyenne, écart-type, quartiles) par sous-population
4. (Facultatif) Tester la normalité des données dans chaque sous-population.
5. Tester l’égalité des variances
6. Tester l’égalité des moyennes

Sujet 9 : Test de conformité d’une proportion


On s’intéresse aux intentions de vote pour un candidat A lors du deuxième tour des élections présidentielles.
Lors d’un sondage auprès de 1040 électeurs, le candidat A recueille 52.4% d’intentions de vote. Peut-on
considérer au seuil 95% qu’il va remporter l’élection ? Implicitement, nous supposons que l’échantillon est
représentatif, qu’il est tiré avec remise et que les électeurs voteront en respectant l’intention exprimée. Les
sondages aléatoires simples utilisent des échantillons tirés sans remise. Cependant, la procédure détaillée ci-
dessous est une approximation raisonnable quand le taux de sondage est faible, i.e. quand la taille de la
population est très grande par rapport à celle de l’échantillon.
Question : Tester l’égalité de la proportion à 50 % avec une erreur de première espèce de 5%.

Vous aimerez peut-être aussi