Académique Documents
Professionnel Documents
Culture Documents
1 Analyse de donnees: TP 1
1.1 Question 1: Spécifier le répertoire de travail
[3]: setwd("C:/Users/yassi/OneDrive/Bureau/TPs/Rlang")
[4]: getwd()
’C:/Users/yassi/OneDrive/Bureau/TPs/Rlang’
[6]: data
A data.frame: 2447 × 22
[7]: str(data)
1
$ TIC_ENT_CIV : chr "MME" "MR" "MME" "MME" ...
$ CP_ID : int 37645 37609 39117 36420 36724 34161 38075
35932 34330 37004 ...
$ CLT_FACTU_QTE_LIVR : int 1 1 1 1 1 1 1 1 1 1 ...
$ TIC_ENT_N_CART_PAIE : num 3.31e+15 NA NA NA NA ...
$ PRIX_VENTE_ETIQ : num 40 289 0 14 159 ...
$ CLT_FACTU_PUV : num 39.99 289 0 9.79 159 ...
$ CLT_FACTU_MNT_FACTU_TTC : num 39.99 286.85 0 9.79 159 ...
$ MNT_LIGNE_RED_F02223_TTC: num 38.18 286.85 0 9.79 159 ...
$ ID_CDE_MAGENTO : int NA NA NA NA NA NA NA NA NA NA ...
$ NEWSLETTRE : chr NA NA NA NA ...
$ ARTREF_CODE : chr "77746200" "77722074" "F840" "77739607" ...
$ CODE_FAM : chr "96" "69" "23" "80" ...
$ CODE_SOU_FAM : int 854 692 840 807 632 660 791 602 951 754 ...
[8]: ls()
’data’
[9]: nrow(data)
2447
[10]: ncol(data)
22
[11]: dim(data)
1. 2447 2. 22
[12]: names(data)
2
1.5 Question 5: Renommer les attributs (noms de colonnes) par les étiquettes in-
diquées dans le tableau ci-dessous
,→"SousFamille")
[14]: data
A data.frame: 2447 × 22
[15]: class(data$Rayon)
’character’
[16]: unique(data$Civilite)
1. ’MME’ 2. ’MR’ 3. ’ASS’ 4. ’SARL’ 5. ’MLLE’ 6. ’M&MME’ 7. ’M.’ 8. ’MLE’ 9. ” 10. ’STE’ 11. ’mr’
12. ’SCI’ 13. ’EURL’ 14. ’DR’ 15. ’M&M’ 16. ’mme’ 17. ’SA’
[18]: class(data$DateAchat)
’Date’
[19]: head(data$DateAchat)
3
"AMABLE NICOLAS MR 76 AV CHEVREUL ASNIERES SUR SEINE" "AMIS REBECCA MME LE HAUT
CARABOUET TINTENIAC" "AMICHAUD CATHERINE MME 22 RUE CHARLET BOURGES" ...
$ Commande : chr "T274632" "T618825" "TA30682" "T161220" ...
$ Magasin : chr "752" "895" "905" "941" ...
$ DateAchat : Date, format: "2014-05-08" "2013-03-24" ...
$ Rayon : chr "7" "6" "P" "7" ...
$ ArticleEnPub : chr "" NA "" NA ...
$ Civilite : chr "MME" "MR" "MME" "MME" ...
$ CodePostal : int 37645 37609 39117 36420 36724 34161 38075 35932
34330 37004 ...
$ Quantite : int 1 1 1 1 1 1 1 1 1 1 ...
$ Paie : num 3.31e+15 NA NA NA NA ...
$ PrixSurEtiquette : num 40 289 0 14 159 ...
$ PrixUnitaire : num 39.99 289 0 9.79 159 ...
$ MontantAvReduction: num 39.99 286.85 0 9.79 159 ...
$ MontantApReduction: num 38.18 286.85 0 9.79 159 ...
$ CodeWeb : int NA NA NA NA NA NA NA NA NA NA ...
$ AbonneNewslettre : chr NA NA NA NA ...
$ Article : chr "77746200" "77722074" "F840" "77739607" ...
$ Famille : chr "96" "69" "23" "80" ...
$ SousFamille : int 854 692 840 807 632 660 791 602 951 754 ...
[22]: summary(data)
4
Paie PrixSurEtiquette PrixUnitaire MontantAvReduction
Min. :3.010e+15 Min. : 0.00 Min. :-177.70 Min. :-699.00
1st Qu.:3.444e+15 1st Qu.: 6.90 1st Qu.: 5.90 1st Qu.: 6.00
Median :3.811e+15 Median : 24.90 Median : 24.90 Median : 28.35
Mean :8.143e+17 Mean : 85.02 Mean : 80.28 Mean : 84.47
3rd Qu.:1.373e+16 3rd Qu.: 99.00 3rd Qu.: 95.00 3rd Qu.: 99.53
Max. :5.018e+18 Max. :1490.00 Max. :1495.00 Max. :1495.00
NA's :1601
MontantApReduction CodeWeb AbonneNewslettre Article
Min. :-699.00 Min. :6e+08 Length:2447 Length:2447
1st Qu.: 5.80 1st Qu.:6e+08 Class :character Class :character
Median : 25.23 Median :6e+08 Mode :character Mode :character
Mean : 83.43 Mean :6e+08
3rd Qu.: 99.00 3rd Qu.:6e+08
Max. :1495.00 Max. :6e+08
NA's :9 NA's :2441
Famille SousFamille
Length:2447 Min. : 22.0
Class :character 1st Qu.:642.0
Mode :character Median :695.0
Mean :674.1
3rd Qu.:766.0
Max. :999.0
NA's :38
[24]: nrow(select)
2
[25]: select
[26]: select[1,]
[27]: select[1,2]
’XL CUISINES’
5
[28]: select[,1]
1. 13775904 2. 13775904
[29]: str(select)
[31]: nrow(select2)
’character’
[33]: class(data$Civilite)
6
’character’
[34]: unique(data$Rayon)
1. ” 2. NA 3. ’PB’
[36]: class(data$CodeWeb)
’integer’
[38]: class(data$CodeWeb)
’factor’
[39]: unique(data$CodeWeb)
1. NA 2. ’N’ 3. ’O’
[41]: unique(data$Civilite)
1. ’MME’ 2. ’MR’ 3. ’ASS’ 4. ’SARL’ 5. ’MLLE’ 6. ’M&MME’ 7. ’M.’ 8. ’MLE’ 9. ” 10. ’STE’ 11. ’mr’
12. ’SCI’ 13. ’EURL’ 14. ’DR’ 15. ’M&M’ 16. ’mme’ 17. ’SA’
[42]: head(data$Rayon)
chr [1:2447] "MME" "MR" "MME" "MME" "MR" "ASS" "SARL" "MME" "MME" "MLLE" ...
1.10 Question 10: Corriger et unifier les valeurs de la variable « Civilité » pour ne
garder que ces civilités : MR, MME, MLLE, COUPLE, STE et INCONNU
a titre d’exemple on fera just le cas de “MME”
7
[47]: data$Civilte= as.character(data$Civilite)
[50]: unique(data$Civilite)
1. ’MME’ 2. ’MR’ 3. ’ASS’ 4. ’SARL’ 5. ’MLLE’ 6. ’M&MME’ 7. ’M.’ 8. ’MLE’ 9. ” 10. ’STE’ 11. ’mr’
12. ’SCI’ 13. ’EURL’ 14. ’DR’ 15. ’M&M’ 16. ’SA’
1.11 Question 11: Trier les lignes selon le nomPrénom des clients
[53]: newdata
A data.frame: 2447 × 23
1.12 Question 12: Enregistrer les lignes manipulées (ainsi corrigées et ordonnées)
dans un nouveau fichier
[55]: write.csv(newdata, "./TP1/new.csv")