Académique Documents
Professionnel Documents
Culture Documents
Samuel Ayanou
2023-07-24
Partie 2
filter, lag
• je cree une nouvelle variable contenant des tranches d’â ge de 5 ans en utilisant la
variable “age”.
# je cree des intervalles
intervalle <- c(10,15,20,25,30,35,40,45,50,Inf)
# et je decoupe mon intervalle
base_Partie_21$age_nouv <- cut(base_Partie_21$age, breaks = intervalle,
labels = c("entre 10 et 15", "entre 15 et 20 ans","entre 20 et 25 ans",
"entre 25 et 30 ans", "entre 30 et 35 ans", "entre 35 et 40 ans", "entre 40
et 45 ans", "entre 45 et 50 ans","Plus de 50 ans"))
• nous Créons une nouvelle variable contenant le nombre d’entretiens réalisés par
chaque agent recenseur
# avec group_by et mutate je resoud le problem
base_Partie_22 <- base_Partie_21 %>% group_by(enumerator) %>%
mutate(nombre_entretiens = n())
• Fusion
# j' appelle la deuxieme feuille
# mergeons
base_merger <- merge(base_Partie_22, Base_Partie_2B, by = "district", all.x =
TRUE)
# duree de l'enquete
#install.packages("gt")
library(gt)
# affiche la durre moyenne en seconde sous une table
tables <- gt(base_merg)
tables
enumerator duree_moyenne_en_seconde
1 4088.800
4 2189.000
5 2013.500
6 1550.800
7 2229.857
8 2407.833
9 6886.000
10 3316.600
11 2009.000
12 2890.000
13 1895.750
14 1533.667
15 1719.000
17 1757.167
18 2211.500
20 1726.111
# sortons une base complet avec ces donnees
# appelons Apply
new_column <- apply(base_fin_matrix, 2, renomme_function)
# alors renommons
names(base_fin) <- new_column
# Now all variables in the data frame have been renamed with the prefix
"endline_".
styled_table
le test p value
# la fonction t_test nous permet de Testez si la différence d’âge entre les
sexes est statistiquement significative au niveau de 5 %.
t_test_resultat <- t.test(endline_age ~ endline_sex, data = base_fin)
resultat
Welch Two Sample t-test data: endline_age by endline_sex t = -0.95493,
df = 10.001, p-value = 0.3621 alternative hypothesis: true difference in
means between group 0 and group 1 is not equal to 0 95 percent confidence
interval: -282.7605 113.1009 sample estimates: mean in group 0 mean in
group 1 25.98837 110.81818
• Créons une base imputée de sa valeur aberrante , ainsi on remplacera les valeurs
aberrantes par la médiane
library(dplyr)
base_imputer <- base_fin %>% mutate(endline_age=ifelse(endline_age <0 |
endline_age >120, median(base_fin$endline_age, na.rm=TRUE),endline_age))
# afficher
nuage
• l’effet d’appartenance
# faisons une regression logistique car les variables est l'une categorielle
et l'autre categorielle numerique
# Charger les packages nécessaires
library(gtsummary)
1
OR = Odds Ratio, CI = Confidence Interval
Créons un tableau de régression avec 3 modèles.
# Chargez les bibliothèques requises (si ce n'est pas déjà fait)
library(dplyr)
library(broom)
library(kableExtra)
# Supposons que vous avez un data frame nommé "data" avec les colonnes :
"intention", "group", "age", "sex", et "district".
)
#afficher le tableau
a
1
CI = Confidence Interval