Vous êtes sur la page 1sur 3

Ensemble des variables

View(gujarati)
dim(gujarati) # nb d'observations et nombre de colonne
names(gujarati) # nom des variables présentes
str(gujarati)

##_____ Analyse univariée______________________________________________________

## Variable quantitative continue (dépense de santé)


# indicateur de centralité (mean())
# indicateur de dispersion (sd(), quantile(())
# graphique: histogramme (hist(), boite à moustache (boxplot())
boxplot(gujarati$wage,
horizontal=TRUE,
col="darkred",
main = paste("Distribution des", nrow(gujarati), "répondants en fonction de leur salaire"),
xlab="Salaire")

hist(gujarati$wage,
col = "purple", border = "white",
main = paste("Distribution des", nrow(gujarati), "répondants en fonction de leur salaire"),
xlab = "Salaire horaire (en dollars)", ylab = "Densité",
ylim = c(0,0.08),
xlim = c(0,70),
proba = TRUE)
lines(density(gujarati$wage, na.rm = TRUE), lwd = 2, col = "orange" )

##Variable quantitative discrète (éducation)


# indicateur de centralité
# inducateur de dispersion
# effectifs (table())table(gujarati$education)
# fréquences relatives (prop.table())round(prop.table(table(gujarati$education)),2)
# graphique: diagramme en baton (barplot()),
barplot(cumsum(table(gujarati$education)),
col="darkred",
main=paste("Répartition des", nrow(gujarati), "répondants en fonction du nombre d'années
d'études"),
xlab="Nombre d'années d'études",
ylab="Effectifs")

### Variable qualitative dummy (0,1) (syndiqué, genre,etC...)


# indicateur de centralité mean(gujarati$wage)
# indicateur de dispersion sd(gujarati$wage) quantile(gujarati$wage)
# effectifs table(gujarati$education)
# table des fréquences relatives round(prop.table(table(gujarati$education)),2)
# graphique: diagramme en baton et diagramme circulaire
barplot(table(gujarati$union),
col="darkred",
main ="Effectif selon le statut syndiqué ou non",
xlab="Nombre d'enfants",
ylab="Effectifs",
ylim = c(0,1200))
pie(table(gujarati$union),
col=c("gray","blue"),
labels = paste(c("Non syndiqué", "syndiqué"), round(prop.table(table(gujarati$union)),2), sep =
"\n"),
main ="Effectifs selon le statut syndiqué ou non")

##________ Analyses bivariées___________________________________________________


# Variable quantitative (health_expenditures) + Qualitive(genre)
## graphique: boxplot
## Calculer la différence de moyenne entre les groupes
## test de différence des moyennes (t.test): Ho: il n'y a pas de différences de moyenne entre les
variables
t.test(gujarati$wage~gujarati$female)

# Variable qualitative (genre) + qualitative (syndiqué)


##effectifs + fréquences relatives entre les deux variables
##test de chi2: HO: les deux variables sont indépendantes
chisq.test(gujarati$female,gujarati$union)

# Variable quantitative + quantitative


## calculer le coefficient de corrélation cor(gujarati$wage,gujarati$education) + test du
coefficient du corrélation (Ho: absence de corrélation entre les variables)
## nuage de points
cor.test(gujarati$wage,gujarati$education)
plot(gujarati$education,gujarati$wage, col="cornflowerblue")# Regression linéaire simple

两个变量之间的关系
# Regression linéaire simple
regression.LS <- lm(gujarati$ln_wage ~ gujarati$education)
summary(regression.LS)

plot(jitter(gujarati$education), jitter(gujarati$ln_wage),
col="cornflowerblue",
main = "Salaire en fonction du nombre d'années d'études",
xlab = "Nombre d'années d'études",
ylab="Salaire horaire (en dollars)")
abline(regression.LS, col = "deepskyblue4")

一个与多个变量之间的关系
# Regression linéaire multiple
regression.LM <- lm(gujarati$ln_wage ~ education + exper + union + female+ nonwhite,
data=gujarati)
summary(regression.LM)

Vous aimerez peut-être aussi