Vous êtes sur la page 1sur 4

Corrigé Rattrapage Analyse des données BDSaS – 2019

Exercice I :
1)

1/X doit être non aléatoire.

2/Les espérances des résidus sont linéairement égaux à n et l'espérance E(𝑌𝑛 )= 𝑋𝑛𝑝 . 𝛽̂.

3/Les résidus sont indépendants.

4/L'homoscédasticité c'est à dire toutes les variances des résidus sont égaux au carré de
l'écart type.

5/Les résidus sont distribués selon une loi normale.

2) Le principe des moindres des carrés consiste à estimer 𝛽 par 𝛽̂ de telle façon que la somme
carrée des

erreurs soit minimale quand Béta varie, or :

SCE(𝛽) = (Y − X𝛽)𝑡 (Y − X𝛽)


𝛿(𝑆𝐶𝐸(𝛽))
( ) = −2X 𝑡 (Y − X𝛽̂ )𝑡 ⇔ X 𝑡 𝑌 = X 𝑡 X𝛽̂
𝛿𝛽 ̂
𝛽

Si X'X non inversible => modèle singulier

Si X'X inversible => modèle régulier => 𝛽̂ = (X 𝑡 X )−1 X 𝑡 𝑌 (Voir Ex1 TP1 Data Mining I sur Excel)

3)

Commandes sous R :

> library(MASS)
> library(FactoMineR)
> data(stackloss)
> View(stackloss)
> y=stackloss[,4]
> X=stackloss[,-4]
> RegBest(y,X, method="adjr2" )$best

Résultat :

L'attribut $best de la commande RegBest a donné comme meilleur résultat l'équation de


régression :

stack.loss = 𝛽0 + 𝛽1 *Air.Flow + 𝛽2 *Water.Temp


4)

Commandes sous R :

> reg = lm(stack.loss ~ Air.Flow + Water.Temp , data = stackloss)


> summary(reg)
> plot(reg)

Conclusion et justifications :

On remarque dans le plot "QQPlot" que les points ne s'initialisent pas dans les premiers
bissectrices et se condensent dans la ligne y=x, en revanche, les points du graphique "Scale-Location"
sont répartis aléatoirement ce qui signifie que les résidus n'ont aucune dépendance. Quant au
graphique "ResidualsvsFitted", les points représentent une certaine dépendance entre eux
puisqu'elles sont légérement proches entre eux, et pour le graphique "Residuals vs Leverage"
l'individu 21 dépasse la distance de Cook. Donc comme conclusion, le modèle obtenu par RegBest
n'est vraiment le meilleur modèle.

5)

Commandes sous R :

> reg2=lm(stack.loss ~ Air.Flow + Water.Temp +


Acid.Conc.,data=stackloss)
> data=data.frame(Air.Flow = 60, Water.Temp = 20, Acid.Conc. = 80)
> predict.lm(reg2, data, interval = "confidence", level = 0.90)

Résultat :

fit lwr upr


1 16.75466 10.70876 22.80055

Exercice II :
1)

> library(MASS)
> data(caith)
> View(caith)
> CA(caith)

2)

> A=caith
> B=A/sum(A)
> apply(B,2,sum)
> C = sweep(B,2,STAT=c, FUN="/")

3)

4) a/ Je ne l’ai pas fait.

b/ Non pas vraiment, parce qu’on remarque qu’il y a une certaine dépendance entre les
lignes et les colonnes vu qu’elles sont très proches de leurs correspondants, cependant, la variable
« black » qui n’a pas de correspondant est vraiment loin des autres points ce qui signifie qu’elle est
indépendante.

Exercice III :
1)

> data("USArrests")
> View(USArrests)
> View(USArrests)
> rownames(USArrests) <- c(1:50)
> PCA(USArrests)

Selon les valeurs propres de notre matrice, pour avoir 95% d’informations, on doit prendre en
compte 3 axes, pour cela, on fixera l’attention sur le tableau de coordonnées, les qualités et les
contributions de l’axe 3 :

> PCA(USArrests)$eig
> PCA(USArrests)$var$coord
> PCA(USArrests)$ind$cos2
> contrb = PCA(USArrests)$ind$contrib
> PCA(USArrests)$ind$coord

Sur l'axe 3, les individus bien projetés sont 8 (qualité = 0.36), 39 (qualité = 0.35), 2 (qualité = 0.44), 37
(qualité = 0.71) et 47 (qualité = 0.27).
Ces 4 individus totalisent une contribution de 43.91%.
(contrb[2,3]+contrb[8,3]+contrb[37,3]+contrb[39,3]+contrb[47,3])
Ainsi l'inertie de l'axe 3 est surtout due à ces 5 individus et résulte une légère opposition entre les var
iables UrbanPop et Rape (corrélation de UrbanPop = 0.22et de Rape = -0.48)

Exercice IV :

(a=1B1B, b=1B1R,c=1R1R)

Commandes sous R :

> a=c(0,0) #0 pour blanc


> b=c(1,0) #1 pour rouge
> c=c(1,1)
> A=runif(a)
> B=runif(b)
> C=runif(c)

Résultats :

> B
[1] 0.66511519 0.09484066

Donc la probabilité pour que la face soit blanche est 9%