Vous êtes sur la page 1sur 5

ESI, Février 2020.

Corrigé de l'examen final ANAD: 2CSSIT, 2CSSIL


Durée: 2heures.

Questions (4pts):
1- Quelles sont les mesures d'évaluations du clustering.
-Les mesures sont Elbow et Silhouette. 0.5
2- Comment est obtenu le score en AD. Et quel est son rôle?
-Le score est obtenue: Voir cours. 0.5
Le score détermine la classe d'appartenance d'un nouvel objet. Cette affectation est basé sur
l'affectation de Bayes. 0.25
3- R²k est le coefficient de détermination total? Justifiez.
-Non, R²k est le coéfficient de détermination partielle, obtenu sous un modèle qui considère k
variables explicatives parmi p. 0.5
4- Dans le cas de la régression simple, le coéfficient de corrélation est le coéfficient de
détermination. Vrai ou faux? Justifiez?
- Faux, c'est le coefficient de corrélation au carré. 0.25
5- Supposons qu'il n y ait pas d'effet d'intéraction entre deux facteurs en ANOVA, donner le modèle
proposé.
Le modèle proposé est le modèle additif: 0.5

6- Que représente la p-value d'un test.


- La probabilité d'accepter l'hypothèse nulle. 0.5
7- En quoi consiste l'affectation géométrique en AD en présence de deux classes C1 et C2.
- Elle consiste à affecter un nouvel objet à la classe dont la distance de Mahalhanobis entre son
centre de gravité et le nouvel objet est minimale. 0.5
8- L'AD est une méthode de régression? Justifiez.
- Non, car les sorties sont des classes et non des valeurs numériques. 0.5
Exercice 1 (5.5pts):
Il s'agit d’étudier les différentes sources de variabilité possibles de la résistance d’un ciment fabriqué
à Portland. Plusieurs petits prélèvements d’un même type de ciment ont été mélangés à de l’eau et
travaillés par trois Mélangeurs. Douze cubes ont été formés . Ces 36 cubes ont été affectés à trois
personnes chargées d’évaluer leur résistance, les « casseurs ». Tous les tests de résistance ont été
faits sur la même machine. Les données sont exposées dans le tableau ci-dessous:

Casseur1 Casseur2 Casseur3


Mélangeur1 5280 5520 4340 4400 4160 5180
4760 5800 5020 6200 5320 4600
Mélangeur2 4420 5280 5340 4880 4180 4800
5580 4900 4960 6200 4600 4480
Mélangeur3 5360 6160 5720 4760 4460 4930
5680 5500 5620 5560 4680 5600

1- Précisez, la variable cible et les facteurs. 0.5


Y= Résistance
A= Mélangeur à J=3
B= Casseur à K=3
C=4.
Le tableau des moyennes est donné par:

C1 C2 C3 𝑌̅𝑗
M1 5340 4990 4815 5048.33
M2 5045 5345 4515 4968.33
M3 5675 5415 4917.5 5335.83
𝑌̅𝑘 5353.33 5250 4749.16 𝑌̅ =5117.497
2- Compléter le tableau des moyennes? 0.5
Sachant que:

Compléter le tableau ANOVA2 suivant

Ddl 0.5 SS 1.5 MS 0.5 F 0.5

Mélangeur 2 896449.987 448224.99 1.632


Casseur 2 2506156.735 1253078.367 4.557
Interaction 4 663876.544 165969.136 0.6036
Erreur 27 7423710 274952.222
Total 35 11491423.432 328326.383
Au seuil α=5%.
2- Les Mélangeurs ont t'il un effet sur la variable dépendante?
Pour cela , on pose les hypothèses suivantes:
H0: :" 𝑎𝑗 = 0, ∀𝑗 = 1,2,3 contre H1:" ∃𝑗 = 1,2,3 \𝑎𝑗 ≠ 0. 0.25
Sous H0, on a F1=1.632<f2,27=3.35
On accepte H0, et il n y a pas d'effet des mélangeurs sur Y. 0.25
3- Les résultats sont-ils indépendants des casseurs? Tester l'effet interaction.
On test l'effet des casseurs sur la résistance et on pose les hypothèses suivantes:
H0: :" 𝑏𝑘 = 0, ∀𝑘 = 1,2,3 contre H1:" ∃𝑘 = 1,2,3 \𝑎𝑗 ≠ 0. " 0.25
Sous H0, on a F2=4.557>f2,27=3.35,
On rejette H0 et donc les casseurs ont un effet sur Y. 0.25
- Effet d'intéraction:
H0:" 𝛾𝑗𝑘 = 0, ∀𝑗, 𝑘 = 1,2,3 contre H1::" ∃𝑗, 𝑘 = 1,2,3 \𝛾𝑗𝑘 ≠ 0. " 0.25
Sous H0, on a F2=0.6036 < f4,27=2.73.
Ainsi il n y a pas d'effet d'intéraction. 0.25

Exercice2 (5.75pts):
Une régression multiple a été effectuée avec R pour avoir un modèle pour la moyenne du S1 de 221
étudiants 1CS en fonction des 8 modules SYS1, RES1, IGL, THP, ANUM, RO, ORG, LANG1.
Les résultats sont les suivants:
Estimate Std. Error t value
(Intercept) -0.192934 0.063851 -3.022
SYS1 0.169510 0.004046 41.893
RES1 0.141015 0.00443 31.775
IGL 0.160558 0.004723 33.993
THP 0.132030 0.003756 35.149
ANUM 0.13352 0.003252 41.059
RO 0.104986 0.004327 24.263
ORG 0.108707 0.004406 24.675
LANG1 0.064134 0.003899 16.4488

Residual standard error: 0.09881 on ddl=212 degrees of freedom


Multiple R-squared: 0.997, F-statistic: 8806.83 on 8 and 212 DF, p-value: < 2.2e-16.
1- Donner le modèle des moindres carrés. 0.5
Y= -0.192934 +0.169510X1+0.141015 X2+ 0.160558 X3+0.132030 X4+0.13352X5+0.104986
X6+0.108707 X7+0.064134X8. n=221
2- Compléter les vides: 1.5
3- Tester la régression global au seuil α=5%. Le modèle supposé est il valable? 1pt
H0:" 𝑎𝑗 = 0, ∀𝑗 = 1, … ,8 contre H1::" ∃𝑗 = 1, … ,8, \𝑎𝑗 ≠ 0. "
Sous H0, on a F>1.98.
D'où on rejette H0 et il existe au moins un effet linéaire.
Le modèle supposé pourrait être valable, il faudrait vérifier l'effet de chaque variable explicative sur
Y. 0.25
4- ANUM a t'il un effet linéaire sur Y? Globalement que constatez vous quant à l'effet des autres
matières sur la moyenne? justifiez.
Pour tester l'effet d'ANUM, on pose les hypothèses:
H0:" 𝑎5 = 0 𝑐𝑜𝑛𝑡𝑟𝑒, H1:" 𝑎5 ≠ 0
Sous H0, |𝑇6 | = 41.059 > 1.96
d'où on décide de rejeter H0 et donc ANUM a un effet linéaire sur la moyenne.1pt
Globalement, ∀𝑗 = 1, … ,8, on a |𝑇𝑗 | > 1.96, on conclue que toutes les variables ont un effet linéaire
sur la moyenne et donc le modèle globale est valable. 0.5pt

Soit les notes du 100ème individu:


08.83 12.15 11.13 12.50 10.75 09.14 13.15 14.13
5 - Donnez une estimation de sa moyenne.
Y100= -0.192934 +0.169510*8.83+...+0.064134*14.13=11.18 0.5
6- Comment calculer un intervalle de confiance de cette moyenne à 95%.
𝑌100 ∈ [11.18 − 𝑆0 1.96,11.18 + 𝑆0 1.96] 𝑡𝑒𝑙 𝑞𝑢𝑒 𝑆02 = 𝑆 2 [1 + x100
t
(X t X)−1 x100 ]. 0.5pt
Exercice3 (5.25pts): Soit le tableau de données définit sur I={ W1, W2, W3, W4, W5} suivant:

W1 W2 W3 W4 W5
X1 1 2 3 -2 -3
2
X 2 1 2 -2 -2
Et soit l'indice d'agrégation définit par:
pA pB 2
∆(A, B) = d (g A , g B ).
pA + pB

1-Donner le tableau de distance euclidienne d². 0.5pt


D² W1 W2 W3 W4 W5
W1 0 2 4 25 32
W2 0 2 25 34
W3 0 41 52
W4 0 1
W5 0

2- Construire une hiérarchie indicée à partir de cette indice. En déduire une classification en 2 classes
𝑝0 = {{𝑤1}, {𝑤2}, {𝑤3}, {𝑤4}, {𝑤5}} 0.25
1
∆({W1}, {W2}) = d2 (w1, w2) 0.25
10
∆0: 0.25 {W1} {W2} {W3} {W4} {W5}
{W1} 0 1/5 2/5 5/2 16/5
{W2} 0 1/5 5/2 17/5
{W3} 0 41/10 52/10
{W4} 0 1/10
{W5} 0

5
𝑝1 = {{𝑤1}, {𝑤2}, {𝑤3}, ℎ1 = {𝑤4, 𝑤5}}, 𝑔ℎ1 = (− 2 , −2) 0.25

∆1: 0.5 {W1} {W2} {W3} h1={W4,w5}


{W1} 0 1/5 2/5 113/30
{W2} 0 1/5 117/30
{W3} 0 185/30
h1={W4,W5} 0
3 3
𝑝2 = {ℎ2 = {𝑤1, 𝑊2}, {𝑤3}, ℎ1 = {𝑤4, 𝑤5}}, 𝑔ℎ2 = (2 , 2) 0.25

∆2: 0.5 h2 {W3} h1


h2 0 1/3 113/20
{W3} 0 185/30
h1 0

5
𝑝2 = {ℎ3 = {𝑤1, 𝑊2, 𝑊3}, ℎ1 = {𝑤4, 𝑤5}}, 𝑔ℎ3 = (2, ) 0.25
3
∆2: 0.25 h3 h1
h3 0 8.08
h1 0
𝑝3 = ℎ4 = {𝑤1, 𝑊2, 𝑊3, 𝑤4, 𝑤5} 0.25

Cluster Dendrogram
12
10
8
Height

6
4
2
0

2
4

s
hclust (*, "ward")
Figure: 0.5
C1=[w1 w2 w3}, C2={w4,w5}: 0.25

3- En prenant comme centres initiaux W2 et W4, donner une partition selon kmeans.
Etape Centres C lasses Centres de gravités
initiaux
0 W2 C1={W2,W1,W3} 5
𝑔1 = (2, )
W4 C2={W4,W5} 3
5
𝑔2 = (− , −2)
2
1 g1 C3={W2,W1,W3} Fin
g2 C4={W4,W5}
La partition finale est P={{W2,W1,W3}, {W4,W5}}, elle est identique à celle obtenue avec la
classification hiérarchique. 1pt

BON COURAGE

Vous aimerez peut-être aussi