Académique Documents
Professionnel Documents
Culture Documents
Econométrie Théorique
M1-MBFA - Année 2023-2024
1. Présentation du sujet :
2. Introduction :
Dans un monde en constante évolution, l'éducation académique des élèves est devenue un
pivot central des politiques éducatives, reflétant une société qui valorise de plus en plus le
savoir et les compétences. Face à cette réalité, il devient essentiel de comprendre et
d'évaluer les performances des élèves, non seulement pour mesurer les résultats
académiques, mais aussi pour identifier les facteurs qui influencent ces performances.
Le choix du Portugal comme cadre d'étude s’est imposé pour plusieurs raisons. En effet, ce
pays présente un système éducatif structuré et diversifié, allant de l'enseignement basique à
l'enseignement supérieur. L'obligation scolaire s'étend de 6 à 18 ans, couvrant une large
étendue de l'expérience éducative. Les performances des élèves portugais en
mathématiques, sont notamment évaluées par des programmes internationaux tels que le
PISA. Ce programme permet de constater une croissance significative des performances du
pays de 2003 à 2015, lui permettant d’être au-dessus de la moyenne de l’OCDE, et montrant
des changements potentiels dans les approches des politiques éducatives du pays.
Les mathématiques, en tant que discipline fondamentale, offrent une perspective unique sur
les capacités cognitives et les processus éducatifs. Elles jouent un rôle crucial dans le
développement des compétences analytiques et logiques, et leur maîtrise peut être
considérée comme un indicateur clé de la réussite académique générale.
Ainsi, comment les facteurs socio-éducatifs et comportementaux spécifiques influencent-ils
les performances académiques en mathématiques des élèves au Portugal, et quelle est leur
interrelation dans le contexte global de la réussite scolaire ?
1
Table 1 : PISA 2003 à 2018.
3. Données récoltées :
Cette base de données, créée par Paul Cortez en 2008, analyse les performances scolaires
des élèves de deux écoles secondaires portugaises. Elle comprend 395 observations et 33
variables, incluant des données démographiques, sociales, et liées à l'école des élèves.
On décide dans notre sélection de données de choisir 9 variables pour expliquer la cause de
la moyenne (note) de l’élève.
2
Absences : nombre d’absences au cours de l’année, peut être un indicateur clé de
l’engagement scolaire et son impact sur les résultats.
L’une des données les plus impactant peut se voir notamment entre la grande disparité dans
les absences des élèves ou l’écart-type atteint plus « 8 ».
En outre, les données montrent que le redoublement a concerné un segment limité de
l'échantillon, avec une moyenne de redoublements relativement basse. Cependant, pour
ceux qui ont redoublé, cela pourrait indiquer des défis académiques plus profonds,
susceptibles d'affecter leur performance actuelle.
Le faible taux d'élèves ayant reçu du soutien scolaire, illustré par une moyenne de 0,1291
pour cette variable, interpelle sur l'accessibilité et peut-être la nécessité de telles ressources
supplémentaires. Ce qui pourrait questionner l’impact que pourrait avoir un tel outil plus
utilisé sur les performances académiques.
La variable 'goout', reflétant la fréquence des sorties entre amis, avec une moyenne
légèrement au-dessus de 3, suggère un équilibre entre les activités sociales et les études. La
question se pose de savoir si un excès de socialisation a un effet préjudiciable sur les notes,
ou si au contraire, une vie sociale équilibrée contribue positivement au bien-être et, par
extension, à la réussite scolaire des élèves.
3
Ainsi, malgré le fait qu’on puisse émettre quelques hypothèses, une corrélation ne signifie
pas une causalité d’où l’intérêt de pouvoir tester et d’établir une régression sur le modèle
pour pouvoir émettre d’autre hypothèses.
Il est donc pertinent de les supprimer afin de ne garder que les variables significatives qui
sont : le sexe, le temps de révision, le nombre de redoublements, la participation aux cours
de soutien, l’aide aux devoirs par la famille, les sorties entre amis.
Une deuxième régression, seulement avec ces variables est donc mise en place.
4
Interprétation du résultat :
Le coefficient de la variable sexe étant supérieur à 1, sachant que c’est une indicatrice où 1 =
homme. Cela signifie qu’être un homme est associé à une augmentation d’environ 1.06 point
dans la moyenne générale par rapport aux femmes.
Le temps de révision a aussi un effet positif. Une augmentation d’un point de pourcentage du
temps de révision augmenterait les résultats en mathématiques de 0,5 point de pourcentage.
Le nombre de redoublements par le passé a une relation négative avec la variable expliquée.
Le coefficient indique que, en tenant compte des autres variables constantes, chaque
redoublement passé est associé à une diminution d’environ 1.7 point dans la moyenne
générale. C’est la variable qui a le plus fort impact sur la variable explicative.
20
15 y = -1.8658x + 11.301
R² = 0.1408
10
0
0 0.5 1 1.5 2 2.5 3 3.5
Fait intéressant, assister aux cours de soutiens scolaires a une relation négative de -1.4 point
avec la variable expliquée. Cela peut être logique étant donné que les élèves qui assistent
aux cours de soutien sont en général les élèves éprouvant des difficultés. Néanmoins, on
peut aussi remettre en cause la qualité d’enseignement de ces cours de soutien.
La variable « goout » (sortie entre amis) a aussi une relation négative avec les notes en
mathématiques. Une augmentation d’une unité (sur l’échelle ordinale créée) fait diminuer la
moyenne générale en mathématiques de 0,4 point.
5
4.2 Tests :
Afin de s’assurer de la fiabilité du modèle, il est nécessaire de tester la présence
d’homoscédasticité dans le modèle, la normalité des résidus, la non-présence
d’autocorrélation dans les résidus ainsi que la non-présence de multicollinéarité.
Ce test a pour objectif de vérifier si les variances des erreurs sont constantes à travers toutes
les observations, une condition essentielle pour la fiabilité des estimations de la régression.
Dans notre cas, la p-value supérieure à 0.05 indique l'absence d’hétéroscédasticité, confir-
mant que le modèle est homoscédastique. Cette homogénéité des variances assure la
constance des erreurs à travers le modèle. (Tables 6)
b) Test de Shapiro-Wilk :
Ce test permet de déterminer la normalité de la distribution des résidus. Ici, une p-value
supérieure à 0,05 indique que les résidus suivent une distribution normale, validant ainsi les
hypothèses sous-jacentes de notre modèle et renforçant la fiabilité des tests d'hypothèses
ultérieurs. (Tables 7)
c) Le test de Durbin-Watson :
Ce test sera le plus approprié pour tester la présence ou non d’autocorrélation dans les
résidus d’une régression, un problème pouvant biaiser les estimations.
La statistique de Durbin Watson, étant proche de 2, suggère une faible présence d’auto-
corrélation dans les résidus. (Tables 8)
d) Test de Vif :
Ce test évalue la force de la corrélation entre les variables indépendantes. Une forte
multicollinéarité peut gonfler les erreurs-types et rendre certaines variables statistiquement
non significatives. Dans notre cas, l'absence de multicollinéarité, comme indiqué par le test
VIF, assure que chaque variable contribue de manière unique à notre modèle. (Tables 9)
En somme, l'ensemble de ces tests montre que le modèle est homoscédastique, avec des rés
idus normalement distribués et non autocorrélés, et sans présence de multicollinéarité. Ces
résultats confirment la solidité et la validité du modèle.
La matrice de corrélation confirme ce qui a été observé plus tôt. Les variables explicatives ne
s’influencent que très peu entre elles et les corrélations entre chacune des variables
explicatives et la variable expliquée sont proches des coefficients de régression estimés. (Tab
les 10)
6
5. Synthèse :
7
Annexe :
Tables 4 :
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.34697 0.89434 10.451 < 2e-16 ***
sex1 1.03416 0.35972 2.875 0.00427 **
studytime 0.51562 0.21503 2.398 0.01697 *
failures -1.51832 0.24175 -6.281 9.14e-10 ***
Medu 0.33162 0.20259 1.637 0.10247
Fedu 0.12761 0.19947 0.640 0.52271
schoolsup1 -1.41829 0.50305 -2.819 0.00506 **
paid1 0.03479 0.34789 0.100 0.92040
goout -0.46477 0.15243 -3.049 0.00245 **
adress1 0.76878 0.40674 1.890 0.05950 .
absences 0.01399 0.02120 0.660 0.50991
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.304 on 384 degrees of freedom
Multiple R-squared: 0.2219, Adjusted R-squared: 0.2016
F-statistic: 10.95 on 10 and 384 DF, p-value: < 2.2e-16
8
Tables 5 :
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 11.1332 0.7303 15.245 < 2e-16 ***
sex1 1.0635 0.3570 2.979 0.00307 **
studytime 0.5084 0.2135 2.381 0.01775 *
failures -1.7240 0.2311 -7.459 5.74e-13 ***
schoolsup1 -1.3969 0.5058 -2.762 0.00602 **
goout -0.3981 0.1527 -2.607 0.00948 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.337 on 389 degrees of freedom
Multiple R-squared: 0.1962, Adjusted R-squared: 0.1858
F-statistic: 18.98 on 5 and 389 DF, p-value: < 2.2e-16
data: reg5
BP = 10.453, df = 5, p-value = 0.0633
data: reg5$residuals
W = 0.99562, p-value = 0.338
9
Bibliographie:
2. Base de données de Paul Cortez tirée de UCI Machine Learning Repository : Student
Performance - UCI Machine Learning Repository
10