Vous êtes sur la page 1sur 11

Analyse des facteurs socio-éducatifs et

comportementaux affectant les performances


académiques des élèves

Par Ramanich Charles-Anthony et Clement Raffy, M1 ARM

Econométrie Théorique
M1-MBFA - Année 2023-2024
1. Présentation du sujet :

Cette étude vise à examiner l'impact de divers facteurs socio-éducatifs et comportementaux


sur les performances académiques des élèves, en se concentrant particulièrement sur les
mathématiques au Portugal. L'objectif est d'identifier les modèles et facteurs prédictifs des
résultats scolaires pour aider à mieux comprendre quelles sont les composantes qui
impactent la réussite scolaire.

2. Introduction :

Dans un monde en constante évolution, l'éducation académique des élèves est devenue un
pivot central des politiques éducatives, reflétant une société qui valorise de plus en plus le
savoir et les compétences. Face à cette réalité, il devient essentiel de comprendre et
d'évaluer les performances des élèves, non seulement pour mesurer les résultats
académiques, mais aussi pour identifier les facteurs qui influencent ces performances.
Le choix du Portugal comme cadre d'étude s’est imposé pour plusieurs raisons. En effet, ce
pays présente un système éducatif structuré et diversifié, allant de l'enseignement basique à
l'enseignement supérieur. L'obligation scolaire s'étend de 6 à 18 ans, couvrant une large
étendue de l'expérience éducative. Les performances des élèves portugais en
mathématiques, sont notamment évaluées par des programmes internationaux tels que le
PISA. Ce programme permet de constater une croissance significative des performances du
pays de 2003 à 2015, lui permettant d’être au-dessus de la moyenne de l’OCDE, et montrant
des changements potentiels dans les approches des politiques éducatives du pays.

Les mathématiques, en tant que discipline fondamentale, offrent une perspective unique sur
les capacités cognitives et les processus éducatifs. Elles jouent un rôle crucial dans le
développement des compétences analytiques et logiques, et leur maîtrise peut être
considérée comme un indicateur clé de la réussite académique générale.
Ainsi, comment les facteurs socio-éducatifs et comportementaux spécifiques influencent-ils
les performances académiques en mathématiques des élèves au Portugal, et quelle est leur
interrelation dans le contexte global de la réussite scolaire ?

1
Table 1 : PISA 2003 à 2018.

3. Données récoltées :
Cette base de données, créée par Paul Cortez en 2008, analyse les performances scolaires
des élèves de deux écoles secondaires portugaises. Elle comprend 395 observations et 33
variables, incluant des données démographiques, sociales, et liées à l'école des élèves.

3.1. Variable expliquée :


Notre variable dépendante est

 La moyenne : moyenne générale en mathématiques de chacun des élèves, au terme


de l’année. Elle est calculée via les moyennes respectives de chaque trimestre et
permet d’avoir une indication sur la performance des élèves.

3.2. Variables explicatives :

On décide dans notre sélection de données de choisir 9 variables pour expliquer la cause de
la moyenne (note) de l’élève.

 Sex1(genre) : indique le genre de l'étudiant, avec 1 pour homme et 0 pour femme.


Cette variable peut aider à comprendre les différences de performances scolaires et
les influences socio-éducatives selon le genre.
 Medu (niveau d’éducation de la mère) et Fedu (niveau d’éducation du père) : ces
variables reflètent le niveau d'éducation des parents, allant de 0 (pas d'éducation) à 4
(études supérieures). Elles sont cruciales pour examiner comment le milieu éducatif
familial influe sur la réussite scolaire des élèves.
 Studytime1 (temps de révision par semaine) : classé de manière ordinale, ce facteur
indique le temps dédié aux révisions, de moins de 2 heures (0) à plus de 10 heures (4)
par semaine. Cette mesure permet d'évaluer l'impact du temps d'étude sur les
résultats académiques.
 Failures1(nombre de classes redoublées) : Cette variable mesure le nombre de
redoublements par le passé.
 Schoolsup1 : représente l’aide d’un cours de soutien. Variable binaire. 1 pour oui, 0
pour non.
 Paid1 : représente l’aide d’un prof particulier. Variable binaire. 1 pour oui, 0 pour non.
Ces deux que sont Schoolsup1 et Paid 1 permettent d’examiner l’effet des ressources
pédagogiques supplémentaires sur les résultats scolaires.
 Goout (fréquence de sortie entre amis) : cette variable ordinale, allant de très peu (0)
à très souvent (4), sert à évaluer comment les interactions sociales et les activités de
loisir influencent les performances académiques.

2
 Absences : nombre d’absences au cours de l’année, peut être un indicateur clé de
l’engagement scolaire et son impact sur les résultats.

3.3 Exploration des données recueillies

3.3.1 Analyse descriptive des variables


L’analyse des données révèle que la majorité des élèves provient de milieux où les parents
ont atteint un niveau d’éducation intermédiaires avec respectivement environ 2.75 et 2.52.
Ce qui suggère que les influences éducatives des parents peuvent jouer un rôle non
négligeable dans la performance académique. (Tables 2)
Par ailleurs, les statistiques indiquent que les élèves passent en moyenne plus de deux
heures par semaine à réviser, ce qui peut présager une corrélation potentiellement positive
entre le temps d’étude et les notes des élèves.

L’une des données les plus impactant peut se voir notamment entre la grande disparité dans
les absences des élèves ou l’écart-type atteint plus « 8 ».
En outre, les données montrent que le redoublement a concerné un segment limité de
l'échantillon, avec une moyenne de redoublements relativement basse. Cependant, pour
ceux qui ont redoublé, cela pourrait indiquer des défis académiques plus profonds,
susceptibles d'affecter leur performance actuelle.

Le faible taux d'élèves ayant reçu du soutien scolaire, illustré par une moyenne de 0,1291
pour cette variable, interpelle sur l'accessibilité et peut-être la nécessité de telles ressources
supplémentaires. Ce qui pourrait questionner l’impact que pourrait avoir un tel outil plus
utilisé sur les performances académiques.
La variable 'goout', reflétant la fréquence des sorties entre amis, avec une moyenne
légèrement au-dessus de 3, suggère un équilibre entre les activités sociales et les études. La
question se pose de savoir si un excès de socialisation a un effet préjudiciable sur les notes,
ou si au contraire, une vie sociale équilibrée contribue positivement au bien-être et, par
extension, à la réussite scolaire des élèves.

3.3.2 Analyse des coefficients de corrélation


La matrice de corrélation permet de soulever les mêmes hypothèses citées précédemment
où l’on a constaté une corrélation positive entre la moyenne et le temps d’étude. Ce qui
montre que les élèves qui étudient ont tendance à avoir de bonnes notes et inversement.
L’éducation des parents est en corrélation avec de meilleurs résultats scolaires, et le soutien
est légèrement corrélé aux cas de redoublements. (Tables 3)

3
Ainsi, malgré le fait qu’on puisse émettre quelques hypothèses, une corrélation ne signifie
pas une causalité d’où l’intérêt de pouvoir tester et d’établir une régression sur le modèle
pour pouvoir émettre d’autre hypothèses.

4. Estimation, tests et interprétations :

4.1 Choix de la spécification :


Le modèle étudié est une régression linéaire par moindres carrés. Elle est utilisée pour
analyser la composante de la réussite scolaire en mathématiques et donnera lieu à une
analyse « Niveau-Niveau ».
Le modèle utilisé est le suivant :
Moygen = β0 + β1age + β2adress1 + β3Medu + β4Fedu + β5sex1 + β6studytime + β7failures
+ β8schoolsup1 + β9goout + β10paid1 +β11absences + ε
Pour commencer la partie interprétation des résultats, il est important de vérifier que le
modèle utilisé est cohérent. A partir de la sortie de la régression via le logiciel R, il est évident
que certaines variables ne sont pas significatives dans ce modèle. (Tables 4)

Il est donc pertinent de les supprimer afin de ne garder que les variables significatives qui
sont : le sexe, le temps de révision, le nombre de redoublements, la participation aux cours
de soutien, l’aide aux devoirs par la famille, les sorties entre amis.
Une deuxième régression, seulement avec ces variables est donc mise en place.

Moygen = β0 + β1sex1 + β2studytime + β3failures + β4schoolsup1 + β5goout + ε


Il est observé un R^2 d’environ 0.19, ce qui signifie que ce modèle explique environ 19 % de
la variance de la variable dépendante. Autrement dit, 19 % de la variabilité observée dans la
variable « moyenne générale » peut être expliquée par les variables indépendantes incluses
dans ce modèle.
De plus, la p-value étant très proche de 0 indique que le modèle dans son ensemble est
statistiquement significatif. L’inclusion conjointe de ces variables est donc globalement utile
pour expliquer la variance de la variable dépendante. Ce modèle a une certaine capacité
prédictive, mais l’ajustement n’est pas très fort. (Tables 5)

4
Interprétation du résultat :
Le coefficient de la variable sexe étant supérieur à 1, sachant que c’est une indicatrice où 1 =
homme. Cela signifie qu’être un homme est associé à une augmentation d’environ 1.06 point
dans la moyenne générale par rapport aux femmes.
Le temps de révision a aussi un effet positif. Une augmentation d’un point de pourcentage du
temps de révision augmenterait les résultats en mathématiques de 0,5 point de pourcentage.
Le nombre de redoublements par le passé a une relation négative avec la variable expliquée.
Le coefficient indique que, en tenant compte des autres variables constantes, chaque
redoublement passé est associé à une diminution d’environ 1.7 point dans la moyenne
générale. C’est la variable qui a le plus fort impact sur la variable explicative.

Moyenne générale par rapport au nombre de


redoublements
25

20

15 y = -1.8658x + 11.301
R² = 0.1408
10

0
0 0.5 1 1.5 2 2.5 3 3.5

Fait intéressant, assister aux cours de soutiens scolaires a une relation négative de -1.4 point
avec la variable expliquée. Cela peut être logique étant donné que les élèves qui assistent
aux cours de soutien sont en général les élèves éprouvant des difficultés. Néanmoins, on
peut aussi remettre en cause la qualité d’enseignement de ces cours de soutien.
La variable « goout » (sortie entre amis) a aussi une relation négative avec les notes en
mathématiques. Une augmentation d’une unité (sur l’échelle ordinale créée) fait diminuer la
moyenne générale en mathématiques de 0,4 point.

5
4.2 Tests :
Afin de s’assurer de la fiabilité du modèle, il est nécessaire de tester la présence
d’homoscédasticité dans le modèle, la normalité des résidus, la non-présence
d’autocorrélation dans les résidus ainsi que la non-présence de multicollinéarité.

a) Test D’Homoscédasticité – Test de Breush-Pagan :

Ce test a pour objectif de vérifier si les variances des erreurs sont constantes à travers toutes
les observations, une condition essentielle pour la fiabilité des estimations de la régression.
Dans notre cas, la p-value supérieure à 0.05 indique l'absence d’hétéroscédasticité, confir-
mant que le modèle est homoscédastique. Cette homogénéité des variances assure la
constance des erreurs à travers le modèle. (Tables 6)

b) Test de Shapiro-Wilk :

Ce test permet de déterminer la normalité de la distribution des résidus. Ici, une p-value
supérieure à 0,05 indique que les résidus suivent une distribution normale, validant ainsi les
hypothèses sous-jacentes de notre modèle et renforçant la fiabilité des tests d'hypothèses
ultérieurs. (Tables 7)

c) Le test de Durbin-Watson :

Ce test sera le plus approprié pour tester la présence ou non d’autocorrélation dans les
résidus d’une régression, un problème pouvant biaiser les estimations.
La statistique de Durbin Watson, étant proche de 2, suggère une faible présence d’auto-
corrélation dans les résidus. (Tables 8)

d) Test de Vif :

Ce test évalue la force de la corrélation entre les variables indépendantes. Une forte
multicollinéarité peut gonfler les erreurs-types et rendre certaines variables statistiquement
non significatives. Dans notre cas, l'absence de multicollinéarité, comme indiqué par le test
VIF, assure que chaque variable contribue de manière unique à notre modèle. (Tables 9)

En somme, l'ensemble de ces tests montre que le modèle est homoscédastique, avec des rés
idus normalement distribués et non autocorrélés, et sans présence de multicollinéarité. Ces
résultats confirment la solidité et la validité du modèle.

4.3 Analyse des coefficients de corrélation :

La matrice de corrélation confirme ce qui a été observé plus tôt. Les variables explicatives ne
s’influencent que très peu entre elles et les corrélations entre chacune des variables
explicatives et la variable expliquée sont proches des coefficients de régression estimés. (Tab
les 10)

6
5. Synthèse :

Cette étude approfondie visait à examiner l’impact de divers facteurs socio-éducatifs et


comportementaux sur les performances académiques en mathématiques des élèves au
Portugal. En mettant l’accent sur des variables telles que le genre, le temps de révision, le
nombre de redoublements, la participation aux cours de soutien, l’aide aux devoirs par la
famille, et les sorties entre amis, le modèle cherche à identifier les modèles et les facteurs
prédictifs des résultats scolaires. Les données, provenant d’une base créée par Paul Cortez
en 2008, ont permis une analyse approfondie particulière à la variable dépendante, la
moyenne générale en mathématiques. La sélection des variables explicatives a été guidée
par leur pertinence pour comprendre les déterminants des performances académiques.
Le coefficient de détermination R^2 de 19 % indique que ce modèle explique seulement une
partie de la variance observée dans la variable dépendante. Cela signifie que 81 % de la
variabilité des résultats scolaires reste inexpliquée par les variables incluses dans le modèle.
Cette constatation met en lumière la complexité et la diversité des facteurs qui influencent
les performances académiques des élèves en mathématiques.
D’autres variables non incluses pourraient jouer un rôle significatif tel que le style
d’apprentissage, la motivation individuelle, la résistance au stress.
Malgré ce R^2 assez faible, les résultats du modèle demeurent statistiquement significatifs,
ce qui indique que les variables incluses sont tout de même pertinentes pour comprendre les
variations observées dans les résultats scolaires.
Ces conclusions incitent à une exploration approfondie des dynamiques complexes qui sous-
tendent les performances académiques des élèves.

7
Annexe :

Tables 2 : Analyse descriptives des variables

Tables 3 : Matrice des coefficients de corrélation entre les variables

Tables 4 :
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.34697 0.89434 10.451 < 2e-16 ***
sex1 1.03416 0.35972 2.875 0.00427 **
studytime 0.51562 0.21503 2.398 0.01697 *
failures -1.51832 0.24175 -6.281 9.14e-10 ***
Medu 0.33162 0.20259 1.637 0.10247
Fedu 0.12761 0.19947 0.640 0.52271
schoolsup1 -1.41829 0.50305 -2.819 0.00506 **
paid1 0.03479 0.34789 0.100 0.92040
goout -0.46477 0.15243 -3.049 0.00245 **
adress1 0.76878 0.40674 1.890 0.05950 .
absences 0.01399 0.02120 0.660 0.50991
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.304 on 384 degrees of freedom
Multiple R-squared: 0.2219, Adjusted R-squared: 0.2016
F-statistic: 10.95 on 10 and 384 DF, p-value: < 2.2e-16

8
Tables 5 :
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 11.1332 0.7303 15.245 < 2e-16 ***
sex1 1.0635 0.3570 2.979 0.00307 **
studytime 0.5084 0.2135 2.381 0.01775 *
failures -1.7240 0.2311 -7.459 5.74e-13 ***
schoolsup1 -1.3969 0.5058 -2.762 0.00602 **
goout -0.3981 0.1527 -2.607 0.00948 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.337 on 389 degrees of freedom
Multiple R-squared: 0.1962, Adjusted R-squared: 0.1858
F-statistic: 18.98 on 5 and 389 DF, p-value: < 2.2e-16

Table 6: studentized Breusch-Pagan test

data: reg5
BP = 10.453, df = 5, p-value = 0.0633

Table 7: Shapiro-Wilk normality test

data: reg5$residuals
W = 0.99562, p-value = 0.338

Table8: Durbin-Watson test


data: modele3
DW = 2.1104, p-value = 0.8568

Table 9: Test de VIF


sex1 studytime failures schoolsup1 goout
1.127117 1.136254 1.045339 1.020374 1.022272

Table 10 : Matrice des coefficients de corrélation entre les variables significatives

moygen studytime failures schoolsup1 goout sex1


moygen 1.0000000
studytime 0.1343732 1.00000000
failures -0.3751801 -0.17356303 1.0000000000
schoolsup1 -0.1376723 0.03776270 -0.0004374907 1.0000000000
goout -0.1546934 -0.06390368 0.1245609219 -0.0376984912 1.00000000
sex1 0.1014701 -0.30626762 0.0444358811 -0.1382709547 0.07589740 1.00000000

9
Bibliographie:

1. Portugal student performance (PISA 2018): Edhttp://www.apdr.pt/siteRPER/numero


s/RPER57/57.6.pdfucation GPS - Portugal - Student performance (PISA 2018) (oecd.or
g)

2. Base de données de Paul Cortez tirée de UCI Machine Learning Repository : Student
Performance - UCI Machine Learning Repository

3. Territorial Differences in Student Performance in Portugal, The Role of Family


Characteristics and School Composition :
http://www.apdr.pt/siteRPER/numeros/RPER57/57.6.pdf

4. Initiation à R par Sébastien Déjean : https://perso.math.univ-


toulouse.fr/dejean/files/2020/12/intro_R.pdf

5. Mulkay Benoit, « Économétrie théorique » TD 5 : Hétéroscédasticité : Tests et


Correction

10

Vous aimerez peut-être aussi