Vous êtes sur la page 1sur 13

Master 1 ISEFAR

Numéro étudiant : 43012199

27/03/2024

Compte-rendu
Projet Modèle de régression sur la
mesure de la densité corporelle

MOHAMED ALI SOILIHI


PROF : CECILE DUROT
Partie A
# 1. Nombre d'observations

Sortie 1 : Nombre d'observations de l'étude : 238. Ce qui signifie que notre étude est composée de
238 individus.

# 2. Ajout de la variable IMC

data$IMC <- data$Poids / ((data$Taille/100)^2)

# 3. Types des variables et résumé numérique

Voir Sortie 2 :

On peut remarquer que l’ensemble des variables de notre étude est de type numérique sauf la
variable Age.

# Distribution d'effectifs observée de l'âge

Voir Sortie 3 :

Dans notre étude, 70 individus ont moins de 40 ans ; 80 ont un âge >= 50 ans et 88 ont un âge entre
40-49 ans.

# Minimum, maximum, moyenne, médiane, variance et écart-type observés

print(summary_stats(data$Denscorp))

voir Sortie 4 :

La densité corporelle enregistre une valeur minimum de 1.01 g/cm3 ; 1.10 la valeur maximale. On
constate que là l’écart-type est de 0.017. C’est-à-dire qu’il n’y a pas une grande dispersion de la
variable au tour de la valeur moyenne de 1.05 g/cm3. Ce qui veut dire que les données de la variable
Densité corporelle sont plus regroupées autour de sa moyenne.

print(summary_stats(data$Poids))

voir Sortie 5 :

Sur l’ensemble de notre étude, on enregistre un poids maximum de 112.2, le minimum est de 53.80.
Le poids moyen est de 80.36. La dispersion des valeurs par rapport à la moyenne (la variance) est de
133.22. Donc on constate une grande dispersion. En ce qui concerne l’écart-type qui mesure à quel
point les points sont dispersées autour de la moyenne, celle-ci est de 11.54. Ceci confirme
l’hypothèse selon laquelle il y a une grande dispersion des données concernant le poids au tour de sa
moyenne (80.36). C’est-à-dire que concernant le poids, les données ne sont pas regroupées.
print(summary_stats(data$Taille))

voir Sortie 6 :

Concernant la taille, on constate que sur l’ensemble de notre base de données, l’individu de taille
mesure 162.60 et celui de grande taille mesure 196.80. La taille moyenne est de 178.40. Là aussi on
voit que la variance est de 42.04 ; ce qui est éloignée de la moyenne. L’écart-type est de 6.48. Même
constat, il y a une grande dispersion des données par rapport à la moyenne. Les données ne sont pas
regroupées.

print(summary_stats(data$IMC))

voir Sortie 7 :

L’indice de la masse corporelle enregistre une valeur minimale de 18.03 contre une valeur maximale
de 33.85 et une moyenne de 25.12. Quant à la variance qui mesure la dispersion des données autour
de la moyenne, on constate que celle-ci est de 9.03, ce qui est éloignée de la moyenne (25.12). et un
écart-type de 3.00. Donc on peut dire qu’il existe une grande dispersion des données par rapport à la
moyenne.

Partie B
#1. Résumé numérique du tour de cheville

summary(data$Cheville)

voir Sortie 1 :

La circonférence minimum de la cheville est de 19.10 cm.

La circonférence maximum de la cheville est 33.90 cm.

La circonférence moyenne de la cheville est 23.06 cm.

Voir Graphique 1

En ce qui concerne la distribution du tour de cheville, on constate que la circonférence de la cheville


mesurant 23 cm représente la fréquence la plus élevée.

# 2. Nuage de points tour de genou en fonction du tour de cheville

Voir Sortie 2 :

Graphique 2

Le nuage de point du tour de genou en fonction du tour de cheville laisse à croire qu’il existe une
corrélation positive entre les deux variables mais pas trop forte. En effet, on remarque que si les
valeurs de tours de cheville augmentent, celles de tour de genou augmente mais pas aux mêmes
proportions. On va calculer le coefficient de corrélation entre ces deux variables pour justifier cela.
On constate aussi qu’il y a des points (des observations) qui sont très éloignées.

# Calcul du coefficient de corrélation linéaire

Voir Sortie 3 : Coefficient de corrélation linéaire entre le tour de cheville et le tour de genou :
0.5747724.

En effet, avec cette valeur de 0.5747, on constate que le coefficient de corrélation est proche de 1
mais pas très proche. Cici confirme une corrélation positive mais très lente. Donc la corrélation entre
les deux variables n’est pas trop forte.

# 3. Ajustement du modèle de régression linéaire

Voir Sortie 4 :

Coefficients:

(Intercept) Cheville

20.2074 0.7943

Pour ajuster un modèle de régression linéaire simple du tour de genou sur le tour de cheville et
représenter la droite de régression ajustée sur le nuage de points, nous avons utilisé la fonction
« lm » pour ajuster le modèle de régression linéaire.

L’ajustement du modèle de régression linéaire simple du tour de genou sur le tour de cheville nous
donne les valeurs de la constante qui est l’ordonnée à l’origine beta0 = 20.2074 et la valeur de beta1=
0.7943 qui est la pente de la droite de régression relative au tour de cheville.

# Ajout de la droite de régression ajustée

abline(modele_regression, col = "red")

voir Graphique 3 :

On constate ici que la droite de régression n’est pas bien ajustée sur le nuage de points. Nous allons
le justifier en analysant la qualité de l’ajustement ainsi que l’étude de la validité du modèle.

Pour évaluer la qualité de l'ajustement réalisé, nous pouvons examiner plusieurs aspects :

- Détermination du coefficient de détermination (R²)

Voir Sortie 5 : Coefficient de détermination (R²) : 0.3303634

En effet, Le coefficient de détermination mesure la proportion de la variance de la variable


dépendante (tour de genou) qui est expliquée par le modèle de régression. Plus le R² est proche
de 1, meilleure est l'ajustement du modèle. Cependant, il convient de noter que le R² ne mesure
que la force de la relation linéaire entre les variables et ne donne pas d'indication sur la validité
du modèle lui-même. Dans notre cas, on remarque que ce coefficient est de 0.3303 qui est très
loin de 1. Donc nous pouvons dire que l’ajustement n’est pas bon.

- # Visualisation des résidus

Voir Sortie 6 :
Un bon ajustement du modèle est souvent associé à des résidus qui sont répartis de manière
aléatoire autour de zéro dans un graphique de résidus. Si les résidus présentent un schéma ou
une tendance, cela pourrait indiquer que le modèle n'explique pas toute la variation dans les
données.

Voir Graphique 4 :

Sur ce graphique des résidus, on constate que les résidus ne sont pas tous repartis autour de zero. Il y
a en effet, des observations qui sont très éloignés de zéro (31,81, 233…etc.). Donc là aussi nous
pouvons dire que l’ajustement n’est pas bon.

En conclusion, rien que ses deux aspects, nous pouvons dire que la qualité de l’ajustement du modèle
n’est pas bonne.

- Pour étudier la validité du modèle, nous pouvons examiner les résidus pour identifier les
observations présentant des résidus extrêmes et les observations influentes en procédant
ainsi :
- Identifier les résidus extrêmes :

Voir Sortie 7 : Observations présentant des résidus extrêmes : 5, 14, 17, 23, 25, 27, 29, 30 ,31, 33 ,34,
35, 42, 45, 48 ,50, 56, 79, 81, 118, 133, 134, 137, 140, 143, 145, 146, 157, 159, 163, 166, 169, 170,
171, 179 ,181, 183, 194, 199, 211, 214, 217, 224, 227, 228, 229, 230, 233, 234, 235, 237, 238.

- Identifier les observations influentes :


Voir Sortie 8 : Observations influentes : 31 et 81

Force est de constater qu’il y a plus de 47 résidus extrêmes et deux observations influentes. Ce qui est
très significatif. Ce qui peut avoir un impact significatif sur le non-ajustement du modèle.

#4. Pour représenter la droite de régression ajustée sans les observations influentes et évaluer
la qualité de l'ajustement obtenu, nous allons procéder comme suit :

• Créer un nouveau modèle de régression en excluant les observations influentes

Voir Sortie 9 :

Coefficients:

(Intercept) Cheville

9.486 1.264

• Représenter le nuage de points avec la droite de régression ajustée sans les observations
influentes

Voir Sortie 10 :

Voir Graphique 5 :

On constate ici qu’En excluant les observations influentes et en ajustant un nouveau modèle de
régression, nous pouvons comparer visuellement la droite de régression ajustée avec celle du modèle
initial. On voit bien que maintenant la droite de régression est bien ajustée sur le nuage de points.
Nous allons confirmer avec l’analyse sur la qualité de l’ajustement.

• Qualité de l'ajustement obtenu


Voir Sortie 11 :

On observe que la valeur du coefficient de détermination est de 0.5302 sur le nouveau modèle de
régression par rapport à 0.33 pour le modèle initial. Donc on peut dire qu’il y a un bon ajustement en
excluant les observations influentes.

Les valeurs de p-value sont aussi significative pour le nouveau modèle de régression. Donc nous
pouvons conclure que en excluant les observations influentes, la qualité de l’ajustement obtenu est
meilleure que l’initiale. Cela indique que les observations influentes affectent la qualité de
l'ajustement.

La question de savoir si on doit supprimer ou conserver les observations influentes dans les analyses
futures dépend de plusieurs facteurs, notamment :

1. Cause de l'influence : Il est important de comprendre pourquoi ces observations sont influentes.
S'agit-il de données aberrantes légitimes ou d'erreurs de mesure ? Si les observations influentes sont
le résultat d'erreurs de mesure ou d'autres problèmes techniques, il peut être justifié de les
supprimer des analyses futures.

2. Objectif de l’analyse : Si l'objectif principal de votre analyse est d'obtenir un modèle prédictif
précis, il peut être préférable de supprimer les observations influentes pour améliorer la précision du
modèle. Cependant, si vous recherchez plutôt des relations causales ou des schémas généraux dans
les données, la suppression des observations influentes pourrait biaiser les résultats.

3. Impact sur les résultats : Il est important d'évaluer l'impact des observations influentes sur les
résultats de l'analyse. Si leur suppression entraîne des changements significatifs dans les conclusions
de l'analyse, il est probablement nécessaire de les conserver.

4. Taille de l’échantillon : La suppression d'observations influentes peut réduire la taille de


l'échantillon, ce qui peut affecter la puissance statistique des analyses futures. Il est important de
peser les avantages de la suppression des observations influentes par rapport à la perte de puissance
statistique due à la réduction de la taille de l'échantillon.

Partie C :
1. # Calculer le centre de gravité (moyenne) du poids et de la densité corporelle

Voir Sortie 1 : > centre_gravite

[1] 80.360084 1.056272

# Représenter le nuage de points de la densité corporelle en fonction du poids avec le centre de


gravité

# Ajouter le centre de gravité au graphique

Voir Sortie 2 :

Voir Graphique 6 :

Pour représenter le nuage de points de la densité corporelle en fonction du poids, ainsi que son
centre de gravité, nous allons utiliser la fonction « plot » en R pour tracer le nuage de points, puis
ajouter le centre de gravité en calculant la moyenne des valeurs de poids et de densité corporelle.
En visualisant le graphique, on peut remarquer que la plupart des points formant le nuage de points
forment une droite linéaire et sont concentrés au tour du centre de gravité. On peut penser qu’il peut
y avoir une relation négative entre le poids et la densité corporelle.

# Calcul du coefficient de corrélation linéaire

Voir Sortie 3 :

Coefficient de corrélation linéaire entre le poids et la densité corporelle : -0.6006492

Comme le coefficient de corrélation entre les deux variables est de -0.6006492, donc proche de -1.
Alors effectivement il y a une corrélation négative forte. C’est-à-dire que les valeurs de la densité
corporelle ont tendance à diminuer lorsque les valeurs du poids augmentent, et vice versa.

1. (a) Écrire le modèle correspondant

Les hypothèses associées au modèle de régression linéaire simple sont les suivantes :

Linéarité : La relation entre la variable indépendante (le poids) et la variable dépendante (la densité
corporelle) est linéaire.

Homoscédasticité : La variance des erreurs est constante pour toutes les valeurs de la variable
indépendante.

Indépendance des erreurs : Les erreurs sont indépendantes les unes des autres.

Normalité des erreurs : Les erreurs suivent une distribution normale avec une moyenne de 0.

# b. Obtenir les estimations des moindres carrés des coefficients et l'estimation de la variance des
erreurs

Voir Sorties 5 :

Pour obtenir les estimations des moindres carrés des coefficients et l'estimation de la variance des
erreurs du modèle de régression linéaire simple, nous avons utilisés la fonction summary() sur le
modèle ajusté. Ainsi on a le coefficient directeur beta0 = 1.131 et la pente = -9.296e-04. La variance
des erreurs = 0.01431.

# c. Équation de la droite de régression observée

# Représenter graphiquement la droite de régression sur le nuage de points

Voir Sortie 6

Voir graphique 7
Pour obtenir l'équation de la droite de régression observée, nous avons extraits les coefficients
estimés du modèle ajusté. Ensuite, nous avons représentés graphiquement la droite de régression sur
le nuage de points en utilisant les coefficients estimés. On peut constater déjà que la droite n’est pas
bien ajoutée.

d. Pour évaluer la qualité de l'ajustement réalisé, nous pouvons effectuer une décomposition de la
variabilité totale en calculant les sommes de carrés correspondantes. Cela nous permettra de calculer
le coefficient de détermination, qui mesure la proportion de la variance totale expliquée par le
modèle de régression.

# Calcul des sommes de carrés

Voir Sorties 7 :

> SSR

[1] 0.02728738

> SSE

[1] 0.04834714

> SST

[1] 0.07563452

Dans notre cas, on constate que SSR = 0.027 et SST= 0.075. Donc SSR < SST. Alors ceci signifie que le
coefficient de détermination est proche de 0. Le modèle n’est pas bien ajusté.

# Calcul du coefficient de détermination (R^2)

Voir Sortie 8 :

> R2

[1] 0.3607795
Le coefficient de détermination est proche de 0. Cela indique que le modèle ne parvient pas à
expliquer la variabilité des données, ce qui suggère un ajustement médiocre.

e.

# Test de significativité pour la pente de la droite de régression

Voir Sorties 9 :

Pour prendre une décision basée sur ce test, nous allons comparer la p-valeur à un niveau de
signification de 0.05. Si elle est inférieure à 0.05, alors nous rejetons l'hypothèse nulle et concluons
que la pente de la droite de régression est significativement différente de zéro. Sinon, nous ne
rejetons pas l'hypothèse nulle. Dans notre cas, on voit que la valeur de p-valeur <2.2e-16, qui est
largement inférieur à 0.05. Donc on rejette Ho. La pente de la droite de régression est
significativement différente de zéro. Le risque d'erreur encouru dépend du niveau de signification
choisi. Dans notre cas, nous avons choisi 0.05. Cela signifie que nous acceptons un risque de 5%
d'obtenir un résultat significatif lorsque l'hypothèse nulle est vraie.

F.

Pour étudier la validité du modèle de régression linéaire simple, plusieurs diagnostics peuvent être
effectués pour évaluer si les hypothèses du modèle sont satisfaites. Voici quelques étapes que vous
pouvez suivre pour évaluer la validité du modèle :

1. Vérification de la linéarité : Vous pouvez examiner visuellement la relation entre la variable


indépendante (le poids) et la variable dépendante (la densité corporelle) en traçant un nuage de
points et en vérifiant si la relation semble linéaire. Vous pouvez également utiliser des graphiques de
résidus pour détecter toute non-linéarité dans la relation.

2. Vérification de l'homoscédasticité : Vous pouvez vérifier si la variance des résidus est constante
pour toutes les valeurs de la variable indépendante. Pour cela, tracez les résidus standardisés en
fonction des valeurs prédites et vérifiez s'il y a une tendance dans la dispersion des résidus.

3. Vérification de l'indépendance des erreurs : Vous pouvez examiner visuellement les résidus pour
détecter toute structure temporelle ou spatiale. De plus, vous pouvez utiliser des tests statistiques
comme le test de Durbin-Watson pour détecter l'autocorrélation des résidus.
4. Vérification de la normalité des erreurs : Nous pouvons examiner la distribution des résidus pour
vérifier s'ils suivent approximativement une distribution normale. Des graphiques tels que les
graphiques quantiles-normaux peuvent être utiles à cet égard, ainsi que des tests statistiques comme
le test de Shapiro-Wilk.

• Vérification de la linéarité :

Voir graphique 8

En examinant visuellement la relation entre la variable indépendante (le poids) et la variable


dépendante (la densité corporelle), on observe que la relation ne semble pas linéaire.

• Vérification de l'homoscédasticité

Voir graphique 9

On constate ici que la variance des résidus n’est pas constante pour toutes les valeurs de la variable
indépendante. Et aussi il n’y a pas une tendance dans la dispersion des résidus.

• Vérification de l'indépendance des erreurs

Voir graphique 10

On remarque ici qu’il n’y a pas d’indépendance des erreurs car visuellement on voit que les résidus
ne nous permettent pas de détecter une quelconque structure temporelle ou spatiale.

• Vérification de la normalité des erreurs

Voir graphique 11

On peut observer ici que la distribution des résidus ne suive pas approximativement une distribution
normale.

En conclusion, on peut remarquer que les graphiques montrent des violations importantes des
hypothèses. Il faudrait peut-être envisager des ajustements au modèle ou aux données.

Partie D
#1. Créer un nuage de points avec ggplot2 en spécifiant la couleur en fonction de l'âge

Voir graphique 12

Partie E
# Calcul des coefficients de corrélation linéaire

# Représenter les coefficients de corrélation avec corrplot

Voir graphique 13

Les cases colorées représentent les coefficients de corrélation, et leur couleur varie en fonction de la
force et de la direction de la corrélation. Les couleurs plus claires indiquent une corrélation plus forte,
tandis que les couleurs plus sombres indiquent une corrélation plus faible. Les rectangles rouges
ajoutés autour de certaines cases indiquent les paires de variables ayant une corrélation significative.

# Trouver les indices des paires de variables les plus corrélées positivement
# Trouver les indices des paires de variables les plus corrélées négativement

Voir sortie 1

Variables les plus corrélées positivement : Hanche Poids avec une corrélation de 0.9307019
0.9307019

Variables les plus corrélées négativement : Abdomen Denscorp avec une corrélation de -0.8072602 -
0.8072602

C’est-à-dire que plus la circonférence de la hanche augmente, plus le poids augmente et vice versa.

Et plus la circonférence de l’abdomen augmente, plus la densité corporelle diminue et vice versa.

Partie F
#1. Définir le modèle complet de régression multiple

Voir sortie 1

Coefficients:

(Intercept) Age>=50 Age40-49 Poids Taille Cou

1.088e+00 -3.603e-03 -3.276e-03 6.812e-05 2.311e-04 9.446e-04

Thorax Abdomen Hanche Cuisse Genou Cheville

2.921e-04 -2.100e-03 5.068e-04 -4.244e-04 4.256e-05 -3.639e-04

Biceps Bras Poignet

-4.481e-04 -2.709e-04 3.062e-03

# Afficher un résumé du modèle

Voir sortie 2
2- Pour tester la significativité globale du modèle de régression multiple (modèle (3)), nous utilisons
le test F, également connu sous le nom de test d'ANOVA (Analyse de la Variance). Les hypothèses du
test sont les suivantes :

• Hypothèse nulle : Tous les coefficients de régression dans le modèle sont nuls, ce qui signifie
que toutes les variables explicatives n'ont pas d'effet significatif sur la variable dépendante
(densité corporelle). En d'autres termes, le modèle n'explique pas une quantité significative
de variabilité dans la densité corporelle.
• Hypothèse alternative : Au moins un des coefficients de régression dans le modèle est
différent de zéro, ce qui indique qu'au moins une variable explicative a un effet significatif sur
la variable dépendante.

La statistique de test utilisée est la statistique F, qui est calculée comme le rapport entre la somme
des carrés expliquée par le modèle (SSR) et la somme des carrés résiduels (SSE), divisée par le
nombre de variables explicatives dans le modèle et ajustée pour les degrés de liberté. Sous
l'hypothèse nulle, cette statistique suit approximativement une loi de Fisher avec k degrés de liberté
pour le numérateur et n-k-1 degrés de liberté pour le dénominateur, où k est le nombre de variables
explicatives et n est le nombre d'observations.

La justification pour l'utilisation de la loi de Fisher sous l'hypothèse nulle repose sur le fait que sous
l'hypothèse nulle, les résidus suivent une distribution normale, et la distribution de la statistique F est
une fonction de la somme des carrés des résidus, qui suit une distribution de chi carré sous
l'hypothèse nulle. Lorsque les résidus suivent une distribution normale, le rapport des deux sommes
de carrés suit une distribution de Fisher.

Voir sortie 3 :

On constate que la probabilité associée au test de Fisher est inférieure à 0.05. Donc on rejette
l’hypothèse nulle. C’est-à-dire qu’au moins un des coefficients de régression dans le modèle est
différent de zéro, ce qui indique qu'au moins une variable explicative a un effet significatif sur la
variable dépendante.

3- Pour déterminer quelles variables apportent une contribution significative à l'explication de la


densité corporelle, nous examinons les valeurs p associées à chaque coefficient dans le modèle de
régression multiple. Une valeur p faible (généralement inférieure à un seuil de signification tel que
0.05) indique que la variable explicative correspondante est significativement liée à la densité
corporelle.

Voir sortie 4 :

On constate ici que les valeurs p associés aux coefficients des variables Abdomen et poignet sont
inférieures à 0.05. Aussi la valeur p associée au coefficient de la constante est également inférieure à
0.05. Donc nous pouvons dire que les variables qui apportent une contribution significative à
l’explication de la densité corporelle sont Abdomen et poignet.

4- Pour déterminer si le coefficient estimé du poids dans le modèle (3) est cohérent avec celui du
modèle (1), nous pouvons comparer les deux coefficients et leurs intervalles de confiance respectifs.
Si les intervalles de confiance se chevauchent et que les estimations sont relativement similaires, cela
suggère une certaine cohérence entre les deux modèles.

Pour le modèle (1), le coefficient estimé du poids peut être extrait à partir du résumé du
modèle (utilisant la fonction summary()).
Pour le modèle (3), nous pouvons également extraire le coefficient estimé du poids à partir du
résumé du modèle complet.

Voir sortie 5 :

Coefficient estimé du poids dans le modèle (1) : -0.0009296504

Coefficient estimé du poids dans le modèle (3) : 6.811793e-05

Force est de constater que les valeurs diffèrent considérablement. Cela indique des différences
significatives entre les modèles. D’où le coefficient estimé du poids dans le modèle 3 n’est pas
cohérent avec celui du modèle 1.

Partie G
1- Pour rechercher le "meilleur" modèle parcimonieux (modèle (4)) permettant d'expliquer la
densité corporelle à partir de l'ensemble des variables sans interaction, nous pouvons utiliser
des méthodes de sélection de variables telles que la sélection avant, la sélection arrière, la
sélection avant à pas descendante ou des méthodes de régularisation comme la régression
Lasso ou la régression Ridge.

Ces méthodes permettent de sélectionner les variables les plus importantes tout en évitant le
surajustement du modèle.

Un critère couramment utilisé pour sélectionner le "meilleur" modèle est le critère


d'information d'Akaike (AIC) ou le critère d'information bayésien (BIC). Ces critères prennent
en compte à la fois l'ajustement du modèle et sa complexité, favorisant les modèles qui
expliquent bien les données avec un nombre minimal de variables.

# Recherche du meilleur modèle en utilisant la sélection de variables par étapes basée sur le critère
AIC

Voir sortie 6 :

Le modèle qui a le plus petit AIC est le modèle 7 avec un AIC =-2196.77.

Donc c’est ce modèle que nous allons utiliser pour effectuer les prévisions de la densité corporelle.

Voir sortie 7 :

Vous aimerez peut-être aussi