Exo 2

31/03/2023 Karl El Kallab & Meriem Doumaz
Exercise 2
Introduction :
La maladie cardiovasculaire est une des principales causes de mortalité à l'échelle
mondiale, entraînant environ 18 millions de décès chaque année. Elle regroupe
diverses maladies affectant le cœur et les vaisseaux sanguins, telles que l'insuffisance
cardiaque, les maladies coronariennes, l'angine de poitrine, l'hypertension artérielle,
les accidents vasculaires cérébraux, entre autres. Bien que cette maladie puisse
toucher des personnes de tout âge, elle est plus fréquente chez les personnes âgées
et chez celles ayant des antécédents familiaux de la maladie. Les facteurs de risque
incluent l'hypertension artérielle, le tabagisme, l'obésité, la sédentarité, le diabète,
l'hypercholestérolémie, la consommation excessive d'alcool et le stress.
L'identification précoce des personnes à risque est essentielle pour prévenir et traiter
la maladie cardiovasculaire. Les bases de données de santé sont donc une source
précieuse d'informations pour la recherche en santé publique, notamment pour la
prévention et la prédiction de la maladie. Ces bases de données recueillent des
informations sur les antécédents médicaux, les habitudes de vie et les facteurs de
risque des patients atteints de la maladie cardiovasculaire.
Dans cette étude, nous avons utilisé une base de données contenant des
informations sur la maladie cardiovasculaire pour développer un modèle de
prédiction basé sur une régression logistique. Ce modèle permettra d'identifier les
facteurs de risque les plus importants pour la maladie cardiovasculaire, ce qui aidera
les professionnels de la santé à identifier les personnes à risque et à mettre en place
des stratégies de prévention adéquates.
Nous décrirons dans la suite de ce rapport les méthodes utilisées pour la collecte des
données, le développement du modèle de régression logistique et l'évaluation de ses
performances. Nous présenterons ensuite les résultats obtenus et discuterons de
leurs implications pour la prédiction et la prévention de la maladie cardiovasculaire.
Procédure :
Dans le cadre de cette étude, nous avons travaillé avec une base de données
contenant des informations sur 609 patients, y compris leur âge, leur niveau de
catécholamine, leur taux de cholestérol et leur statut tabagique. Pour évaluer la
performance du modèle, nous avons divisé cette base de données en deux ensembles
: un ensemble d'apprentissage et un ensemble de test. En utilisant une approche de
régression logistique, nous avons créé un modèle qui prédit si un individu est atteint
de maladie cardiovasculaire ou non, en fonction des variables de la base de données.
Pour identifier les variables les plus importantes pour le modèle, nous avons utilisé
une approche descendante stepwise.
Code :
1- Importation :
Pour commencer une analyse de données avec le langage R, il est essentiel
d'importer les librairies nécessaires pour effectuer les différentes analyses. Pour cela,
la fonction library() est utilisée pour charger les packages dans R. Voici une liste des
librairies utilisées pour l'analyse de données en R :
library(readr)
library(MASS)
library(questionr)
library(broom)
library(tidyverse)
library(effects)
library(margins)
Ensuite, la base de données est importée en utilisant la fonction read_delim() en

spécifiant le chemin d'accès du fichier CSV contenant les données. Dans cet exemple,
le fichier CSV contenant les données sur la maladie cardiovasculaire est stocké dans
une variable appelée MaladieCardio. Il est important de noter que le paramètre " ;"
est utilisé pour indiquer que les valeurs sont séparées par des points-virgules.
Il est crucial de vérifier la cohérence des types et des classes de variables lors de
l'analyse de données afin de s'assurer que les données sont correctement
interprétées et traitées. Pour cela, la fonction str() est souvent utilisée car elle permet
de vérifier la structure des données, y compris les types et les classes des variables.
Nous avons plusieurs de type de variable dans notre etude :
2- Traitement des données :
La fonction as.factor() a été employée afin de convertir les variables numériques en

variables catégorielles. Cette transformation est bénéfique pour des analyses
spécifiques telles que la régression logistique.
Lors de l'analyse initiale, nous avons identifié des variables synthétisées dans la base
de données. Après avoir examiné leur pertinence pour notre étude sur les maladies
cardiovasculaires, nous avons décidé de les retirer de l'analyse afin de nous
concentrer sur les variables les plus importantes pour notre modèle de régression
logistique. Cette décision a été prise pour améliorer la qualité de notre analyse.
Nous avons utilisé les fonctions nrow() et ncol() pour déterminer que la base de
données comprend 609 observations et 10 variables. Cette quantité de données est
suffisante pour mener notre analyse de régression logistique et évaluer la relation
entre les variables et la maladie cardiovasculaire.
La représentation graphique ci-dessous fournit une vue d'ensemble des variables
présentes dans la base de données. Au total, il y a 10 variables, incluant une variable
d'identification (id) et neuf variables explicatives (cat, age, chl, smk, ecg, dbp, sbp, hpt
et classe_age), ainsi qu'une variable cible binaire (chd) qui permet de déterminer si le
patient est atteint d'une maladie cardiovasculaire ou non. Les variables catégorielles
sont codées avec des nombres entiers représentant les différentes catégories. La
variable d'âge a été transformée en une variable catégorielle nommée classe_age, qui
classe les patients selon leur âge. Des statistiques descriptives telles que la moyenne,
la médiane, le minimum, le maximum et les quartiles sont fournies pour chaque
variable numérique.
Grace a notre code, nous calculons la somme des personnes malades et nous
obtenons 71, puis nous calculons la somme des personnes non malade et nous
obtenons 538.
71/538=12%
Donc au finale la proportion des personnes malades est de 12%.
3- Modèle de régression logistique :
La régression logistique est une technique statistique largement utilisée en analyse

de données pour prédire une variable binaire en se basant sur un ensemble de
variables explicatives. Cette méthode permet de modéliser la relation entre une
variable dépendante binaire et des variables indépendantes continues ou
catégorielles. En utilisant la fonction logistique, le modèle de régression logistique
fournit une probabilité que la variable dépendante prenne la valeur 1. Cette méthode
est souvent utilisée en conjonction avec des techniques de régularisation pour éviter
le surapprentissage et peut également être étendue pour modéliser des variables
dépendantes multi-classes.
Dans le but de développer un modèle permettant de prédire la présence ou l'absence
de maladies cardiovasculaires chez les patients, nous avons pris en compte toutes les
variables explicatives disponibles dans notre base de données. La variable cible ou la
variable à expliquer était la variable "chd", qui indique si un patient est atteint de
maladie cardiovasculaire ou non. Pour modéliser la relation entre ces variables
explicatives et la variable à expliquer, nous avons utilisé une régression logistique.
En utilisant la régression logistique, nous avons obtenu des coefficients estimés pour
chaque variable explicative, ainsi que leur erreur standard, leur valeur z et leur p-
value. Ces coefficients sont des mesures de la direction et de la force de l'association
entre chaque variable explicative et la variable à expliquer. Les coefficients positifs
indiquent une association positive avec la maladie cardiovasculaire, tandis que les
coefficients négatifs indiquent une association négative.
L'analyse des coefficients obtenus nous a permis d'identifier les variables explicatives
les plus importantes pour la prédiction de la maladie cardiovasculaire. En outre, en
examinant la direction et la force de l'association entre chaque variable explicative et
la variable à expliquer, nous avons pu comprendre l'impact de chaque variable sur la
présence ou l'absence de maladies cardiovasculaires.
En résumé, la régression logistique est un outil statistique puissant pour modéliser la
relation entre les variables explicatives et la variable à expliquer. Les coefficients
obtenus nous permettent de comprendre l'importance de chaque variable explicative
et de prédire la présence ou l'absence de maladies cardiovasculaires chez les
patients.
L'analyse des résultats de la régression logistique a permis d'identifier les variables

explicatives les plus importantes pour la prédiction de la maladie cardiovasculaire.
Les coefficients estimés pour chaque variable explicative, leur erreur standard, leur
valeur z et leur p-value ont été calculés. Les coefficients ont permis de déterminer la
direction et la force de l'association entre chaque variable explicative et la variable à
expliquer.
Les résultats ont montré que les variables "chl" (taux de cholestérol) et "smk1"
(indicateur de tabagisme) ont des coefficients significativement positifs, ce qui
indique une association positive avec la maladie cardiovasculaire. De même, les
variables "hpt1" (hypertension artérielle), "sbp" (pression artérielle systolique) et
"ecg1" (résultats de l'ECG) ont également des coefficients significativement positifs,
ce qui indique une association positive avec la maladie cardiovasculaire.
En revanche, les variables "cat1" (niveau de catécholamine), "age" (âge), "dbp"
(pression artérielle diastolique) et les variables de classe d'âge n'ont pas de
coefficients significatifs, ce qui indique une absence d'association avec la maladie
cardiovasculaire.
La déviance résiduelle, qui est un indicateur de l'ajustement du modèle aux données,
a été évaluée et elle varie de -1,3232 à 2,5985, ce qui suggère une bonne qualité
d'ajustement du modèle. Plus précisément, plus la déviance résiduelle est proche de
zéro, mieux le modèle est ajusté aux données.
Enfin, l'AIC (Critère d'information d'Akaike), qui est un indicateur de la qualité de
l'ajustement du modèle, a également été évalué. Un AIC plus faible indique un
meilleur ajustement du modèle aux données. Dans notre cas, l’AIC est de 345,76, ce
qui suggère un ajustement satisfaisant du modèle.
Le tableau ci-dessus fournit des informations sur les résultats de l'analyse de

régression logistique, qui est une méthode statistique couramment utilisée pour
prédire une variable dépendante à partir d'un ensemble de variables indépendantes
ou prédicteurs. Dans ce cas, les variables significatives sélectionnées étaient le fait
d'être fumeur (smk), le niveau de cholestérol (chl) et l'âge (age), et la variable
dépendante était la maladie coronarienne (chd).
Les coefficients estimés pour chaque variable indiquent l'effet de chaque prédicteur
sur la probabilité de développer une maladie coronarienne. Plus précisément, les
résultats montrent que le fait d'être fumeur (smk) est significativement associé à une
augmentation de la probabilité de développer une maladie coronarienne (OR=2,27 ;
p=0,012). Cela signifie que les personnes qui fument sont plus susceptibles de
développer une maladie coronarienne que celles qui ne fument pas.
De même, une augmentation du niveau de cholestérol (chl) est associée à une
augmentation significative de la probabilité de développer une maladie coronarienne
(OR=1,01 ; p=0,012). Ce résultat suggère que les personnes ayant un taux élevé de
cholestérol sont plus susceptibles de développer une maladie coronarienne que
celles ayant un taux normal.
Enfin, une augmentation de l'âge (age) est également significativement associée à
une augmentation de la probabilité de développer une maladie coronarienne
(OR=1,06 ; p<0,001). Cela indique que le risque de maladie coronarienne augmente
avec l'âge, et que les personnes plus âgées sont plus susceptibles de développer cette
maladie que les personnes plus jeunes.
En somme, les résultats de cette analyse de régression logistique indiquent que le fait
d'être fumeur, d'avoir un niveau de cholestérol élevé et d'être âgé sont des facteurs
de risque significatifs pour le développement de la maladie coronarienne. Ces
résultats peuvent être utiles pour la prévention et le traitement de cette maladie, en
aidant les professionnels de la santé à identifier les personnes les plus à risque et à
prendre des mesures pour réduire ce risque.
La courbe ROC est un outil graphique qui permet de visualiser la performance d'un
modèle de classification en comparant le taux de vrais positifs et de faux positifs à
différents seuils de classification. Le taux de vrais positifs correspond au nombre
d'échantillons positifs correctement classés, tandis que le taux de faux positifs
représente le nombre d'échantillons négatifs incorrectement classés en tant que
positifs.
L'aire sous la courbe (AUC) est une mesure de la performance globale du modèle de
classification, qui prend en compte l'ensemble des seuils de classification possibles.
Cette mesure est exprimée en pourcentage et varie entre 0 et 1. Une valeur de 0,5
correspond à une prédiction aléatoire, tandis qu'une valeur de 1 indique que le
modèle est capable de prédire de manière parfaite.
Dans le cas présent, l'AUC est de 64,3 %, ce qui indique que le modèle a une
performance légèrement supérieure à une prédiction aléatoire. Cependant, la
proximité de l'AUC à la valeur de 0,5 suggère que le modèle n'a pas une forte
capacité prédictive et que ses prédictions pourraient être améliorées.
En d'autres termes, bien que le modèle puisse prédire les échantillons positifs avec
une précision supérieure à celle d'une prédiction aléatoire, il n'est pas encore
suffisamment performant pour être considéré comme fiable à 100 %. Il est donc
important de poursuivre les efforts d'optimisation du modèle afin de maximiser sa
capacité prédictive et de le rendre plus fiable pour les classifications futures.
4-Conclusion :
Cette étude a été menée dans le but de développer un modèle de prédiction de la

maladie cardiovasculaire à l'aide de la régression logistique. Pour ce faire, une base
de données contenant des informations sur les antécédents médicaux, les habitudes
de vie et les facteurs de risque des patients atteints de cette maladie a été utilisée.
L'approche de sélection des variables stepwise a été utilisée pour choisir les variables
les plus importantes pour le modèle.
Les résultats de l'étude ont montré que l'âge, le niveau de catécholamine, le taux de
cholestérol et le tabagisme étaient les variables les plus importantes pour prédire la
maladie cardiovasculaire. De plus, le modèle développé avait une capacité de
prédiction satisfaisante, avec une précision de 64,3% et une AUC de 0,64.
Ces résultats sont d'une grande importance pour la prévention et la prise en charge
de la maladie cardiovasculaire. Grâce à ce modèle, les professionnels de la santé
peuvent identifier les personnes qui sont à risque de développer cette maladie et
mettre en place des stratégies de prévention appropriées. De plus, cette étude met
en lumière l'importance de la collecte et de l'utilisation de bases de données de santé
pour la recherche en santé publique.
L'utilisation de la régression logistique pour prédire la maladie cardiovasculaire à
partir de variables démographiques et cliniques peut être très utile pour améliorer la
prévention et la prise en charge de cette maladie. Cependant, d'autres études sont
nécessaires pour valider ces résultats sur des populations plus larges et pour explorer
d'autres variables potentiellement importantes pour la prédiction de la maladie
cardiovasculaire. Les recherches futures pourraient également se concentrer sur
l'application de cette méthode de prédiction à d'autres maladies chroniques.

Exo 2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Exo 2

Transféré par

Droits d'auteur :

Formats disponibles

31/03/2023 Karl El Kallab & Meriem Doumaz

Ensuite, la base de données est importée en utilisant la fonction read_delim() en

La fonction as.factor() a été employée afin de convertir les variables numériques en

3- Modèle de régression logistique :

La régression logistique est une technique statistique largement utilisée en analyse

L'analyse des résultats de la régression logistique a permis d'identifier les variables

Le tableau ci-dessus fournit des informations sur les résultats de l'analyse de

Cette étude a été menée dans le but de développer un modèle de prédiction de la

Vous aimerez peut-être aussi