Vous êtes sur la page 1sur 3

PROJET 1 R

ANALYSE DES CIGARETTES

Consignes :
L’étudiant fournira son projet sous format zip contenant :
1. Un rapport en pdf ou html issu de R markdown
2. Le code R et la base des données permettant la reproduction des résultats
contenus dans le rapport R
La date limite du dépôt est fixée le 03 mars 2024 à 23h59

Objectif :
On souhaite expliquer la nocivité des cigarettes CO à partir de ses caractéristiques (TAR,
NICOTINE et WEIGHT).

1. Inspection des données


1. Chargez le fichier « cigarettes_pour_regression.txt » dans un data frame attention aux options
de la procédure, dans notre fichier la première colonne correspond aux identifiants des
véhicules, ce n’est pas une variable ; attention également au point décimal ; enfin, le
séparateur de colonnes est le caractère tabulation « \t »]
2. Affichez les observations, puis affichez le nombre de lignes et de colonnes du data frame
3. Affichez les noms des observations et des variables
4. Affichez les statistiques descriptives pour chaque variable
5. Réalisez les graphiques nuages de points en croisant deux à deux les variables (pairs). Que
constatez-vous ? Les variables sont-elles liées entres elles ? Y a-t-il des points atypiques ?

2. Régression linéaire multiple


6. Réalisez une régression linéaire multiple expliquant la variable CO à partir de toutes les
autres variables
7. Récupérez l’objet issu du modèle Affichez-le. Quelle est la valeur du R2 de la régression.
Le modèle est-il globalement significatif à 5% ? Quelles sont les coefficients significatifs à
5% ? Ces résultats corroborent-ils les constations issues des graphiques précédents ?

8. Affichez le champ de l’objet. Quel est le type de cet objet ? Quelles sont ses dimensions ?
9. Affichez les écarts-type des coefficients estimés.

3. Analyse des résidus


10. Récupérez les résidus de la régression. Calculez sa moyenne. Que constatez-vous ?
11. Construisez le graphique nuage de points en croisant en abscisse la variable cible (CO) et
en ordonnée le résidu. Y a-t-il des éléments saillants dans le graphique ?

12. Réalisez la droite de Henry pour vérifier la compatibilité des résidus avec l’hypothèse de
normalité. Que constatez-vous ?

13. Calculer le coefficient d’asymétrie g1, puis le coefficient d’aplatissement g2. Calculez alors
la statistique de Jarque-Bera. Est-ce que les résidus sont compatibles avec l’hypothèse de
normalité ?

4. Sélection de variables
14. Testez la significativité simultanée des coefficients de NICOTINE et WEIGHT en opposant
les R² des régressions CO = f(TAR, NICOTINE, WEIGHT) et CO = f(TAR)
15. Réalisez une sélection de variables « backward » optimisant le critère AIC (stepAIC).
Quelles sont les variables finalement pertinentes pour l’explication du taux de CO des cigarettes
? Est-ce que ce résultat confirme la réponse obtenue dans la question précédente ?

5. Prédiction sur un nouveau fichier


16. Charger les données du fichier « autres_cigarettes.txt ». Combien y a-t-il de marques de
cigarettes dans ce fichier ?
17. Pour ces nouvelles observations, calculez les prédictions ponctuelles ainsi que leurs
intervalles de confiance à 90% du modèle simplifié.
Compréhension du projet

Dans le projet deux bases seront mises à votre disposition

La première base de données "Base_Cigarette." comprend les informations suivantes sur


différentes marques de cigarettes :

- Cigarette : Le nom de la marque de cigarette.


- TAR : La quantité de goudron (en mg) par cigarette.
- NICOTINE : La quantité de nicotine (en mg) par cigarette.
- WEIGHT : Le poids de la cigarette (en grammes).
- CO : La quantité de monoxyde de carbone (en mg) émise par cigarette.

Cette base de données permet d'analyser les caractéristiques des cigarettes en fonction de leur
composition et de leur impact potentiel sur la santé. Les colonnes TAR, NICOTINE,
WEIGHT, et CO offrent des mesures quantitatives.

Le deuxième fichier "autres_cigarettes." contient des informations sur d'autres marques de


cigarettes, structurées de la même manière que la base de données précédente. Voici les
détails :

- Cigarette : Nom de la marque de cigarette.


- TAR : La quantité de goudron (en mg) par cigarette.
- NICOTINE : La quantité de nicotine (en mg) par cigarette.
- WEIGHT : Le poids de la cigarette (en grammes).

Les marques de cigarettes listées dans ce fichier sont :

- Benz : 14.1 mg de goudron, 0.86 mg de nicotine, poids de 0.9853 grammes.


- GoodLook: 18 mg de goudron, 1.06 mg de nicotine, poids de 1.079 grammes.
- Riverplate : 9 mg de goudron, 0.67 mg de nicotine, poids de 0.928 grammes.
- Melia : 4.1 mg de goudron, 0.4 mg de nicotine, poids de 0.876 grammes.

BONNE CHANCE A TOUS…

Vous aimerez peut-être aussi