Vous êtes sur la page 1sur 4

Statistiques pour informaticiens

Partie I du projet introduction au logiciel R


2022-2023
Session janvier-Mai 2023
Introduction
Un opérateur de téléphonie mobile fait face depuis quelques mois à de nombreux clients qui résilients
leur contrat et qui partent à la concurrence. Ce résultat a certainement un impact négatif sur les
résultats de l’entreprise.
Afin de minimiser le risque de fuite, les clients encore actifs seraient contactés afin qu’ils ne résilient
pas leur contrat dans le futur. Compte tenu des contraintes budgétaires existantes, un échantillon de
2000 clients seraient contacter. L’idée sera donc de solliciter les clients qui présentent le plus de risque
de résilier leur contrat dans les 3 prochains mois (campagne anti-churn).

J eu de données.
Les données sont téléchargeables sur votre courriel personnel en format txt.
Le fichier de travail est nommé : base_telecom2019.txt.
On a des tables représentées de la façon suivante :
_ Chacune des lignes suivantes contient les données sur les variables définies au niveau de la dernière
page.
_ l’étudiant peut convertir le fichier xls en fichier csv si besoin pour travailler sur R.
_l’étudiant devra envoyer par courriel le fichier script« R et imprimer et déposer le fichier word de son
projet a l’administration UP
Instructions. Vous devez écrire du code R pour répondre aux questions suivantes. L’étudiant
doit commenter les codes et présenter les résultats soit dans le fichier en faisant des captures
d’écran.
Le devoir devra être remis au plus tard le 26 mars 2023 avant 12 : 00 am. Pour t out retard vous
perdez 1 point.
Le format de transmission du devoir est : prenom_nom_statsinfo_UP_projet_part1_23
Le devoir devrait être envoyé à l’adresse électronique suivant : gduvalsaint@yahoo.fr

1.Importation et mise en forme (2 pts)


1.1 Importer les jeux de données “ base_telecom2019.txt ”
1.2 Quel est le nom des variables du fichier importé
1.3 Combien y-a-t-il de variables et d’observations.
1.4 Dresser le dictionnaire des variables c.-à-d. présenter un tableau résumant le nom et le type de
chaque variable.
1.5 Afficher les 4 premières lignes de chaque variable.
2 Traitement des valeurs aberrantes et manquantes (2 pts)
2.1 Y-a-t-il des valeurs aberrantes dans le jeu de données. Si oui, afficher les variables qui
pressentent des valeurs aberrantes
2.2 Vérifier s’il y a des valeurs manques dans le jeu de données. Si oui, pouvez-vous identifier à
quelles variables correspondent ces valeurs manquantes.
2.3 Procéder à des recherches sur internet et remplacer les valeurs NA par des valeurs que vous
choisissez pour des variables suivantes :
1- TAILLE_VILLE
2-REVENU_MOYEN_VILLE
3- NB_SMS_M3

3 Création de variables (2 pts)


Compléter la base de données initiale par les variables suivantes :
3.1 Une variable AGE qui calcule l’Age des clients à partir de leur date de naissance et la date 31
décembre 2021.
3.2 Une variables binaire associée à la variable caractérisant le sexe,
3.3 Recodifier la variable « situation impayée » caractérisant la situation de paiement du client :
A été impayé-> 1,
Aucun impayé-> 2
Est en impayé-> 3
3.4 Recodifier à la variable caractérisant la CSP :
Si la personne est Employée ou Ouvrier ou Cadre ou Fonctionnaire -> 1,
Si la personne exerce une profession libérale ou Commerçant-> 2,
Si la personne est étudiante ou Sans emplois ou autres -> 3
3.5 Une variable prenant la valeur 1 lorsque l’individu vie en zone urbaine et 0 pour les autres
3.6 Une variable volume total des appels passé sur les 6 mois.
3.7 Une variable Nbre moyen de SMS envoyés sur les 6 mois.
3.8 Une variable TAILLE_VILLE recodifiée en :
Si la taille est inférieure ou égale 25849-> Basse
Si la taille est comprise entre 25850 et 58206-> Moyenne
Si la taille dépasse 58207-> Grande
3.9 Une variable égale au logarithme de la variable AGE crée à la question 3.1.
3.10 Transformer la variable REVENU_MOYEN_VILLE en Tranche de revenu en utilisant
votre propre estimation pour les classes.

4 Analyse descriptive (2 pts)


4.1 Calculer la moyenne, médiane l’écart-type, minimum, maximum et les quartiles pour
l’ensemble des variables quantitative continues du dataset
4.2 Présenter sous forme de tableau l’effectifs partiels, l’effectif cumulé, fréquence partielle et
fréquence cumulée des variables suivantes :
1-TELEPHONE_INIT
2- SEGMENT

5 Extraction (2 pts)
5.1 Afficher le nombre de clients qui se trouve dans la situation impayée mais qui paie par virement
bancaire.
5.2 Afficher la liste des cadres qui habite en zone urbaine
5.3 Extraire la liste des cleints qui sont des femmes et qui se trouve dans une ville à revenu moyen
inferieure à la médiane de cette dernière variable.
5.4 Extraire tous les clients qui sont des hommes et qui ont activés leur téléphone avant le 01 février
2019.
5.5 Extraire tous les clients qui ont resiliés leur contrat avec la compagnie à la date d’engagement du 10
Mars 2021.
5.6 Extraire la liste des clients qui ont passés le plus grand nombre d’appels en 6 mois
5.7 Extraire la liste des clients dont le nombre moyen de SMS sur les 6 mois ne dépasse pas 50
5.8 Extraire la liste des clients qui sont des étudiants et qui ont effectués des appels internationaux.
5.9 Extraire la liste des clients qui sont des commerçants et qui n’ont jamais reçus d’appels
internationaux.
5.10 Extraire la liste des cadres de moins de 40 ans qui habitent en zone urbaine et qui utilise
actuellement un téléphone de bas de gamme.
Tableau de définition des variables

NOM VARIABLE DESCRIPTION

ID-CLIENT Numéro d'identification du client


FLAG_RESILIATION Variable indiquant sur le client a resilié ou non sont contrat avec la compagnie
DATE_NAISSANCE Date Naissance du client
SEXE Sexe du client
CSP Catégorie Socio- Professionnelle
CODE_POSTAL Code Postal Ville
TAILLE_VILLE Taille de la ville
TYPE_VILLE Type de ville du client
REVENU_MOYEN_VILLE Revenu moyen par ville
DATE_ACTIVATION Date d'activation téléphone client
ENSEIGNE Lieu d'acquisition
MODE_PAIEMENT Mode de paiement
DUREE_OFFRE_INIT Durée offre Initiale
DUREE_OFFRE Durée offre
NB_MIGRATIONS Nombre de migrations
FLAG_MIGRATION_HAUSSE Variable indiquant la hausse de la migration
FLAG_MIGRATION_BAISSE Variable indiquant la baisse de la migration
NB_SERVICES Nombre de services
FLAG_PERSONNALISATION_REPONDE Variable indiquant la personnalisation ou non du répondeur
FLAG_TELECHARGEMENT_SONNERIE Variable indiquant le téléchargement ou non de la sonnerie
TELEPHONE_INIT Type de gamme téléphone possédé initialement
TELEPHONE Type de gamme téléphone actuel
DATE_FIN_ENGAGEMENT Date de fin d'engagement
NB_REENGAGEMENTS Nombre de Réengagements avec la compagnie
DATE_DERNIER_REENGAGEMENT Date de dernier réengagement avec la compagnie
SITUATION IMPAYES Situation de paiement du client
VOLS_APPELS_M6 Volume d'appels du client pour le sixième mois
VOLS_APPELS_M5 Volume d'appels du client pour le cinquième mois
VOLS_APPELS_M4 Volume d'appels du client pour le quatrième mois
VOLS_APPELS_M3 Volume d'appels du client pour le troisième mois
VOLS_APPELS_M2 Volume d'appels du client pour le deuxième mois
VOLS_APPELS_M1 Volume d'appels du client pour le premier mois
FLAG_APPELS_VERS_INTERNATIONAL Variable signalant si le client a composé un appel international
FLAG_APPELS_DEPUIS Variable signalant si le client a reçu un appel international
_INTERNATIONAL
FLAG_APPELS_NUMEROS _SPECIAUX Variable signalant les numéros spéciaux
NB_SMS_M6 Volume de sms du client pour le sixième mois
NB_SMS_M5 Volume de sms du client pour le cinquième mois
NB_SMS_M4 Volume de sms du client pour le quatrième mois
NB_SMS_M3 Volume de sms du client pour le troisième mois
NB_SMS_M2 Volume de sms du client pour le deuxième mois
NB_SMS_M1 Volume de sms du client pour le premier mois
SEGMENT segment du client

Vous aimerez peut-être aussi