Académique Documents
Professionnel Documents
Culture Documents
Manel SEKMA
sekma.manel@gmail.com AU 2023-2024
1
Chapitre 1: Introduction
Part1:Découvrir l'analyse de données
Bibliographie
• Pyle, Dorian. 1999. Data Preparation for Data Mining. morgan kaufmann.
Organisation
• 30 h Cours (1:30 h/semaine)
• 15h TP (1:30h/ par semaine)
2
Introduction
Part1:Découvrir l'analyse de données
3
Comprendre l'analyse de données
Analyse
Données
4
Pourquoi les données ?
5
Pourquoi analyser ?
6
Processus de l’analyse de données
Prise de
Inspection Nettoyage Transformation Modélisation
décision
7
Définir le métier de « data analyst »
décision.
8
Définir le métier de « data analyst »
9
Définir le métier de « data analyst »
Le data analyst:
10
Définir le métier de « data analyst »
11
Rôle de « data analyst »
12
Rôle de « data analyst »
1.Nettoyer les données
NB: par nettoyage de données, ne signifie pas changer les valeurs des données!
remodeler celles-ci pour qu’elles soient plus pertinentes dans le cadre de notre
étude.
Exemples:
• séparer les noms et les prénoms pour effectuer un tri,
• ou encore ajouter des calculs inexistants
• ou supprimer des colonnes inutiles
13
Rôle de « data analyst »
2.Visualiser les données
Réceptionner des données
Construire des outils d’aide à la décision (Graphiques,
diagrammes, rapports)
15
Data analyst et équipe de la data science
Construire une équipe
Une équipe peut être composée de:
Data analyst
Chercheurs
Statisticiens
Développeurs
…..
Chacun avec des compétences communes à toute d’équipe
+
Des compétences spécifiques qui le distinguent
16
Data analyst et équipe de la data science
Compétences clé d’un Data analyst
Connaissances en statistiques / algèbre linéaire
17
Data analyst et équipe de la data science
Définition des rôles
Il existe petits et grands rôles en Data science
18
Data analyst et équipe de la data science
Quelques rôles d’un data analyst
Recherche
Analyse
Gouvernance de données
Data sciences
19
Principes fondamentaux pour l’analyse de
données
Identifier les données
Comprendre les champs et les types de données
Organiser les données
Connaître la syntaxe
20
Principes fondamentaux pour l’analyse de
données
Identifier les données
21
Identifier les données Exemple
Pouvez vous voir des données?
22
Identifier les données Exemple
Aller très loin en tant que DA !
Fournisseurs, Localisations de
fournisseurs , fréquence
approvisionnement
……..
23
Identifier les données
24
Comprendre les champs et les types de
données
2. des champs
3. des valeurs
25
Comprendre les champs et les types de
données
Type de données
Nombre : quantité
26
Comprendre les champs et les types de
données
Type de données
Types de données
27
Comprendre les champs et les types de
données
Type de données -- Exemple
Entêtes de champs
Les valeurs de
champs
Des enregistrements
Un enregistrement : ensembles de champs dans une base de données lié à une seule entité !
28
Organiser les données
29
Organiser les données
1.Types de fonctions
Classique: addition, multiplication, soustraction et division
30
Types de fonctions
Exemple de déclaration avec IF
31
Organiser les données
2. Conversion de données
Convertir au format souhaité
32
Organiser les données
Quelques conversion de données
Conversion de dates
Conversion de monnaies
33
Organiser les données
3. Données manquantes
Non significatif
34
Connaître la syntaxe
Définir ce qu'est la syntaxe ?
La syntaxe fait référence à l'orthographe et la grammaire
d'un langage de programmation
35
Connaître la syntaxe
36
Connaître la syntaxe – Exemple avec excel (1)
37
Connaître la syntaxe – Exemple avec excel (2)
38
Introduction
Part2:Projet d’analyse de données
39
Démarrer efficacement un projet d’analyse
de données
Les étapes d’un projet d’analyse de données
1) Définition des objectifs
2) Données
Inventaire des données
Constitution de la base de données
Exploration et préparation des données
3) Élaboration et validation des modèles
4) Documentation et présentation
5) Mise en œuvre
6) Suivi de la performance et amélioration
40
Démarrer efficacement un projet d’analyse
de données
41
Démarrer efficacement un projet d’analyse
de données
1.Identifier le problème
souvent l’étape la plus difficile
Objectif clair
par exemple, la détection de la fraude dans le domaine de l’assurance
42
Démarrer efficacement un projet d’analyse
de données
1.Identifier le problème
43
Démarrer efficacement un projet d’analyse
de données
2. Préparation des données
44
Démarrer efficacement un projet d’analyse
de données
2. Préparation des données :
45
Démarrer efficacement un projet d’analyse
de données
2. Préparation des données: Inventaire des données
Données internes
46
Les données expérimentales
Ce sont des situations où les données sont prises dans des
conditions contrôlées et dans le but de répondre à une
question précise :
confirmer ou infirmer une hypothèse.
47
Données internes
Base de données des clients
Listes de transactions
Base de données des employés
Information sur les visites web (Google analytics)
Listes de clients potentiels
48
Les données de sources officielles
des sites gouvernementaux
l’Institut de la statistique..
49
Les données de sondage
Un sondage bien réalisé est encore fiable et permet d’aller chercher une
information autrement difficile à obtenir (opinions, perceptions).
1) les taux de réponse diminuent, ce qui entraîne aussi une diminution de la qualité
des données;
51
Les sources de données payantes
52
Démarrer efficacement un projet d’analyse
de données
2. Préparation des données: La constitution de la base de
données
BD Relationnelle
53
Démarrer efficacement un projet d’analyse
de données
2. Préparation des données: Exploration et traitement
préliminaire des données
54
A savoir
L’apprentissage supervisé,
L’apprentissage non supervisé
L’apprentissage renforcement
55
L’apprentissage supervisé, non supervisé et
par renforcement
1. Apprentissage supervisé
La tâche est d’expliquer ou de prédire la valeur d’une certaine variable
réponse Y en fonction de variables explicatives X.
On cherche à classifier, prédire, estimer.
56
L’apprentissage supervisé, non supervisé et
par renforcement
2. Apprentissage non supervisé
On s’intéresse à identifier des relations, associations ou groupements significatifs.
On s’intéresse à la distribution conjointe des X.
57
L’apprentissage supervisé, non supervisé et
par renforcement
3. Apprentissage par renforcement
l’apprentissage se fait par essai et erreur.
59