Chapitre1-Introduction Analyse de Donne

Analyse des données
Manel SEKMA
sekma.manel@gmail.com AU 2023-2024
1
Chapitre 1: Introduction
Part1:Découvrir l'analyse de données
 Bibliographie
• Pyle, Dorian. 1999. Data Preparation for Data Mining. morgan kaufmann.
 Objectif principal du cours

• Comprendre le domaine d’analyse de données et découvrir le rôle et les compétences
d'un « data analyst »
 Organisation
• 30 h Cours (1:30 h/semaine)
• 15h TP (1:30h/ par semaine)
2
Introduction
Part1:Découvrir l'analyse de données
 Comprendre l'analyse de données

 Définir le métier de « data analyst »
 Découvrir le rôle et les compétences d'un « data
analyst »
 Principes fondamentaux pour l’analyse de données
3
Comprendre l'analyse de données
 Analyse
 Données
4
Pourquoi les données ?
William Edwards Deming (1900 – 1993):
Sans données, vous êtes juste quelqu'un avec une opinion!
5
Pourquoi analyser ?
 Comprendre les enjeux et les défis dans notre société et

prendre des décisions stratégiques
 Analyses pertinentes
6
Processus de l’analyse de données
Prise de
Inspection Nettoyage Transformation Modélisation
décision
7
Définir le métier de « data analyst »
 Le data analyst : personne dont le travail consiste à examiner des
informations afin de tirer des conclusions ou aider à la prise de
décision.
8
Le data analyst travaille avec des données

sous toutes leurs formes et avec des outils
aussi variés que les données rencontrées
9
Le data analyst:
Commence souvent par des lignes de

données dans les bases de données, des
feuilles de calcul ou même des fichiers
CSV
Il transforme ensuite ces enregistrements en

résultats plus significatifs à interpréter par les autres
10
Les graphiques, des cartes et différents diagrammes sont souvent

produits par le data analyst en vue de visualiser de l’information
11
Rôle de « data analyst »
 Créer des rapports, des requêtes et des feuilles de calcul

 Améliorer les processus à l’aide des données
 Concevoir des modèles intéressants à partir des données
12
1.Nettoyer les données
 Ajouter des données et des calculs

 Modifier la structure des données pour créer des
rapports, des graphiques et des analyses plus fiables (ne
garder que les données intéressantes)
NB: par nettoyage de données, ne signifie pas changer les valeurs des données!
 remodeler celles-ci pour qu’elles soient plus pertinentes dans le cadre de notre
étude.
 Exemples:
• séparer les noms et les prénoms pour effectuer un tri,
• ou encore ajouter des calculs inexistants
• ou supprimer des colonnes inutiles
13
2.Visualiser les données
 Réceptionner des données
 Construire des outils d’aide à la décision (Graphiques,
diagrammes, rapports)
Deux finalités importantes pour un DA:

 Relever et éliminer très rapidement une données
aberrante
 Visualiser permet d’améliorer la manière d’interpréter
nos données
14
Data analyst et équipe de la data science
 Un Data analyste est un élément clé de toute équipe de la data
science
 Si l’équipe est multidisciplinaire alors il faut

définir les rôles de chacun pour une meilleure
complémentarité et une meilleur synergie pour
plus d’efficacité et un meilleur rendu
15
Construire une équipe
 Une équipe peut être composée de:
 Data analyst
 Chercheurs
 Statisticiens
 Développeurs
 …..
 Chacun avec des compétences communes à toute d’équipe
+
 Des compétences spécifiques qui le distinguent
16
Compétences clé d’un Data analyst
 Connaissances en statistiques / algèbre linéaire
 Tableur: Microsoft Excel…
 SGBDR: Microsoft Acces.SQL Server …
 Langage de programmation : python..
 Techniques de Machine learning
 Plateforme Big Data: Hadoop
17
Définition des rôles
 Il existe petits et grands rôles en Data science
 Certains rôles n’existent pas encore (Evolution avec laquelle

les besoins évoluent)
 Rôle généralement définit par l’organisation en fonction de

ses besoins évolutifs
18
Quelques rôles d’un data analyst
 Recherche
 Analyse
 Gouvernance de données
 Data sciences
 Management des projets
19
Principes fondamentaux pour l’analyse de
données
 Identifier les données
 Comprendre les champs et les types de données
 Organiser les données
 Connaître la syntaxe
20
Principes fondamentaux pour l’analyse de
données
Identifier les données
 Exercice difficile mais essentiel !
 Apprendre à chercher des données
21
Identifier les données Exemple
Pouvez vous voir des données?
 Une couleur « bleu »
 Type de matériau « bois »
 Type de meuble « chaise »
22
Identifier les données Exemple
Aller très loin en tant que DA !
 Q: Quelles sont les dimensions ?

Largeur=40cm, hauteur=91cm,
poids=4,5kg
 Coût et l’envoi de ce produit
Fournisseurs, Localisations de
fournisseurs , fréquence
approvisionnement
 Commander, date de livraison
……..
23
Identifier les données
 Utiliser toute donnée utile

 Valoriser toute donnée utile
24
Comprendre les champs et les types de
données
A quoi ressemblent les données ?
Pour un DA les données impliquent:
1. les types de données,
2. des champs
3. des valeurs
25
données
Type de données
 Valeurs possibles pour le type [0,1] [vrai, faux],…
 La manière de stocker les données
 Quelques types classiques de données:

 Texte ou chaine de caractère : Prénom
 Date et/ou heure : Date d’achat
 Nombre : quantité
 Booléen: oui /non ou vrai /faux
26
données
Type de données
 Entêtes de champs (titres)
 Les valeurs de champs
 Types de données
27
données
Type de données -- Exemple
Entêtes de champs
Les valeurs de
champs
Des enregistrements
 Un enregistrement : ensembles de champs dans une base de données lié à une seule entité !
28
Organiser les données
 Données non stockées dans le

système
 Données calculées pour être utilisées

dans des rapports finaux.
 ….
 Faire appel a des fonctions
29
1.Types de fonctions
 Classique: addition, multiplication, soustraction et division
 Formules et fonctions plus élaborées:

 Concaténation: lier des champs ensembles pour créer un seul
champ
 Fusion : créer un seul champ pour le prénom et nom
 Les déclarations IF: retourner les valeurs selon les conditions
30
Types de fonctions
Exemple de déclaration avec IF
= IF(test logique, valeur si vrai, valeur si faux)
31
2. Conversion de données
 Convertir au format souhaité
 Explorer les possibilités de conversion selon l’outil utilisé
 Exemple: si les données sont des chiffres sous format

texte or besoin de réaliser des calcules  convertir en
nombres
32
Quelques conversion de données
 Conversion de dates
 Conversion de monnaies
33
3. Données manquantes
 Détecter les observations de variables sans

valeur
 Etudier l’impact des données manquantes;
 Significatif
 Non significatif
 Choisir une solution adapté pour traiter les

données manquantes
34
Connaître la syntaxe
 Définir ce qu'est la syntaxe ?
 La syntaxe fait référence à l'orthographe et la grammaire
d'un langage de programmation
 Il faut maitriser la syntaxe
 Syntaxe propre à chaque programme
35
Connaître la syntaxe
La démarche pour apprendre la syntaxe:
1. Déterminer l’action souhaitée
2. Chercher dans le menu d’aide
3. Chercher dans un ouvrage de

référence
4. Chercher dans un moteur de

recherche
36
Connaître la syntaxe – Exemple avec excel (1)
37
Connaître la syntaxe – Exemple avec excel (2)
38
Introduction
Part2:Projet d’analyse de données
1. Démarrer efficacement un projet d’analyse de données

2. L’apprentissage supervisé, non supervisé et par
renforcement
39
Démarrer efficacement un projet d’analyse
de données
Les étapes d’un projet d’analyse de données
1) Définition des objectifs
2) Données
 Inventaire des données
 Constitution de la base de données
 Exploration et préparation des données
3) Élaboration et validation des modèles
4) Documentation et présentation
5) Mise en œuvre
6) Suivi de la performance et amélioration
40
de données
Temps requis pour chaque étape selon Pyle (Pyle, Dorian.

1999. Data Preparation for Data Mining. morgan kaufmann.)
41
de données
1.Identifier le problème
 souvent l’étape la plus difficile
 Objectif clair
 par exemple, la détection de la fraude dans le domaine de l’assurance
 Objectif est flou

 par exemple, on nous fourni une base de données avec des informations sur la
clientèle et on nous demande de l’exploiter de façon à améliorer l’expérience
client.
42
de données
1.Identifier le problème
 Bien définir les objectifs est une compétence qui s’acquiert

généralement avec de l’expérience.
 nécessite une bonne compréhension des modèles, des

données et du domaine d’application.
43
de données
2. Préparation des données
 La préparation des données, est souvent de l’étape la plus

longue d’un projet
 Simple ou complexe  relative aux domaines et objectifs
44
de données
2. Préparation des données :
 les données structurées et les données non structurées.
 La plupart des données avec lesquelles les statisticiens travaillent

sont des données structurées :
 chaque ligne représente une observation et chaque colonne, une variable.
NB: Généralement lorsqu’on parle de données non structurées, on

fait référence à des images, du texte, des vidéos ou du son.
45
de données
2. Préparation des données: Inventaire des données
 Les données expérimentales
 Données internes
 Les données de sources officielles
 Les données de sondage
 Les données disponibles sur le web
 Les sources de données payantes
46
Les données expérimentales
 Ce sont des situations où les données sont prises dans des
conditions contrôlées et dans le but de répondre à une
question précise :
 confirmer ou infirmer une hypothèse.
 Fiables et de grande qualité.
 Les données provenant d’expériences randomisées sont les

seules qui peuvent permettre de conclure à un lien de
causalité.
47
Données internes
 Base de données des clients
 Listes de transactions
 Base de données des employés
 Information sur les visites web (Google analytics)
 Listes de clients potentiels
 Les données internes sont souvent faciles à obtenir et leur

niveau de fiabilité est connu,
 mais attention, elles ne sont pas aléatoires ni randomisées!
 Ainsi, on ne peut ni généraliser ni conclure à un lien de causalité.
48
Les données de sources officielles
 des sites gouvernementaux
 l’Institut de la statistique..
 Les données issues du recensement
49
Les données de sondage
 Un sondage bien réalisé est encore fiable et permet d’aller chercher une
information autrement difficile à obtenir (opinions, perceptions).
 Il y a deux problèmes avec les sondages:
1) les taux de réponse diminuent, ce qui entraîne aussi une diminution de la qualité
des données;
2) un sondage bien réalisé est coûteux et requiert une expertise spécifique.

50
Les données disponibles sur le web
 Une multitude de données sur le web;
 Il est rare que la qualité des données soit clairement

documentée.
 Il est donc nécessaire de faire des recherches et, parfois, de
remonter à la source de l’étude d’où proviennent les données
51
Les sources de données payantes
 Plusieurs entreprises offrent des bases de données

payantes
 Dans le domaine du marketing, par exemple, il existe des bases

de données contenant des profils de personnes qui servent à
cibler la publicité.
52
de données
 2. Préparation des données: La constitution de la base de
données
 Les données peuvent être emmagasinées de différentes

façons:
 Fichiers plats (contenant les données d’un tableau)
 BD Relationnelle
 Entrepôts pour données massives (type Hadoop)
53
de données
 2. Préparation des données: Exploration et traitement
préliminaire des données
 Valeurs extrêmes, aberrantes et influentes
 Vérifier les valeurs manquantes
 Transformer les variables
54
A savoir
 L’apprentissage supervisé,
 L’apprentissage non supervisé
 L’apprentissage renforcement
55
L’apprentissage supervisé, non supervisé et
par renforcement
1. Apprentissage supervisé
 La tâche est d’expliquer ou de prédire la valeur d’une certaine variable
réponse Y en fonction de variables explicatives X.
 On cherche à classifier, prédire, estimer.
 Mathématiquement, on s’intéresse à la distribution conditionnelle de Y|X
56
par renforcement
2. Apprentissage non supervisé
 On s’intéresse à identifier des relations, associations ou groupements significatifs.
 On s’intéresse à la distribution conjointe des X.
 Il n’y a pas de variable réponse.

 On cherche à faire des groupements (clustering), à segmenter ou à décrire
57
par renforcement
3. Apprentissage par renforcement
 l’apprentissage se fait par essai et erreur.
 Lors de l’entraînement de ce type de modèle, une réussite obtient une

récompense et, pour simplifier, le modèle cherche la solution qui maximise les
chances d’obtenir une récompense
58
Question de vocabulaire....
 La rencontre de plusieurs disciplines
59

Chapitre1-Introduction Analyse de Donne

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre1-Introduction Analyse de Donne

Transféré par

Droits d'auteur :

Formats disponibles

Analyse des données

 Objectif principal du cours

 Comprendre l'analyse de données

William Edwards Deming (1900 – 1993):

Sans données, vous êtes juste quelqu'un avec une opinion!

 Comprendre les enjeux et les défis dans notre société et

 Le data analyst : personne dont le travail consiste à examiner des

informations afin de tirer des conclusions ou aider à la prise de

Le data analyst travaille avec des données

Commence souvent par des lignes de

Il transforme ensuite ces enregistrements en

Les graphiques, des cartes et différents diagrammes sont souvent

 Créer des rapports, des requêtes et des feuilles de calcul

 Ajouter des données et des calculs

Deux finalités importantes pour un DA:

 Si l’équipe est multidisciplinaire alors il faut

 Tableur: Microsoft Excel…

 SGBDR: Microsoft Acces.SQL Server …

 Langage de programmation : python..

 Techniques de Machine learning

 Plateforme Big Data: Hadoop

 Certains rôles n’existent pas encore (Evolution avec laquelle

 Rôle généralement définit par l’organisation en fonction de

 Management des projets

 Exercice difficile mais essentiel !

 Apprendre à chercher des données

 Une couleur « bleu »

 Type de matériau « bois »

 Type de meuble « chaise »

 Q: Quelles sont les dimensions ?

 Coût et l’envoi de ce produit

 Commander, date de livraison

 Utiliser toute donnée utile

A quoi ressemblent les données ?

Pour un DA les données impliquent:

1. les types de données,

 Valeurs possibles pour le type [0,1] [vrai, faux],…

 La manière de stocker les données

 Quelques types classiques de données:

 Date et/ou heure : Date d’achat

 Booléen: oui /non ou vrai /faux

 Entêtes de champs (titres)

 Les valeurs de champs

 Données non stockées dans le

 Données calculées pour être utilisées

 Faire appel a des fonctions

 Formules et fonctions plus élaborées:

 Fusion : créer un seul champ pour le prénom et nom

 Les déclarations IF: retourner les valeurs selon les conditions

= IF(test logique, valeur si vrai, valeur si faux)

 Explorer les possibilités de conversion selon l’outil utilisé

 Exemple: si les données sont des chiffres sous format

 Détecter les observations de variables sans

 Choisir une solution adapté pour traiter les

 Il faut maitriser la syntaxe

 Syntaxe propre à chaque programme

La démarche pour apprendre la syntaxe:

1. Déterminer l’action souhaitée

2. Chercher dans le menu d’aide

3. Chercher dans un ouvrage de

4. Chercher dans un moteur de

1. Démarrer efficacement un projet d’analyse de données

Temps requis pour chaque étape selon Pyle (Pyle, Dorian.