Vous êtes sur la page 1sur 59

Analyse des données

Manel SEKMA
sekma.manel@gmail.com AU 2023-2024

1
Chapitre 1: Introduction
Part1:Découvrir l'analyse de données
 Bibliographie
• Pyle, Dorian. 1999. Data Preparation for Data Mining. morgan kaufmann.

 Objectif principal du cours


• Comprendre le domaine d’analyse de données et découvrir le rôle et les compétences
d'un « data analyst »

 Organisation
• 30 h Cours (1:30 h/semaine)
• 15h TP (1:30h/ par semaine)

2
Introduction
Part1:Découvrir l'analyse de données

 Comprendre l'analyse de données


 Définir le métier de « data analyst »
 Découvrir le rôle et les compétences d'un « data
analyst »
 Principes fondamentaux pour l’analyse de données

3
Comprendre l'analyse de données
 Analyse
 Données

4
Pourquoi les données ?

William Edwards Deming (1900 – 1993):

Sans données, vous êtes juste quelqu'un avec une opinion!

5
Pourquoi analyser ?

 Comprendre les enjeux et les défis dans notre société et


prendre des décisions stratégiques
 Analyses pertinentes

6
Processus de l’analyse de données

Prise de
Inspection Nettoyage Transformation Modélisation
décision

7
Définir le métier de « data analyst »

 Le data analyst : personne dont le travail consiste à examiner des

informations afin de tirer des conclusions ou aider à la prise de

décision.

8
Définir le métier de « data analyst »

Le data analyst travaille avec des données


sous toutes leurs formes et avec des outils
aussi variés que les données rencontrées

9
Définir le métier de « data analyst »
Le data analyst:

Commence souvent par des lignes de


données dans les bases de données, des
feuilles de calcul ou même des fichiers
CSV

Il transforme ensuite ces enregistrements en


résultats plus significatifs à interpréter par les autres

10
Définir le métier de « data analyst »

Les graphiques, des cartes et différents diagrammes sont souvent


produits par le data analyst en vue de visualiser de l’information

11
Rôle de « data analyst »

 Créer des rapports, des requêtes et des feuilles de calcul


 Améliorer les processus à l’aide des données
 Concevoir des modèles intéressants à partir des données

12
Rôle de « data analyst »
1.Nettoyer les données

 Ajouter des données et des calculs


 Modifier la structure des données pour créer des
rapports, des graphiques et des analyses plus fiables (ne
garder que les données intéressantes)

NB: par nettoyage de données, ne signifie pas changer les valeurs des données!
 remodeler celles-ci pour qu’elles soient plus pertinentes dans le cadre de notre
étude.
 Exemples:
• séparer les noms et les prénoms pour effectuer un tri,
• ou encore ajouter des calculs inexistants
• ou supprimer des colonnes inutiles
13
Rôle de « data analyst »
2.Visualiser les données
 Réceptionner des données
 Construire des outils d’aide à la décision (Graphiques,
diagrammes, rapports)

Deux finalités importantes pour un DA:


 Relever et éliminer très rapidement une données
aberrante
 Visualiser permet d’améliorer la manière d’interpréter
nos données
14
Data analyst et équipe de la data science
 Un Data analyste est un élément clé de toute équipe de la data
science

 Si l’équipe est multidisciplinaire alors il faut


définir les rôles de chacun pour une meilleure
complémentarité et une meilleur synergie pour
plus d’efficacité et un meilleur rendu

15
Data analyst et équipe de la data science
Construire une équipe
 Une équipe peut être composée de:
 Data analyst
 Chercheurs
 Statisticiens
 Développeurs
 …..
 Chacun avec des compétences communes à toute d’équipe
+
 Des compétences spécifiques qui le distinguent

16
Data analyst et équipe de la data science
Compétences clé d’un Data analyst
 Connaissances en statistiques / algèbre linéaire

 Tableur: Microsoft Excel…

 SGBDR: Microsoft Acces.SQL Server …

 Langage de programmation : python..

 Techniques de Machine learning

 Plateforme Big Data: Hadoop

17
Data analyst et équipe de la data science
Définition des rôles
 Il existe petits et grands rôles en Data science

 Certains rôles n’existent pas encore (Evolution avec laquelle


les besoins évoluent)

 Rôle généralement définit par l’organisation en fonction de


ses besoins évolutifs

18
Data analyst et équipe de la data science
Quelques rôles d’un data analyst
 Recherche

 Analyse

 Gouvernance de données

 Data sciences

 Management des projets

19
Principes fondamentaux pour l’analyse de
données
 Identifier les données
 Comprendre les champs et les types de données
 Organiser les données
 Connaître la syntaxe

20
Principes fondamentaux pour l’analyse de
données
Identifier les données

 Exercice difficile mais essentiel !

 Apprendre à chercher des données

21
Identifier les données Exemple
Pouvez vous voir des données?

 Une couleur « bleu »

 Type de matériau « bois »

 Type de meuble « chaise »

22
Identifier les données Exemple
Aller très loin en tant que DA !

 Q: Quelles sont les dimensions ?


Largeur=40cm, hauteur=91cm,
poids=4,5kg

 Coût et l’envoi de ce produit

Fournisseurs, Localisations de
fournisseurs , fréquence
approvisionnement

 Commander, date de livraison

……..
23
Identifier les données

 Utiliser toute donnée utile


 Valoriser toute donnée utile

24
Comprendre les champs et les types de
données

A quoi ressemblent les données ?

Pour un DA les données impliquent:

1. les types de données,

2. des champs

3. des valeurs

25
Comprendre les champs et les types de
données
Type de données

 Valeurs possibles pour le type [0,1] [vrai, faux],…

 La manière de stocker les données

 Quelques types classiques de données:


 Texte ou chaine de caractère : Prénom

 Date et/ou heure : Date d’achat

 Nombre : quantité

 Booléen: oui /non ou vrai /faux

26
Comprendre les champs et les types de
données
Type de données

 Entêtes de champs (titres)

 Les valeurs de champs

 Types de données

27
Comprendre les champs et les types de
données
Type de données -- Exemple

Entêtes de champs

Les valeurs de
champs

Des enregistrements
 Un enregistrement : ensembles de champs dans une base de données lié à une seule entité !

28
Organiser les données

 Données non stockées dans le


système

 Données calculées pour être utilisées


dans des rapports finaux.
 ….

 Faire appel a des fonctions

29
Organiser les données
1.Types de fonctions
 Classique: addition, multiplication, soustraction et division

 Formules et fonctions plus élaborées:


 Concaténation: lier des champs ensembles pour créer un seul
champ

 Fusion : créer un seul champ pour le prénom et nom

 Les déclarations IF: retourner les valeurs selon les conditions

30
Types de fonctions
Exemple de déclaration avec IF

= IF(test logique, valeur si vrai, valeur si faux)

31
Organiser les données
2. Conversion de données
 Convertir au format souhaité

 Explorer les possibilités de conversion selon l’outil utilisé

 Exemple: si les données sont des chiffres sous format


texte or besoin de réaliser des calcules  convertir en
nombres

32
Organiser les données
Quelques conversion de données
 Conversion de dates
 Conversion de monnaies

33
Organiser les données
3. Données manquantes

 Détecter les observations de variables sans


valeur
 Etudier l’impact des données manquantes;
 Significatif

 Non significatif

 Choisir une solution adapté pour traiter les


données manquantes

34
Connaître la syntaxe
 Définir ce qu'est la syntaxe ?
 La syntaxe fait référence à l'orthographe et la grammaire
d'un langage de programmation

 Il faut maitriser la syntaxe

 Syntaxe propre à chaque programme

35
Connaître la syntaxe

La démarche pour apprendre la syntaxe:

1. Déterminer l’action souhaitée

2. Chercher dans le menu d’aide

3. Chercher dans un ouvrage de


référence

4. Chercher dans un moteur de


recherche

36
Connaître la syntaxe – Exemple avec excel (1)

37
Connaître la syntaxe – Exemple avec excel (2)

38
Introduction
Part2:Projet d’analyse de données

1. Démarrer efficacement un projet d’analyse de données


2. L’apprentissage supervisé, non supervisé et par
renforcement

39
Démarrer efficacement un projet d’analyse
de données
Les étapes d’un projet d’analyse de données
1) Définition des objectifs
2) Données
 Inventaire des données
 Constitution de la base de données
 Exploration et préparation des données
3) Élaboration et validation des modèles
4) Documentation et présentation
5) Mise en œuvre
6) Suivi de la performance et amélioration

40
Démarrer efficacement un projet d’analyse
de données

Temps requis pour chaque étape selon Pyle (Pyle, Dorian.


1999. Data Preparation for Data Mining. morgan kaufmann.)

41
Démarrer efficacement un projet d’analyse
de données
1.Identifier le problème
 souvent l’étape la plus difficile

 Objectif clair
 par exemple, la détection de la fraude dans le domaine de l’assurance

 Objectif est flou


 par exemple, on nous fourni une base de données avec des informations sur la
clientèle et on nous demande de l’exploiter de façon à améliorer l’expérience
client.

42
Démarrer efficacement un projet d’analyse
de données
1.Identifier le problème

 Bien définir les objectifs est une compétence qui s’acquiert


généralement avec de l’expérience.

 nécessite une bonne compréhension des modèles, des


données et du domaine d’application.

43
Démarrer efficacement un projet d’analyse
de données
2. Préparation des données

 La préparation des données, est souvent de l’étape la plus


longue d’un projet
 Simple ou complexe  relative aux domaines et objectifs

44
Démarrer efficacement un projet d’analyse
de données
2. Préparation des données :

 les données structurées et les données non structurées.

 La plupart des données avec lesquelles les statisticiens travaillent


sont des données structurées :
 chaque ligne représente une observation et chaque colonne, une variable.

NB: Généralement lorsqu’on parle de données non structurées, on


fait référence à des images, du texte, des vidéos ou du son.

45
Démarrer efficacement un projet d’analyse
de données
2. Préparation des données: Inventaire des données

 Les données expérimentales

 Données internes

 Les données de sources officielles

 Les données de sondage

 Les données disponibles sur le web

 Les sources de données payantes

46
Les données expérimentales
 Ce sont des situations où les données sont prises dans des
conditions contrôlées et dans le but de répondre à une
question précise :
 confirmer ou infirmer une hypothèse.

 Fiables et de grande qualité.

 Les données provenant d’expériences randomisées sont les


seules qui peuvent permettre de conclure à un lien de
causalité.

47
Données internes
 Base de données des clients
 Listes de transactions
 Base de données des employés
 Information sur les visites web (Google analytics)
 Listes de clients potentiels

 Les données internes sont souvent faciles à obtenir et leur


niveau de fiabilité est connu,
 mais attention, elles ne sont pas aléatoires ni randomisées!
 Ainsi, on ne peut ni généraliser ni conclure à un lien de causalité.

48
Les données de sources officielles
 des sites gouvernementaux
 l’Institut de la statistique..

 Les données issues du recensement

49
Les données de sondage
 Un sondage bien réalisé est encore fiable et permet d’aller chercher une
information autrement difficile à obtenir (opinions, perceptions).

 Il y a deux problèmes avec les sondages:

1) les taux de réponse diminuent, ce qui entraîne aussi une diminution de la qualité

des données;

2) un sondage bien réalisé est coûteux et requiert une expertise spécifique.


50
Les données disponibles sur le web
 Une multitude de données sur le web;

 Il est rare que la qualité des données soit clairement


documentée.
 Il est donc nécessaire de faire des recherches et, parfois, de
remonter à la source de l’étude d’où proviennent les données

51
Les sources de données payantes

 Plusieurs entreprises offrent des bases de données


payantes

 Dans le domaine du marketing, par exemple, il existe des bases


de données contenant des profils de personnes qui servent à
cibler la publicité.

52
Démarrer efficacement un projet d’analyse
de données
 2. Préparation des données: La constitution de la base de
données

 Les données peuvent être emmagasinées de différentes


façons:

 Fichiers plats (contenant les données d’un tableau)

 BD Relationnelle

 Entrepôts pour données massives (type Hadoop)

53
Démarrer efficacement un projet d’analyse
de données
 2. Préparation des données: Exploration et traitement
préliminaire des données

 Valeurs extrêmes, aberrantes et influentes

 Vérifier les valeurs manquantes

 Transformer les variables

54
A savoir

 L’apprentissage supervisé,
 L’apprentissage non supervisé
 L’apprentissage renforcement

55
L’apprentissage supervisé, non supervisé et
par renforcement
1. Apprentissage supervisé
 La tâche est d’expliquer ou de prédire la valeur d’une certaine variable
réponse Y en fonction de variables explicatives X.
 On cherche à classifier, prédire, estimer.

 Mathématiquement, on s’intéresse à la distribution conditionnelle de Y|X

56
L’apprentissage supervisé, non supervisé et
par renforcement
2. Apprentissage non supervisé
 On s’intéresse à identifier des relations, associations ou groupements significatifs.
 On s’intéresse à la distribution conjointe des X.

 Il n’y a pas de variable réponse.


 On cherche à faire des groupements (clustering), à segmenter ou à décrire

57
L’apprentissage supervisé, non supervisé et
par renforcement
3. Apprentissage par renforcement
 l’apprentissage se fait par essai et erreur.

 Lors de l’entraînement de ce type de modèle, une réussite obtient une


récompense et, pour simplifier, le modèle cherche la solution qui maximise les
chances d’obtenir une récompense
58
Question de vocabulaire....
 La rencontre de plusieurs disciplines

59

Vous aimerez peut-être aussi