Vous êtes sur la page 1sur 41

MODULE: ANALYSE DE

DONNEES
LICENCE II : MIAGE ET ASSRI
CM : 15 HEURES
TD : 15 HEURES
1 ENSEIGNANT : TALNAN HONGWOPENA EVRARD
2

CHAPITRE 1 : INTRODUCTION
INTRODUCTION
3

 Nous pouvons trouver des données dans toutes les


situations du monde qui nous entoure, dans tout ce qui
est structuré ou non, dans des conditions continues ou
discrètes, dans des relevés météorologiques, des
journaux boursiers, des albums photo, des listes de
lecture de musique ou dans notre compte Twitter.
 Les données peuvent être considérées comme la
matière première essentielle à tout type d'activité
humaine.
 Selon l'Oxford English Dictionary, les données sont "Faits
ou éléments connus utilisés comme base de déduction
ou de calcul“.
INTRODUCTION
4

L'analyse des données est le processus par lequel les données brutes
sont ordonnées et organisées pour être utilisées dans des méthodes qui
permettent d'évaluer et d'expliquer le passé et de prédire l'avenir.
L'analyse des données consiste à poser des questions, développer des
explications et tester des hypothèses sur la base de méthodes logiques
et analytiques.
Une bonne compréhension du domaine de connaissances donne
l'expertise et l'intuition nécessaires pour poser de bonnes questions.
L'analyse des données est utilisée dans presque tous les domaines, y
compris la finance, l'administration, les affaires, les médias sociaux, le
gouvernement, la médecine, l’agronomie, etc.
POURQUOI ANALYSONS-NOUS LES DONNÉES ?
5

 Il existe au moins trois motivations pour analyser des


données :
1. Comprendre ce qui s'est passé ou ce qui se passe ;

2. Prédire ce qui est susceptible de se produire, soit dans


le futur, soit dans d'autres circonstances que nous
n'avons pas encore vues ;

3. Nous guider dans la prise de décisions.


A QUOI CONSISTE L’ANALYSE DES DONNÉES ?
6

Résumer les informations provenant de différentes


sources pour faire émerger une théorie/des concepts
(perspective exploratoire) ;

Mettre à l’épreuve des faits ces théories, généraliser


et les adapter pour les rendre plus parcimonieuse
(perspective confirmatoire);

Construire, adapter, pré-tester, valider des


outils/interventions (programmes, questionnaires, tests,
etc.) en recherche méthodologique.
A QUOI CONSISTE L’ANALYSE DES DONNÉES ?
7

Exploiter des retours (p.ex., les feed-back du client,


audit interne, enquête de satisfaction) à dessein de
réajuster les services de l’entreprise;

Rendre compte à l’entreprise, par des indicateurs


quantitatifs et qualitatifs, de ses évolutions et des
points sur lesquels il serait encore intéressant de
travailler ;

etc.
LES ETAPES DE L’ANALYSE DE DONNEES
8

1. Comprendre le problème à résoudre


2. Définir les objectifs du projet
3. Rechercher les données nécessaires
4. Préparer ces données pour qu'elles puissent être
utilisées
5. Identifier des méthodes appropriées et choisir entre
celles-ci
6. Analyser et évaluer les résultats
7. Refaire les tâches de prétraitement et répéter les
expériences si nécessaire
LES TYPES DE QUESTIONS D'ANALYSE DE
9
DONNÉES

❑Inférentielle
❑Prédictive
❑Descriptive
❑Exploratoire
❑Causale
❑Corrélationnel
LES DIFFERENTS TYPES D’ANALYSE DE
10 DONNEES

Analyse descriptive : résumer ou condenser les


données pour en extraire des modèles (Analyse
Exploratoire).

Analyse prédictive : extraire des données des


modèles à utiliser pour des prédictions futures
(Analyse Confirmatoire).
QU'EST-CE QUE LES DONNÉES ?
11

Les données représentent un fait ou une déclaration


d'un événement sans relation avec d'autres
éléments.
Les formes de données : les pages Web, les capteurs,
les dispositifs, l'audio, la vidéo, les réseaux, les fichiers
journaux, les médias sociaux, les applications
transactionnelles, et bien plus encore.
Bien qu'elles soient généralement alphanumériques
(texte, chiffres et symboles), elles peuvent être
constituées d'images ou de sons.
DEFINITION DES DONNEES (SUITE.)
12

Les données n'ont aucune signification tant qu'elles


ne sont pas traitées.
Exemple :
Les transactions financières,
l'âge,
la température et
le nombre de pas entre votre maison et votre
université…
sont simplement des chiffres.
INFORMATION
13

L'information apparaît lorsque nous travaillons avec


ces chiffres et nous pouvons trouver de la valeur et du
sens.
L'information peut être considérée comme une
agrégation de données.
L'information a généralement un sens et un but.
L'information peut nous aider à prendre des décisions
plus facilement.
Après avoir traité les données, nous pouvons placer
l'information dans un contexte afin de lui donner un
sens approprié.
CONNAISSANCE
14

La connaissance est une information qui a un sens.


On peut parler de connaissance lorsque les données et
les informations se transforment en un ensemble de
règles pour aider les décisions.
En fait, nous ne pouvons pas stocker la connaissance
car elle implique la compréhension théorique ou
pratique d'un sujet. Le but ultime de la connaissance est
la création de valeur.
SOURCES DE DONNÉES
15

La source de données désigne l'ensemble de la


technologie liée à l'extraction et au stockage des
données.
Une source de données peut être n'importe quoi,
d'un simple fichier texte à une grande base de
données.
Les données brutes peuvent provenir des journaux
d'observation, des capteurs, des transactions ou
du comportement de l'utilisateur.
SOURCES DE DONNÉES
16

L'extraction de données nous permet d'obtenir des


données à partir de plusieurs sources de données, telles
que bases de données relationnelles, flux de données,
fichiers texte (JSON, CSV et XML) et bases de données
NoSQL.
Le chargement de données nous permet de charger des
données dans un format de destination, comme des
bases de données relationnelles, des fichiers texte (JSON,
CSV, XML) et des bases de données NoSQL.
ENSEMBLE DE DONNÉES
17

 Un ensemble de données représente une implémentation


logique d'une source de données ;
 Dans les données tabulaires, les données sont organisées en
lignes et en colonnes, où chaque colonne représente une
caractéristique des données et chaque ligne une occurrence
des données.
 Une colonne est appelée un attribut ou, dans le même sens,
une caractéristique (variable), tandis qu'une ligne est appelée
une instance ou, dans le même sens, un objet (observation).
EXEMPLE
18

Contact Age Niveau Compagnie


d’éducation
Adon Anne 41 4 Bonne
Marie
Boko Jean 24 3 Bonne

Brico Blanche 16 1 Mauvaise

Daouda 45 4 Bonne
François
Koffi Ericka 23 2 Bonne

Konan Marc 18 1 Mauvaise

Kouakou Brice 26 4 Bonne


ENSEMBLE DE DONNÉES
19

 Instance ou objet : Exemples du concept que nous voulons


caractériser.
 Exemple : nous avons l'intention de caractériser les
personnes qui se trouvent dans notre liste de contacts privés.
Chaque membre est, dans ce cas, une instance ou un objet.
Il correspond à une ligne du tableau.
 Attribut ou Caractéristique Les attributs, également appelés
caractéristiques, sont les caractéristiques des instances.
 Exemple : Le contact, l'âge, le niveau d'éducation et
l'entreprise sont quatre attributs différents
ENSEMBLE DE DONNEES (suite)
20

 Les ensembles de données représentés par plusieurs


tables, en précisant les relations entre ces tables, sont
appelés ensembles de données relationnelles.
 Ces informations sont facilement manipulées à l'aide de
bases de données relationnelles.
 Tableau Relations familiales entre les contacts.
Ami Père Mère Sœur

Konan Marc Daouda Adon Anne Brico Blanche


François Marie

Kouakou Brice Daouda Adon Anne Koffi Ericka


François Marie
ENSEMBLE DE DONNEES (suite)
21

 Dans notre exemple, les données sont divisées en deux


tableaux, l'un contenant les données individuelles de
chaque contact et l'autre contenant les données sur les
relations familiales entre eux.
LES CARACTÉRISTIQUES D’UN ENSEMBLE DE
22 DONNÉES

Caractéristiques de l'ensemble de données


(multivariées et univariées)
Nombre d'instances (individus)
Domaine (vie, entreprise, et bien d'autres)
Caractéristiques des attributs (réels, catégoriels et
nominaux)
Nombre d'attributs
Tâches associées (classification ou clustering)
Valeurs manquantes ? (oui ou non)
MÉTHODOLOGIE KDD
23
 Conçu pour être une méthodologie capable de gérer tous les
processus nécessaires à l'extraction de connaissances à partir
de données, le processus KDD propose une séquence de neuf
étapes:
1. Apprendre le domaine d'application : Qu'est-ce qui est
attendu en termes de domaine d'application ? Quelles sont
les caractéristiques du problème, ses spécificités ?
2. Créer un ensemble de données cible : Quelles sont les
données nécessaires pour le problème ? Quels sont les
attributs ? Comment seront-elles collectées et mises dans le
format souhaité (par exemple, un ensemble de données
tabulaires) ? Une fois le domaine d'application connu, l'équipe
d'analystes de données devrait être en mesure d'identifier les
données nécessaires à la réalisation du projet.
MÉTHODOLOGIE KDD
24

3. Apurement et prétraitement des données : Comment traiter


les valeurs manquantes et/ou les valeurs aberrantes telles que
les valeurs extrêmes ? Quel type de données doit-on choisir
pour chaque attribut ? Il est nécessaire de mettre les données
dans un format spécifique, tel qu'un format tabulaire.
4. Réduction et projection des données : Quelles
caractéristiques devons-nous inclure pour représenter les
données ? Parmi les caractéristiques disponibles, quelles sont
celles qui doivent être écartées ? Faut-il ajouter des
informations supplémentaires? Les attributs non pertinents
doivent être supprimés.
MÉTHODOLOGIE KKD
25

5. Choix de la méthode d'exploration de données : Quel type


de méthodes doit-on utiliser ? Il existe quatre types de
méthodes : la compression, le regroupement, la classification
et la régression. Les deux premières appartiennent à la
branche de l'analyse descriptive, tandis que les deux dernières
relèvent de l'analyse prédictive.
6. Choisir le ou les algorithmes d'exploration de données :
Compte tenu des caractéristiques du problème et des
caractéristiques des données, quelles sont les méthodes à
utiliser ? On s'attend à ce que des algorithmes spécifiques
soient sélectionnés.
MÉTHODOLOGIE KKD
26

7. L'exploration de données : Compte tenu des caractéristiques


du problème, des caractéristiques des données et du type de
méthode applicable, quelles sont les méthodes spécifiques à
utiliser ? Le choix de la méthode dépend de nombreux facteurs
différents : l'interprétabilité, la capacité à gérer les valeurs
manquantes, la capacité à traiter les valeurs aberrantes,
l'efficacité de calcul, etc., entre autres.
8. Interprétation : Quelle est la signification des résultats ? Quelle
est leur utilité pour l'utilisateur final ? L'objectif de cette étape
est de sélectionner les résultats utiles et de les évaluer en
fonction du domaine d'application. Il est fréquent de revenir à
une étape précédente lorsque les résultats ne sont pas aussi
bons que prévu.
MÉTHODOLOGIE KDD
27

9. Utilisation des connaissances découvertes : Comment


pouvons-nous appliquer les nouvelles connaissances dans la
pratique ? Comment les intégrer dans la vie quotidienne ? Cela
implique l'intégration de la nouvelle connaissance dans le
système opérationnel ou dans le système de rapportage.

Remarque: Dans la pratique, certains étapes peuvent être


regroupées. Par exemple, les étapes 3 et 4 peuvent être
regroupées avec les étapes 5 et 6.
LA MÉTHODOLOGIE CRISP-DM ( CROSS-INDUSTRY
28 STANDARD PROCESS FOR DATA MINING)
 Le CRISP-DM est une méthode en six étapes qui, comme le
processus KDD, utilise un cadre séquentiel non rigide:
1. Compréhension de l'activité : Il s'agit de comprendre le
domaine d'activité, être capable de définir le problème du
point de vue du domaine d'activité, et enfin, être capable de
traduire ces problèmes d'entreprise en un problème d'analyse
de données.
2. Compréhension des données : Cela implique la collecte des
données nécessaires et leur visualisation/synthèse initiale afin
d'obtenir les premières informations, en particulier mais pas
exclusivement, sur les problèmes de qualité des données tels
que les données manquantes ou les valeurs aberrantes.
LA MÉTHODOLOGIE CRISP-DM ( CROSS-INDUSTRY
29 STANDARD PROCESS FOR DATA MINING)

3. Préparation des données : il s'agit de préparer l'ensemble des


données pour l'outil de modélisation, et comprend la
transformation des données, la construction des
caractéristiques, la suppression des aberrations, le traitement
des données manquantes et la suppression des instances
(observations) incomplètes.
4. Modélisation : plusieurs méthodes peuvent être utilisées pour
résoudre le même problème dans l'analyse, souvent avec des
exigences de données spécifiques. Cela implique qu'il peut être
nécessaire d'effectuer des tâches supplémentaires de
préparation des données qui sont spécifiques à la méthode.
Dans ce cas, il est nécessaire de revenir à l'étape précédente.
LA MÉTHODOLOGIE CRISP-DM ( CROSS-INDUSTRY
30 STANDARD PROCESS FOR DATA MINING)

5. Évaluation : La résolution du problème du point de vue de


l'analyse des données n'est pas la fin du processus. Il faut
maintenant comprendre en quoi son utilisation est
significative du point de vue de l’entreprise; en d'autres
termes, que la solution obtenue répond aux besoins de
l'entreprise.
6. Déploiement : L'objectif principal de cette phase est
l'intégration de la solution d'analyse de données dans le
processus d'entreprise. En général, elle implique l'intégration
de la solution obtenue dans un outil d'aide à la décision, un
processus de rapportage ou autre.
QUELQUES LANGAGES DE L’ANALYSE DE
31 DONNÉES

Méthode ou technique : Une méthode ou une


technique est une procédure systématique qui
permet d'atteindre un objectif donné.
Une méthode montre comment effectuer une
tâche donnée. Mais pour utiliser un langage plus
proche de celui que les ordinateurs peuvent
comprendre, il faut décrire la méthode/technique
par un algorithme.
QUELQUES LANGAGES DE L’ANALYSE DE
32
DONNÉES
 Un algorithme est un ensemble d'instructions autonomes,
étape par étape, facilement compréhensibles par les
humains, permettant la mise en œuvre d'une méthode
donnée. Ils sont autonomes afin d'être facilement traduits
dans un langage de programmation arbitraire.
 Un algorithme peut également décrire des méthodes
prédictives. Dans ce dernier cas, il décrit comment générer
un modèle.
 Un modèle dans l'analyse de données est une généralisation
obtenue à partir de données qui peut être utilisée après
coup pour générer des prédictions pour de nouvelles
instances données. Il peut être considéré comme un
prototype qui peut être utilisé pour faire des prédictions.
EXEMPLES D'UTILISATION DES DONNÉES
33

 Le cancer du sein est un problème qui touche


principalement les femmes. La détection des tumeurs
mammaires peut être effectuée par une technique de
biopsie appelée aspiration à l'aiguille fine. Celle-ci utilise
une aiguille fine pour prélever des cellules de la masse
étudiée. Des échantillons de la masse mammaire obtenus
par aspiration à l'aiguille fine ont été enregistrés dans un
ensemble d'images. Ensuite, un ensemble de données a
été collecté en extrayant des caractéristiques de ces
images. L'objectif du premier problème est de détecter
différents modèles de tumeurs mammaires dans ce jeu de
données, afin de pouvoir l'utiliser à des fins de diagnostic.
EXEMPLES D'UTILISATION DES DONNÉES
34

 On peut s’intéresser à la prévision de la richesse


économique des entreprises ivoirienne.
 Pouvons-nous prédire quelles entreprises deviendront
insolvables au cours des cinq prochaines années ?
 La réponse à cette question est évidemment pertinente
pour les institutions et les actionnaires.
LES DONNÉES SECONDAIRES INTERNES
35

 Les données secondaires internes sont des données que les


entreprises ont compilées à diverses fins de rapport et
d'analyse.
 Une grande partie de ces données ont été collectées et
stockées car "on ne peut pas gérer ce que l'on ne mesure
pas".
 Les grandes entreprises ont mis en place des systèmes tels
que des systèmes de planification des ressources
d'entreprise, dans lesquels sont stockées de grandes
quantités de données sur les clients, les transactions et les
performances.
LES DONNÉES SECONDAIRES INTERNES
36

 En général, les données secondaires internes


comprennent les éléments suivants:
1. Les données Internet sont un terme fourre-tout qui
désigne les données stockées pour suivre le
comportement des personnes sur Internet.
 Ces données se composent de demandes de pages et
de sessions. Une demande de page correspond à une
personne qui clique sur un lien ou saisit une adresse
Internet spécifique.
 Une session est une série de ces demandes et est souvent
identifiée par le numéro IP, une adresse spécifique qui
identifie de manière unique le récepteur pendant une
période de temps, ou au moyen d'un cookie de suivi.
LES DONNÉES SECONDAIRES INTERNES
37

 Grâce à ces informations, les analystes peuvent calculer


quand et pourquoi les gens passent d'une page à l'autre.
 Le taux de conversion est un type d'information spécifique,
à savoir le rapport entre le nombre d'achats effectués sur
un site web et le nombre de visiteurs uniques, qui intéresse
souvent les entreprises.
 Facebook, Instagram et LinkedIn, fournissent des
informations précieuses sous la forme de profils de réseaux
sociaux, qui comprennent des détails et des informations
personnelles. Ces données de réseaux sociaux reflètent la
façon dont les gens aimeraient être perçus par les autres
et, et indiquent donc les intentions des consommateurs.
EXEMPLE
38

 Les groupes d'utilisateurs liés à un produit ou à une entreprise


sont d'un intérêt particulier pour les études de marché.
 Exemple : les commentaires postés sur un groupe Facebook tel
que celui de BMW ou Heineken. Une analyse des messages
permet de comprendre comment les gens perçoivent ces
marques.
 L'interprétation de ces messages passe généralement par
l'analyse de cinq éléments : l'agent (qui poste ?), l'acte (ce qui
s'est passé, c'est-à-dire, à quel aspect se réfère le post ?
l'agence (quel média est utilisé pour réaliser l'action ?), scène
(quelle est la situation de fond ?) et le but (pourquoi les agents
agissent-ils ?).
LES DONNÉES SECONDAIRES INTERNES
39

 l'analyse des médias sociaux utilise de nouvelles


approches et méthodes d'analyse des données. Il s'agit
notamment de
1. L'exploration de texte pour dériver des informations de
haute qualité à partir de textes,
2. L'analyse des réseaux sociaux pour étudier la structure
des relations entre les personnes, les organisations ou les
institutions dans les réseaux sociaux, et
3. L'analyse des tendances pour prédire les sujets
émergents, par exemple dans les tweets de Twitter ou les
messages de Facebook (Stieglitz et al.).
LES DONNÉES SECONDAIRES INTERNES
40

 Les réseaux sociaux fournissent également des


informations quantitatives.
 Exemple : l'outil Ad Manager de Facebook fournit des
informations sur l'efficacité de la publicité sur Facebook,
notamment sur des mesures, telles que le taux de clics, et
sur des données démographiques, telles que le sexe ou la
localisation.
QUELQUES LOGICIELS UTILISES POUR
41
L’ANALYSE DE DONNEES
R
 STATA
 PYTHON
 EXCEL VBA
 GAUSS
 ANACONDA
 POWER BI
 SAS
 SONAL,
 SPAD; ETC.

Vous aimerez peut-être aussi