Vous êtes sur la page 1sur 51

Analyse de données

Master en Management Digital et Système


d’Information (MDSI)
Bobet Goualo Victorien
Consultant DATA et Enseignant-Chercheur à l’ESATIC
victorien.bobet@esatic.edu.ci
Présentation du formateur (Parcours Professionnels)

LUMEN SEJEN CI ORANGE N-SOCITECH G-VIVA


CORPORATION CI SERVICES
Administrateur BD, BI,
Big Data, Data Scientist
& Avant-Vente
Présentation du formateur (Parcours Académiques)

Ingénierie de Conception en Executive Master in Big Data &


Administrateur BD, BI, Big Data, Informatique Data Science
Data Scientist & Avant-Vente
Présentation du formateur (Parcours Certifiants)

Concevez des architectures Big Data, Oracle Database 19c Overview for Transformation Digitale
Administrateur BD, BI, Créez un Data Lake, Maîtrisez les Sales, Oracle Big Data and Data des entreprises
Big Data, Data Scientist bases de données NoSQL Science Overview
& Avant-Vente
Dans quel univers serions nous plongez?
BIG DATA :
Données massives (Volume, Variété, Vélocité, Véracité et Valeur) ou 5 V;
Plateforme de données de tout type centralisées (Data Lake);
Ecosystème (un ensemble de matérielles et logicielles : par exemple Hadoop).

DATA SCIENCE :
Combinaison de techniques avec des méthodes scientifiques pour résoudre des problèmes business;
Analyses Mathématiques + Capacités informatiques avancées + Métiers

ANALYTICS :
Processus d'identification de modèles dans les données. Elle utilise la statistique, la recherche
opérationnelle et d'autres outils mathématiques pour donner un sens aux informations générées ou
collectées par les organisations
Prérequis au cours
Algèbre linéaire
Matrices
Valeurs et vecteurs propres
Métriques (distance entre deux points de l’espace vectoriel, produit scalaire).
Statistique descriptive
Population
Recensement
Variables
Travaux Pratiques 0
Algèbre linéaire
𝑓 𝑥 = 𝑏 ⟺ 𝑥 = 𝑓 −1 𝑓 𝑥 = 𝑓 −1 𝑏 ⟺ 𝐼𝑑𝐸 𝑥 = 𝑥 = 𝑓 −1 (𝑏)

Sous forme matricielle : 𝐴𝑋 = 𝑏 ⟺ 𝑋 = 𝐴−1 𝐴𝑋 = 𝐴−1 𝑏 ⟺ 𝐼𝑛 𝑋 = 𝐴−1 𝑏

2 −1 1 𝑎11 = 2 𝑎12 = −1 𝑥 𝑏1 = 1
Résoudre 𝑋= autrement 𝑦 = 𝑏2 = 0
0 1 0 𝑎21 = 0 𝑎22 = 1
𝑥
Que vaut X ? Autrement 𝑦 ?
Travaux Pratiques 0
Algèbre linéaire
𝑓 𝑥 = 𝑏 ⟺ 𝑥 = 𝑓 −1 𝑓 𝑥 = 𝑓 −1 𝑏 ⟺ 𝐼𝑑𝐸 𝑥 = 𝑥 = 𝑓 −1 (𝑏)

Sous forme matricielle : 𝐴𝑋 = 𝑏 ⟺ 𝑋 = 𝐴−1 𝐴𝑋 = 𝐴−1 𝑏 ⟺ 𝐼𝑛 𝑋 = 𝐴−1 𝑏

2 −1 1 𝑎11 = 2 𝑎12 = −1 𝑥 𝑏1 = 1
Résoudre 𝑋= autrement 𝑦 =
0 1 0 𝑎21 = 0 𝑎22 = 1 𝑏2 = 0
𝑥
Que vaut X ? Autrement 𝑦 ?
A <- matrix(c(2, 0, -1, 1), 2, 2) : enregistrement de la matrice A de format 2,2
b <- c(1, 0) : enregistrement du second membre de l’équation
solve(A, b) : fonction de résolution de l’équation qui donne X
Travaux Pratiques 0
Statistique descriptive
Plan du cours (12H : 4 séances de 3H)
Analyse de données
Données (ou Data)
Analyse de données et rôle d’un analyste de données (Data Analyst)
Impact de l’analyse de données sur les entreprises
Défis et opportunités
Techniques et outils d’analyse de données

Analyse factorielle
ACP
AFC
ACM

Classification non supervisée ou clustering


Méthode Hiérarchique (CAH,CDH)
Méthode par partitionnement (K-means)

Visualisation

Analyse de données

Selon Webster, les données sont définies comme un ensemble de faits, d’observations
ou d’autres informations liées à une question ou un problème particulier. Les données
peuvent être structurées ou non structurées.
Les données structurées
Ce sont des informations avec un haut degré d’organisation qui pourraient être
incluses dans des bases de données ou des feuilles de calcul et sont facilement
consultables par de simples algorithmes de moteur de recherche.
Exemples de données structurées : les réponses d’un questionnaire d’enquêtes
(Google Forms), les données dans les bases de données relationnelles.
Analyse de données

Les données non structurées


Ce sont l’opposé des données structurées et sont généralement lourdes en texte, bien
qu’elles puissent également contenir des vidéos, des données ou des chiffres et des
faits.
Semi-structurées : CSV, Logs, XML, JSON
Non-structurées : E-mail, PDF, Tweets, images, audios, vidéos
Analyse de données
Analyse de données
L’analyse de données (ou analyse exploratoire des données) est la science d’examiner des données
brutes afin de tirer des conclusions sur les informations. C’est un domaine passionnant qui a un impact
considérable sur la façon dont les organisations de nombreuses industries prennent des décisions. Elle
est regroupée en deux grandes familles : les méthodes prédictives et les méthodes descriptives.
Rôle d’un analyste de données (Data Analyst)
Le rôle d’analyste de données implique des activités appropriées de collecte et d’interprétation des
données. Un analyste s’assure que les données collectées sont pertinentes et exhaustives tout en
interprétant également les résultats de l’analyse. Certaines entreprises, comme IBM ou HP, exigent
également que les analystes de données possèdent des compétentes en visualisation pour convertir des
nombres aliénants en informations tangibles par le biais de graphiques.
Compétences préférées : R, Python, JavaScript, C/C++, SQL
Analyse de données

3 impacts clés sur les entreprises :


❑Les données permettent de nouveaux produits et services, créant des marchés qui
n’existaient pas auparavant et apportant de nouvelles capacités aux marchés
existants;
❑Il y a une perturbation des marchés existants avec des nouveaux arrivants qui
détruisent les entreprises traditionnellement sécurisées;
❑Les données et les analyses améliorent l’efficacité.
Analyse de données

En bref, les données permettent aux organisations d’identifier les opportunités de


croissance, de stimuler l’innovation, de fonctionner plus efficacement et de gérer les
risques de nouvelles manières.
Analyse de données

Les organisations devront utiliser les données et l’analyse pour rester compétitives.
Rappelons que les organisations ont toujours utilisé les données sous une forme ou
une autre pour éclairer leurs décisions.
Aujourd’hui le volume, la variété et la vitesse à laquelle les données arrivent
présentent d’énormes défis.
Analyse de données

Analyse de données traditionnelle


❑Identifier un problème ou une opportunité commerciale;
❑Collecter des données;
❑Utiliser des feuilles de calcul (Excel) ou des logiciels pour comprendre.
Analyse de données

Analyse de données moderne


❑Le volume de d’informations est trop élevé et le délai trop court;
❑Utiliser l’analyse des données pour obtenir une image plus claire des entreprises;
❑Utiliser de nouvelles technologies telles que la visualisation des données (permet de
changer la vitesse et la sophistication de la prise de décision).
Analyse de données
Il existe différentes techniques d’analyses que l’on peut effectuer en fonction du
problème ou de l’opportunité commerciale identifiés. Ainsi vous développez une
hypothèse et collecté des données pertinentes.
L’extension de plus en plus des capacités de traitement des machines a ouvert la porte
à un large éventail d’algorithmes et techniques de modélisation avancés que les
organisations peuvent utiliser pour produire des informations précieuses à partir des
données.
Analyse de données
Analyse par grappes
Analyse de l’arbre de décisions
Analyse factorielle
Machine Learning
Analyse de régression
Analyse multivariée
Analyse de segmentation
Analyse des séries chronologiques

Analyse de données
Analyse par grappes
L’analyse par grappes (ou analyse de cluster) consiste à regrouper un ensemble
d’objets de manière à ce que les objets du même groupe ou cluster soient plus
similaires les uns aux autres que ceux d’autres clusters.
L’analyse de grappes est souvent utilisée dans les études de marché lorsque vous
travaillez avec des données de groupes de discussion et d’enquêtes. Elle peut être
utilisée pour segmenter une population de consommateurs en groupes de marché
afin de mieux comprendre les relations entre les différents groupes de
consommateurs. Cette analyse peut aider à répondre à des questions telles que, qui
sont mes clients cibles ? Comment sont-ils différenciés sur les caractéristiques
comportementales, psychographiques et démographiques ? Y a-t-il des groupes qui
ont des attributs similaires afin que les produits, services, offres de prix puissent être
utilisés pour personnaliser les segments ?
Analyse de données
Analyse factorielle
L’analyse factorielle aide à identifier un sous-ensemble réduit de variables, ce qui signifie
que certaines de ces variables représentent des relations similaires à celles qui ne sont pas
incluses, mais peut-être d’une manière plus forte.
Machine Learning
C’est un type d’intelligence artificielle qui fournit aux ordinateurs la possibilité d’apprendre
sans être explicitement programmé pour le faire.
Prenons par exemple une entreprise qui essaie de prédire ce que ses clients vont acheter au
printemps prochain. Les algorithmes de Machine Learning peuvent déterminer la
disponibilité des matériaux auprès de fournisseurs externes, incorporer divers scénarios de
chaîne d’approvisionnement. Et recommander la quantité, le prix, le placement en rayon et
le canal de marketing qui atteindraient le mieux le consommateur cible dans une zone
géographique particulière.
Analyse factorielle
L’analyse factorielle permet de réduire le nombre de variables en les résumant par un
petit nombre de composantes synthétiques.
Nous avons deux types de méthodes factorielles :
• analyse en composantes principales : variables numériques (ou quantitatives);
• analyse des correspondances : variables qualitatives.
Variable : ensemble de caractéristiques d’une population.

o quantitatives : nombres sur lesquels les opérations usuelles (somme, moyenne, …) ont un sens; elles
peuvent être discrètes (ex: nombre d’éléments dans un ensemble) ou continues (ex: prix, taille);

o qualitatives : appartenance à une catégorie donné; elles peuvent être nominales (ex: sexe, CSP) ou
ordinales quand les catégories sont ordonnées (ex : très résistant, assez résistant, peu résistant).
Analyse factorielle
:
But : Il s’agit ici de projeter le nuage de points sur un espace 𝐸 𝑘 de dimension 𝑘 < 𝑝.
Autrement la projection sur un sous espace de 𝐸 𝑝 ou encore définir de nouvelles
variables combinaisons linéaires des variables initiales qui feront perdre le moins
d’information possible.

Ces nouvelles variables sont appelées « composantes principales »


Les axes qu’elles déterminent « axes principaux »
Les formes linéaires associées « facteurs principaux »
Analyse factorielle
:
Une autre manière de voir l’ACP :
L’ACP permet d’explorer les liaisons entre variables et les ressemblances entre
individus.
Pour quels objectifs ?
➢Visualisation des individus ( référence à la notion de distances entre individus)
➢Visualisation des variables (en fonction de leurs corrélations)
Analyse factorielle
:
Un exemple pour mieux comprendre le coefficient de corrélation
Soit 4 variables numériques avec 30 individus. Nous obtenons le graphique suivant :

Quelles relations entre x1


et x2 ? entre x1 et x3 ?
entre x2 et x4 ?
Analyse factorielle
:
Un exemple pour mieux comprendre le coefficient de corrélation
Soit 4 variables numériques avec 30 individus. Nous obtenons le graphique suivant :

Les variables x1 et x2
indépendantes.

Les variables x1 et x3 ont


une relation linéaire.

Les variables x2 et x4 ont


une relation non linéaire.
Analyse factorielle
:
Les étapes d’une ACP par la pratique
1) Importer le jeu de données
2) Choisir les variables et les individus actifs
3) Standardiser ou non les variables
4) Choisir le nombre d’axes
5) Analyser les résultats
6) Décrire de façon automatique les principales dimensions de variabilité
7) Retour aux données brutes
Analyse factorielle
But : Il s’agit ici de décrire la liaison entre deux variables qualitatives.
Par exemple : on peut regarder la répartition

Les étapes d’une AFC par la pratique


1) Importer le jeu de données
2) Choisir les lignes et les colonnes actives
3) Réaliser l’AFC
4) Choisir le nombre d’axes
5) Visualiser les résultats
Analyse factorielle

But : Etendre l’AFC au cas de 𝑝 ≥ 2 variables 𝜒1 , 𝜒2 … ,𝜒𝑝 à 𝑚1 , 𝑚2 … ,𝑚𝑝 modalités.

Les étapes d’une ACM par la pratique


1) Importer le jeu de données
2) Choisir les variables et les individus actifs
3) Choisir le nombre d’axes
4) Analyser les résultats
5) Décrire de façon automatique les principales dimensions de variabilité
6) Retour aux données brutes par des tableaux croisés
Classification non supervisée ou clustering
La classification non supervisée (ou clustering en anglais) est un processus qui permet de
trouver des groupes d’objets (appelés, clusters) en fonction des variables ou des attributs qui
les décrivent.
Le clustering a pour objectif de regrouper dans un même cluster les objets jugés similaires
selon une certaine métrique de similarité (homogénéité intra-classe) et séparer les objets
dissimilaires dans des clusters distincts (hétérogénéité inter-classe).
Domaines d’application du clustering
❖En médecine pour découvrir les classes de patients qui présentent des caractéristiques
communes afin de détecter les patients atteints d’une même maladie.
❖En marketing pour l’identification des clients ayant des comportements d’achat similaires
afin d’établir des profils de clients et identifier les tendances.
Classification non supervisée ou clustering

Préparation des données : étape indispensable qui consiste à filtrer, formatter et


représenter ces données afin de ne retenir que les paramètres de description les plus
discriminants.
Choix de l’algorithme : dépend de l’application du contexte dans lequel les clusters
sont créés et de la nature des données étudiées. Par exemple, si le problème est de
réduire la taille d’un jeu de données, le meilleur schéma sera celui qui minimise la
perte d’informations.
Validation et interprétation des résultats : dépend d’une bonne préparation des
données, déterminer si les clusters générés sont exploitables en utilisant un ensemble
de critères permettant de déterminer la qualité des clusters obtenus.
Classification non supervisée ou clustering

Le fondement du clustering hiérarchique est de construire une hiérarchie de clusters ou


autrement dit, un arbre de clusters, connu aussi sous le nom de dendrogramme.
Classification Ascendant Hiérarchique(CAH) : agglomérative ou Bottom up en anglais
Construit l’arbre du bas vers le haut en démarrant avec autant de clusters que d’objets initiaux
dans la base, puis fusionnant successivement les clusters considérés comme les plus
similaires, jusqu’à obtenir un unique cluster racine, contenant l’ensemble des objets.
Classification Descendante Hiérarchique(CDH) : divisive ou Top down en anglais
Construit l’arbre du haut vers le bas en démarrant avec un unique cluster contenant
l’ensemble des objets de la base, puis divisant successivement les clusters de manière à ce
que les clusters résultants soient les plus différents possibles, et ce jusqu’à obtenir des
singletons (autant de clusters que d’objets dans la base).
Classification non supervisée ou clustering
: exemple de dendrogramme
Classification non supervisée ou clustering
: les différents critères d’agrégation ou du lien
Ces critères sont utilisés couramment pour calculer la distance entre deux clusters.
Le critère du saut minimal
𝐷 𝐶1 , 𝐶2 = min 𝑑 𝑥, 𝑦 , 𝑥 ∈ 𝐶1 , 𝑦 ∈ 𝐶2
La distance entre deux clusters est le minimum des distances entre toutes les paires
d’objets appartenant à ces deux clusters différents. Autrement dit, la distance entre
deux clusters 𝐶1 et 𝐶2 est définie par la plus courte distance séparant un objet de 𝐶1 et
un objet de 𝐶2
Classification non supervisée ou clustering
: les différents critères d’agrégation ou du lien
Le critère du saut maximal
𝐷 𝐶1 , 𝐶2 = m𝑎𝑥 𝑑 𝑥, 𝑦 , 𝑥 ∈ 𝐶1 , 𝑦 ∈ 𝐶2
La distance entre deux clusters est le maximum des distances entre toutes les paires
d’objets appartenant à ces deux clusters différents. Autrement dit, la distance entre
deux clusters 𝐶1 et 𝐶2 est définie par la plus grande distance séparant un objet de 𝐶1
et un objet de 𝐶2
Classification non supervisée ou clustering
: les différents critères d’agrégation ou du lien
Le critère de la moyenne
1
𝐷 𝐶1 , 𝐶2 = ෍ ෍ 𝑑 𝑥, 𝑦 .
|𝐶1 | ∗ |𝐶2 |
𝑥∈𝐶1 𝑦∈𝐶2

Ce critère consiste à calculer la distance moyenne entre tous les objets du cluster
𝐶1 et tous les éléments de 𝐶2 .
Classification non supervisée ou clustering
: les différents critères d’agrégation ou du lien
Le critère de Ward, le plus utilisé
𝐶1 ∗ 𝐶2 2
𝐷 𝐶1 , 𝐶2 = 𝑑 𝑔𝑐1 , 𝑔𝑐2 ;
𝐶1 + 𝐶2
Avec 𝑔𝑐1 le centre de gravité du cluster 𝐶1 et 𝑔𝑐2 le centre de gravité du cluster 𝐶2 .
Le critère de Ward consiste à choisir à chaque étape le regroupement de clusters tel
que l’augmentation de l’inertie intra clusters soit minimale. Il ne s’applique que dans
un espace Euclidien.
Classification non supervisée ou clustering
: Classification Ascendant Hiérarchique(CAH)

Qualité de classification (qualité d’un cluster)


Elle est mesurée par le rapport inertie inter-classe sur inertie totale

Inertie inter
0≤ ≤1
Inertie totale

Lorsque le rapport tend vers 0, les classes ont mêmes moyennes (Ne permet pas de classifier).
Lorsque le rapport tend vers 1, les individus d’une même classe sont identiques (Idéal pour classifier).
Notons que ce critère est dépendant du nombre d’individus et de classes.
Classification non supervisée ou clustering
: Classification Ascendant Hiérarchique(CAH)

Les étapes d’une CAH par la pratique


1) Importer les données
2) Standardiser ou non les données
3) Construire la Classification Ascendante Hiérarchique
4) Couper l’arbre de classification
5) Caractériser les classes
Classification non supervisée ou clustering

But :Dans le problème du clustering, on nous donne un ensemble de données non


étiqueté et nous aimerions qu’un algorithme regroupe automatiquement les
données en sous-ensemble cohérents ou en clusters cohérents pour nous.
Classification non supervisée ou clustering

Les étapes de K-means par la pratique


1) Importer les données
2) Standardiser ou non les variables
3) Construire la partition
4) Caractériser les classes
Une vue schématique d’exécution de l’algorithme de K-means
Visualisation
---
Conclusion
Ce module vous a fait découvrir l’importance de l’analyse de données dans les process
d’une entreprise qui se veut pérenne et innovante. Mieux il a exposé une panoplie de
techniques et outils pour effectuer une analyse de données. Il s’agira à chacun
d’utiliser ces outils comme une boîte à outils pour mieux adresser les problématiques
des entreprises afin de faire croître leur chiffre d’affaire, leur marque auprès de leur
clientèle.

Vous aimerez peut-être aussi