Vous êtes sur la page 1sur 25

Préparation des données ?

La réduction des données :


Des techniques de réduction de données peuvent être appliquées
pour obtenir une représentation réduite de l'ensemble de données
qui est beaucoup plus petit en volume, tout en maintenant
étroitement l'intégrité des données d'origine.
Autrement dit, la fouille sur l'ensemble de données réduit devrait
être plus efficace tout en produisant les mêmes (ou presque les
mêmes) résultats analytiques.

Les stratégies de réduction des données incluent : (1) la réduction


de la dimensionnalité, (2) la réduction des instances et (3) la
compression des données.
La réduction de la dimensionnalité est le processus de réduction du
nombre de variables et/ou d’instances.

La sélection de sous-ensembles d'attributs est une méthode de réduction de la


dimensionnalité dans laquelle les attributs (ou dimensions) non pertinents, peu
pertinents ou redondants sont détectés et supprimés.
19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 53
Synthèse chapitre 1
• Les données sont constitués d‘instances (individus, enregistrements, etc.) où
instance de données est décrite par des attributs (variables).
• Les attributs peuvent être nominaux, binaires, ordinaux ou numériques.
• Les statistiques de base fournissent la base analytique pour le prétraitement. Les
mesures statistiques de base pour la synthèse des données comprennent la
moyenne, la moyenne pondérée, la médiane et la variance et l’écart type pour
mesurer la dispersion des données, etc.
• Les représentations graphiques (par exemple, boîtes à moustaches, parcelles
quantiles, parcelles quantiles-quantiles, histogrammes et diagrammes de
dispersion) facilitent l'inspection visuelle des données et sont donc utiles pour le
prétraitement et l'exploration des données.
• Les techniques de visualisation et les mesures de similarité (&dissemblance)
d’individus sont utilisées dans les applications de fouille de données telles que le
regroupement, l'analyse des valeurs aberrantes et la classification du plus proche
voisin. Les mesures incluent le coefficient Jaccard pour les attributs binaires
asymétriques et les distances euclidiennes, Manhattan, Minkowski et supremum
pour les attributs numériques.
19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 54
Plan du cours
1. Introduction
2. Chapitre 1 : Description des données et processus ECD
3. Chapitre 2 : Fouille de données pour la visualisation
4. Chapitre 3 : Fouille de données pour la structuration
5. Chapitre 4 : Fouille de données pour la prédiction
6. Chapitre 5 : Fouille de données complexes
7. Conclusion

19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 55


FD pour la visualisation
Concepts et définitions :
• Les méthodes de visualisation permettent à l’analyste d’avoir une compréhension
synthétique de l’ensemble de ses données, elles regroupent principalement des
outils de synthèse d’information.

• La synthèse peut être utilisée, comme par exemple des indicateurs statistiques, les
plus utilisés généralement sont la moyenne, l’écart-type, le mode et la médiane.
Pour les attributs qualitatifs, la distribution est associée généralement selon les
modalités de l’attribut

• Ces indicateurs statistiques nous renseignent pleinement sur une caractéristique


particulière de la population. Ils sont généralement représentés par des
graphiques, faciles à interpréter, comme les courbes, les histogrammes, etc.

• La description et la visualisation peuvent être mono ou multidimensionnelles. Il


s’agit de rendre visible des objets ou des concepts qui se trouvent dans des
espaces de description trop riches.

19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 56


FD pour la visualisation
Concepts et définitions :
• La représentation graphique
des résultats de la statistique
élémentaire;

• Les graphes de contingences;

• Les arbres de décision;

• Les cubes et la modélisation


multidimensionnelles;

19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 57


FD pour la visualisation
Modélisation multidimensionnelle :

Les cubes
et la modélisation
multidimensionnelles;

Architecture d’un Système d'Information Décisionnel (SID)


19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 58
FD pour la visualisation
Modélisation multidimensionnelle :

Les cubes
et la modélisation
multidimensionnelles;

Architecture d’un Système d'Information Décisionnel (SID)


19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 59
FD pour la visualisation
Modélisation multidimensionnelle :

Online Analytical Processing Online Transaction Processing

■ Permettent de mener des analyses poussées sur différents sujets d’affaires;


■ Fournissent une vue consolidée des données de l’entreprise (une seule vérité);
■ Procurent de l’information de qualité, plus rapidement;
■ Libèrent les ressources (ex: serveurs) dédiées au traitement des transactions
des tâches d’analyse;
■ Simplifient l’accès aux données.

19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 60


FD pour la visualisation
Modélisation multidimensionnelle :
L’entrepôt (nouvelle base de données) au sein de l’entreprise n’est pas créé pour les
bienfaits d’une application opérationnelle directement liée à l’activité de l’entreprise (ex :
système comptable, base de données RH, base de données des commerciaux, …).
L’entrepôt ne va stocker que les informations clefs de l’entreprise et ne sera dédié qu’aux
requêtes d’analyse et de reporting.

On parle de modélisation décisionnelle en flocon ou en étoile


étoile. Comme toute modélisation
de base de données, cette étape est cruciale dans la réussite d’un projet décisionnel.

19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 61


FD pour la visualisation
Modélisation multidimensionnelle :
On dispose de jeux d’informations élémentaires, généralement en grands volumes,
volumes
chaque ligne d’information étant un évènement caractérisée par : 1) Un identifiant
unique; 2) Des attributs qualifiant l’information ; 3) Des grandeurs portant une
information quantitative.
Exemple :
Considérons l’entité élémentaire qui est la ligne de facture. C’est souvent une entité clé
dans une entreprise, l’information la plus fine dont on dispose par rapport aux
processus de vente.
La ligne de facture appartient à une facture et porte sur la vente d’un produit
produit, dans une
quantité donnée, pour un prix donné à un client donné.
Elle porte en elle différents attributs : une indication de produit, une quantité, un prix
unitaire, un prix total.
Au travers de la facture à laquelle la ligne appartient, on dispose d’autres informations : une
référence de client, une date (année, mois, jour).
Sur le client lui-même, on possède d’autres informations : pays pays, région
région, type de client,
secteur de métier
métier, etc.…
19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 62
FD pour la visualisation
Modélisation multidimensionnelle :
Une première étape est donc la réunion de toutes les informations nécessaires à
l’analyse. Dans ce cas, les informations sont par exemple :

 Date (année, mois, jour)


 Produit
 Famille de produits
 Client
 Pays du client
 Commercial
 Quantité
 CA

Les premières informations constituent les axes d’analyse


Les deux dernières constituent les grandeurs.
19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 63
FD pour la visualisation
Modélisation multidimensionnelle :
Opérations dans les systèmes transactionnels
Interrogation :
Select

Mise a jour :
Insert ajout
Update modification
Delete suppression

Interrogations simples
SELECT liste-colonnes
FROM nomtable
WHERE condition;

19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 64


FD pour la visualisation
Modélisation multidimensionnelle :
Objectifs d’un Système d'Information Décisionnel (SID) :

Système d'Information capable de répondre à certains types de questions:


Quelles sont les ventes du produit X pendant le trimestre 2 de l'année 2015 dans la région
Ouest ?
Comment se comporte le produit X par rapport au produit Y ?
Quel type de client peut acheter le produit X ?
Est-ce qu'une baisse de prix de 10% par rapport à la concurrence ferait redémarrer les ventes
du produit X ?

Ces exemples mettent en évidence les faits suivants:


Les questions doivent pouvoir être formulées dans le langage de l’utilisateur en fonction de
son secteur d’activité : Service marketing, Service économique, service relation clients…
La prévision des interrogations est difficile car elles sont du ressort de l’utilisateur.
Les questions vont varier selon les réponses obtenues: Si le produit X s’est vendu moins bien
que l’année précédente, il va être utile de comprendre les raisons : Détailler les ventes par
région par type de magasin, etc…

19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 65


FD pour la visualisation
Modélisation multidimensionnelle :
Caractéristiques des données d'un Entrepôt de données

Orientées sujet :
 Organisées autour de sujets majeurs de l’entreprise.
 Données pour l’analyse et la modélisation en vue de l’aide à la décision, et non pas
pour les opérations et transactions journalières.
 Vue synthétique des données selon les sujets intéressant les décideurs.

Exemple : Une grande entreprise à succursales multiples veut rassembler toutes les
nuits dans un entrepôt de données des informations sur les ventes du jour afin de
dresser des tableaux de bord sur les ventes.

Objectif : L’ED à modéliser doit pouvoir fournir le chiffre d’affaires des ventes d’un
produit, par date, client, et vendeur, ainsi que toutes les sommations possibles de chiffre
d’affaires.

19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 66


FD pour la visualisation
Modélisation multidimensionnelle :
Caractéristiques des données d'un Entrepôt de données
Intégrées :
•Construit en intégrant des sources de données multiples et hétérogènes (BD
relationnelles, fichiers, enregistrements de transactions)
•Les données doivent être mises en forme et unifiées afin d’avoir un état cohérent
Phase la plus complexe (60 à 90 % de la charge totale d’un projet Décisionnel)
Exemple : L’entreprise dispose d’un système d’information complexe, constitué des
éléments suivants :
- des applications et bases de données éparses et hétérogènes sur les produits qu’elle vend,
- des applications et BD, également variées, sur les clients,
- idem sur les personnels de l’entreprise.
L’ED à modéliser doit pouvoir fournir le chiffre d’affaires des ventes
- Une vente correspond à un produit et un seul,
- Les produits sont regroupés par famille de produits.
- La vente est effectuée par l’un des vendeurs du service de vente spécialisé
dans le produit.
- La semaine de vente est le numéro de semaine dans l’année.
19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 67
FD pour la visualisation
Modélisation multidimensionnelle :
Caractéristiques des données d'un Entrepôt de données
Historisées :
• Fournies par les sources opérationnelles
• Matière première pour l'analyse
• Stockage de l'historique des données, pas de mise à
jour
• Un référentiel temps doit être associé aux données

Non volatiles :
•Conséquence de l’historisation
•Une même requête effectuée à intervalle de temps, en
précisant la date référence de l’information donnera le
même résultat
•Stockage indépendant des BD opérationnelles
•Pas de mises à jour des données dans le ED

19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 68


FD pour la visualisation
Modélisation multidimensionnelle :

19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 69


FD pour la visualisation
Modélisation multidimensionnelle :

19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 70


FD pour la visualisation
Modélisation multidimensionnelle :

MÉTAPHORE DU CUBE DE DONNÉES


‘Quantités’ et ‘Montants’
(indicateurs d’analyse)

‘Ventes’ (sujet d’analyse)

‘Magasins’ , ‘Dates’ et
‘Produits’ (dimensions)

19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 71


FD pour la visualisation
Modélisation multidimensionnelle :
Dans l’exemple représenté par le schéma en étoile, le cube de données est un hypercube à
4 dimensions : produit, client, vendeur, date.

Graphiquement, on peut dessiner en perspective 4 types de cubes à 3 dimensions :


A. client, vendeur, date (pour chaque valeur de produit)
B. produit, vendeur, date (pour chaque valeur de client)
C. produit, client, date (pour chaque valeur de vendeur)
D. produit, client, vendeur (pour chaque valeur de date)
Dans chaque cube, l’élément de base est l’indicateur « montant de la vente ».
19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 72
FD pour la visualisation
Modélisation multidimensionnelle :
Exemple Entrepôt de données « Ventes »

19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 73


FD pour la visualisation
Modélisation multidimensionnelle :

19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 74


FD pour la visualisation
Modélisation multidimensionnelle :

Id_vendeur

Vendeur

id_vendeur
nom
code service

19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 75


FD pour la visualisation
Modélisation multidimensionnelle :

Id_région
Id_vendeur
Région

id_région
Vendeur Code …
…..
id_vendeur
nom
code service

19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 76


FD pour la visualisation
Modélisation multidimensionnelle :

19/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 77

Vous aimerez peut-être aussi