Vous êtes sur la page 1sur 23

Comment exploitez un maximum de données pertinentes

pour améliorer le pilotage de votre activité ?

Donnée, Base de données, Analyse des données, Fouille des données, Entrepôt de
données, Magasin de données, Lac de données, Intégration des données, …
Data, Database, Data Analysis, Data Mining, Data Warehouse, Data Marts, Data Lake,
Data Integration, Data Science, Data Scientist, Data Analyst, Data Engineer, Data
Management, …
05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 2
Pourquoi la fouille de données
• Nous vivons dans un monde où de grandes quantités de données sont
collectées quotidiennement.
• L'analyse de ces données est un besoin important.
• Nous allons examiner comment la fouille de données peut répondre à ce
besoin en fournissant des outils pour découvrir des connaissances à partir
des données.
données
• Nous allons montrer comment la fouille de données peut être considérée
comme le résultat de l'évolution naturelle des technologies de
l'information.
l'information
• Vers l'ère de l'information !!! « Nous vivons à l'ère de l'information » est
un dicton populaire; cependant, nous vivons en réalité à l'ère des
données.
• La croissance explosive du volume de données disponibles est le résultat
de l'informatisation de notre société et du développement rapide d'outils
puissants de collecte et de stockage des données.

05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 3


Donnée? Information? Connaissance?
Comment exploitez un maximum de données pertinentes
pour améliorer le pilotage de votre activité ?

Types
Base de
des BDD ?
données ?

Systèmes Stockage
de gestion des BDD ?
des BDD ?
05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 4
Exemple … Flu Trends de Google
• Google reçoit des centaines de millions de requêtes chaque jour. Chaque requête peut être
vue comme une transaction où l'utilisateur décrit son besoin d'information. Quelles
connaissances nouvelles et utiles un moteur de recherche peut-il tirer d'une telle collection
de requêtes collectées auprès des utilisateurs au fil du temps ?
• C’est très intéressant que certains modèles trouvés dans les requêtes de recherche des
utilisateurs peuvent révéler des connaissances inestimables qui ne peuvent pas être
obtenues en lisant uniquement des éléments de données individuels.
• Flu Trends de Google a trouvé une relation étroite entre le nombre de personnes qui
recherchent des informations sur la grippe et le nombre de personnes qui présentent
réellement des symptômes de la grippe.
• Un modèle émerge lorsque toutes les requêtes de recherche liées à la grippe sont agrégées.
• À l'aide des données de recherche agrégées de Google, Flu Trends peut estimer l'activité
grippale jusqu'à deux semaines plus rapidement que les systèmes traditionnels.
• Cet exemple montre comment la fouille de données peut transformer une vaste collection
de données en connaissances qui peuvent aider à relever un défi mondial actuel.

05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 5


Comment exploitez un maximum de données pertinentes
pour améliorer le pilotage de votre activité ?

Donnée, Base de données,


données Analyse des données, Fouille des données, Entrepôt de
données, Magasin de données,
données données Lac de données,
données Intégration des données, …
Data, Database
Database, Data Analysis, Data Mining, Data Warehouse
Warehouse, Data Marts,
Marts Data
Lake, Data Integration, Data Science, Data Scientist, Data Analyst, Data Engineer,
Lake
Data Management, …
05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 6
Comment exploitez un maximum de données pertinentes
pour améliorer le pilotage de votre activité ?

Donnée, Base de données,


données Analyse des données, Fouille des données, Entrepôt de
données, Magasin de données,
données données Lac de données,
données Intégration des données,
données …
Data, Database
Database, Data Analysis, Data Mining, Data Warehouse
Warehouse, Data Marts,
Marts Data
Lake, Data Integration,
Lake Integration Data Science, Data Scientist, Data Analyst, Data Engineer,
Data Management, …
05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 7
Comment exploitez un maximum de données pertinentes
pour améliorer le pilotage de votre activité ?

Donnée, Base de données


données, Analyse des données, Fouille des données, Entrepôt de
données, Magasin de données,
données données Lac de données,
données Intégration des données,
données …
Data, Database
Database, Data Analysis
Analysis, Data Mining
Mining, Data Warehouse,
Warehouse Data Marts,
Marts Data
Lake, Data Integration,
Lake Integration Data Science, Data Scientist, Data Analyst, Data Engineer,
Data Management, …
05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 8
Fouille de données ! c’est quoi ?
• Il n'est pas surprenant que l'exploration de données,
données en tant que sujet véritablement
interdisciplinaire, puisse être définie de différentes manières.
• Même le terme fouille de données ne présente pas vraiment tous les principaux composants
du processus d'exploration de données
données. Ex. Pour faire référence à l'extraction de l'or à partir
de roches ou de sable, nous disons extraction d'or au lieu d'extraction de roches ou de sable.
• De manière analogue, la fouille de données (le data mining) aurait dû être nommé plus
justement « knowledge mining from data », ce qui est malheureusement un peu long.
Cependant, à plus court terme, l'exploration des connaissances peut ne pas refléter l'accent
mis sur l'exploration de grandes quantités de données.
• Néanmoins, l'exploitation minière est un terme vivant caractérisant le processus qui trouve
un petit ensemble de pépites précieuses à partir d'une grande quantité de matière première.
Ainsi, un tel terme impropre transportant à la fois des « données » et « l'exploitation
minière » est devenu un choix populaire.
• En outre, de nombreux autres termes ont une signification similaire à la fouille de données,
par exemple, l'exploration de connaissances, l'extraction de connaissances à partir de
données, l'analyse de données/modèles, l'archéologie de données, etc..

05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 9


Fouille de données ! c’est quoi ?
• De nombreuses personnes considèrent la fouille de données comme un synonyme d'un
autre terme couramment utilisé, la découverte de connaissances à partir de données, ou
KDD, tandis que d'autres considèrent la fouille de données comme une simple étape
KDD
essentielle du processus de découverte de connaissances
connaissances.
• Le processus de découverte des connaissances est illustré sous la forme d'une séquence
itérative des étapes suivantes :
1. Nettoyage des données (pour supprimer le bruit et les données incohérentes)
2. Intégration des données (lorsque plusieurs sources de données peuvent être combinées)
3. Sélection des données (où les données pertinentes pour la tâche d'analyse sont extraites)
4. Transformation des données (où les données sont transformées et consolidées)
5. Fouille de données (où des méthodes sont appliquées pour extraire des modèles)
6. Évaluation des modèles (pour identifier les modèles vraiment intéressants représentant les
connaissances sur la base des mesures d'intérêt)
7. Présentation des connaissances (lorsque des techniques de visualisation et de
représentation des connaissances sont utilisées pour présenter les connaissances extraites
aux utilisateurs)

05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 10


Architecture type du processus ECD
• Le processus d’ECD (vision académique)

05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 11


Architecture type du processus ECD
• Le processus d’ECD (vision industrielle)

05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 12


Processus ECD

Banque

Knowledge Discovery in Databases


05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 13
Processus ECD

Knowledge Discovery in Databases


05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 14
Apprendre à connaître vos données
données!!
• Il est intéressant de se lancer directement dans l'exploitation minière, mais nous
devons d'abord préparer les données.
• Cela implique qu’il faudra examiner de plus près les attributs et les valeurs des
données.
• Les données du monde réel sont généralement bruitées, d'un volume énorme et
peuvent provenir de plusieurs sources hétérogènes.
• Nous devons nous familiariser avec nos données.
• Vous voudrez savoir ce qui suit : Quels sont les types d'attributs ou de champs qui
composent vos données ? Quel type de valeurs chaque attribut a-t-il ? Quels
attributs sont discrets et lesquels sont à valeur continue ? À quoi ressemblent les
données ? Comment les valeurs sont-elles distribuées ? Existe-t-il des moyens de
visualiser les données pour avoir une meilleure idée ? Pouvons-nous repérer des
valeurs aberrantes ? Peut-on mesurer la similarité de certains objets de données
par rapport à d'autres ?
• L'obtention d'un tel aperçu des données aidera à l'analyse ultérieure.
05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 15
Donnée ? Variable ?
• Pour lancer l’analyse l’expert du domaine concerné établit une liste a
priori de données (variables statistiques), appelées variables exogènes et
notées pour chaque ω Ω par :
X (ω) = (X1(ω), X2(ω), ..., Xp(ω))

• Les variables exogènes prennent leurs valeurs dans un domaine de


représentation noté D qui ne possède pas de structure mathématique
particulière, et à chaque paramètre ou caractère choisi par l'utilisateur
(l’expert humain) pour décrire les individus concernés par l’étude
l’analyste peut associer une ou plusieurs variables.

• Nous pouvons dire qu’une variable est définie par :

1) une application X de Ω sur un ensemble de description D.


2) une structure algébrique S sur D pouvant se transporter sur Ω par X.

05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 16


Donnée ? Variable ?
• Par la suite, avec un abus de langage, on donnera le même nom à l'application X et
à la variable V. On a donc X : Ω → D muni de la structure S. Le choix des variables
est étroitement lié au problème posé.
• La fouille de données peut permettre de vérifier la validité des variables en faisant
ressortir, par exemple, les redondances et la pertinence de certaines variables.

• Exemple : Si l'on désire utiliser une évaluation exacte on définit une variable Note
Note1
1
qui associe à chaque étudiant sa note CC1. L'espace d'arrivée D est R et sa +

structure algébrique S est celle du corps des réels (c-à-d l'addition, la


multiplication et la relation d'ordre ont un sens).
• Par contre si l'on est seulement intéressé par des classes de notes, on définit une
nouvelle variable Note
Note1 1’ qui associe à chaque étudiant une description de sa note,
l'espace d'arrivée D'={faible, moyen, excellent} est alors l'ensemble des
descriptions muni d'une relation d'ordre notée S' (dans ce cas seule la relation
d'ordre a un sens : un étudiant moyen est supérieur à un faible). On remarque que
les variables Note1 et Note1’ sont différentes bien qu'elles concernent le même
paramètre "note".

05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 17


Donnée ? Variable ?
• La valeur prise par Xj (ω) est appelée la modalité ou la valeur de la variable Xj pour
chaque individu ω. Nous désignons par lj le nombre des différentes modalités
affectées à la variable Xj.
• Exemple : Pour illustrer cette forme de notation, considérons le problème de
l’identification du type d’hypertension et supposons qu’un patient hypertendu
peut être décrit, par exemple, par trois variables exogènes :

X1 : tabagisme qui peut prendre les valeurs oui ou non (l1 = 2);
X2 : Stress qui détermine comment le niveau de stress chez le patient hypertendu
et qui peut prendre trois valeurs (l2 = 3) : « Peu stressé », « Moyennement
stressé», « Extrêmement stressé »;
X3 : Exercice qui correspond à l’activité sportive et peut prendre deux modalités
(l3=3) : « Ne fait pas d’exercice », « Fait de temps en temps de l’exercice », « Fait de
l’exercice de manière régulière »;

05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 18


Type ? Variable quantitative.
• Une fois les variables choisies, il faut leur associer un "type" et suivant la structure
de S, on distingue deux grands types de variables : les variables quantitatives et les
variables qualitatives.
• Une variable quantitative prend des valeurs pour lesquelles des opérations
arithmétiques aient un sens. Une variable qualitative prend des valeurs
symboliques qui désignent en fait des catégories appelées aussi des modalités.

• L'ensemble d'arrivée d'une variable quantitative est R. Dans la pratique on


distingue les types suivants :

1. Mesures : notes, poids, revenus, etc…


2. Ordonnés : rang, grade, catégorie, etc…
3. Comptage : fréquence, numéro, etc…
4. Logique : succès-échec, présence-absence, etc…

05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 19


Exemples…
 Les tailles, les poids de personnes sont des variables
quantitatives mesurables
mesurables.

 Ingénieur, technicien et agent de saisie sont des variables


quantitatives ordonnés
ordonnés.

 Les numéros de salles, d’amphis et de chambres sont des


variables quantitatives de comptage.
comptage

 La réponse binaire à une question et la description binaire


d’une situation sont des variables quantitatives logiques
logiques.

05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 20


Type ? Variable qualitative.
• L'ensemble de description D d'une variable qualitative est fini.
• Les éléments de D sont appelés modalités de la variable (les valeurs que peut
prendre la variable).

• On distingue essentiellement les types suivants:

1. Nominal : lieu géographique (Algérie, Tunisie, etc…), catégorie


socioprofessionnelle (Médecin, Enseignant, etc…), …
2. Ordinal : classer par ordre de préférence les modules, classer par ordre de
mérite les étudiants, etc…
3. Textuel : titre de livre, nom d’enseignant, etc…

05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 21


Transformation des données…
• Une variable X : Ω → D muni d'une structure S étant choisie, le codage intervient
chaque fois que l'on désire modifier l'espace d'arrivée D, ou les valeurs prises par
X dans D ou encore la structure algébrique S associée à ces valeurs.

• Réaliser un changement de codage revient donc à effectuer un changement de


l'espace d'arrivée de la variable. On peut exprimer le codage qui permet de passer
de la variable X à la variable X’ à l'aide du schéma :

05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 22


Exemples…
• Supposons la note du CC1 d'un étudiant, qui peut prendre comme valeur 09, 10,
11, 18,... On pense donc automatiquement à une variable Note quantitative
mesurable. Si l'on désire transformer la note du CC1 en catégorie de notes, on
obtient une nouvelle variable NoteOrd qualitative ordinale. Si maintenant on ne
désire plus faire intervenir l'ordre entre les tranches de notes, on obtient une
variable NoteNom qualitative nominale. On modifie ainsi la structure algébrique
de l'espace de description D bien que les valeurs prises par la variable n'aient pas
été modifiées.
• Considérons la variable quantitative Note définie sur W = {ω1, ω2, ω3} avec:
• Note(ω1) =07; Note(ω2) = 16 et Note(ω3) = 11.
• Supposons que les tranches de notes soient [0, 9]; ]9, 13]; ]13, 20], respectivement
codées 1,2,3; alors la nouvelle variable NoteOrd qui est qualitative ordinale
prendra les valeurs:
• NoteOrd(ω1) = V o X (ω1) = V(07)=1;
• NoteOrd(ω2) = V o X (ω2) = V(16)=3;
• NoteOrd(ω3) = V o X (ω3) = V(11)=2.
05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 23
Donnéess ! Variabless
• Considérons maintenant le PV récapitulatif du M1 IA&IoT qui est un ensemble de p
variables notées X1(ω), X2(ω), ...,Xp(ω) établies sur une même population.
• Les valeurs de la variable Xj(ω) sont {x1j, x2j, …, xij, …, xnj}. L’ensemble des valeurs
du tableau des données est noté {xij ; i=1,…,n ; j=1, …, p}. La case d’indice (i, j)
correspondant à la ième ligne et à la jème colonne contient la valeur xij, valeur de
la variable Xj sur l’individu indicé i. xij est soit une valeur numérique associé à une
variable quantitative, soit un nombre représentant le code d’une catégorie.
• On appelle ce type de tableau un tableau individus-Variables.

o Tableaux Individus-Variables quantitatives


o Tableaux Individus-Variables temporelles
o Tableaux Individus-Variables qualitatives
o Tableaux Individus-Variables quantitatives et qualitatives
o Tableaux Individus-Variables quantitatives, qualitatives, temporelles.

05/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 24

Vous aimerez peut-être aussi