Data Mining Projet-M

Business Intelligence
Projet
Data Mining. La technologie et exemples de corrélations trouvées spécifiques à

l'environnement d'affaire
Étudiant(e)s:
Cîmpeanu Gabriela
Coordonnateur scientifique: Prof. Liana Anica Popa Drăgan Ana-Maria
Nechifor Mihaela
Paltin Ana-Maria
BUCAREST
2024
Contenu
1. Introduction -DATA MINING.......................................................................................................................3

 Le but........................................................................................................................................................3
 La motivation............................................................................................................................................3
 Les objectifs principaux du data mining....................................................................................................3
 La méthodologie.......................................................................................................................................3
 Définition..................................................................................................................................................3
2. L’utilisation de data mining en business....................................................................................................5
3. Data Mining Techniques............................................................................................................................7
 Classification.............................................................................................................................................8
 L'analyse de séries temporelles................................................................................................................9
 Le regroupement (Clustering)...................................................................................................................9
 Summarization........................................................................................................................................10
 Association rules.....................................................................................................................................10
Conclusion.......................................................................................................................................................10
Bibliographie :.................................................................................................................................................11
1. Introduction -DATA MINING
 Le but
Le but du data mining est d'extraire des connaissances, des informations et des modèles utiles à
partir de grandes quantités de données.
 La motivation
La création de cette recherche sur l'exploration de données nous offre la possibilité d'explorer des
applications concrètes de ce domaine. Il nous permet de mieux comprendre le systèmes de Data
mining, comment il est utilisé et où.
 Les objectifs principaux du data mining
 Expliquer un processus, évènement ou phénomène
 Confirmer d’une hypothèse
 Découvrir des modèles et des relations cachés
 Explorer les données en but de découvrir des corrélations inconnues
 Prédiction et prévision
 Segmenter et cibler les clients
 Détection des anomalies
 Optimisation des processus
 Exploration de données
 La méthodologie
Nous avons fait notre recherche sur les techniques et l'utilisation dans un cadre business, de Data
mining en nous utilisant des différents documents relèvent et livre mis à notre disposition.
 Définition
Data Mining est le processus de filtrage, de tri et de classification des données provenant de grands
ensembles de données pour révéler des modèles et des relations subtiles, permettant aux entreprises
d'identifier et de résoudre des problèmes commerciaux complexes grâce à l'analyse des données.
" L'exploration de données est l'extraction non triviale d'informations implicites, jusqu'alors
inconnues et potentiellement utiles à partir de données". (W. Frawley)
"L'exploration de données n'est rien d'autre que de torturer les données jusqu'à ce qu'elles soient
avouées..."
"Si vous le torturez suffisamment, vous pouvez lui faire avouer n'importe quoi". (Fred Menger)
"…processus d’extraction des connaissances des volumes très grands de données, mémorisés dans
des bases de données, ED ou autre source”. (Han şi Kamber, 2001)
"…recherché de corrélations, liaisons schématiques dans une base volumineuse ou complexe d’infos
en but de les transformer en connaissances” (Goglin, 1998)
Les entreprises s'appuient fortement sur l'exploration de données pour leurs efforts
analytiques en matière de développement organisationnel.
De nombreuses organisations de divers secteurs tirent parti de l'exploration de données,
notamment la fabrication, le marketing, la chimie, l'aérospatiale, etc., pour accroître leur efficacité
commerciale. Par conséquent, les besoins en matière de processus d'exploration de données standard
ont considérablement augmenté.
Les données analytiques issues de l'exploration de données sont utilisées pour diverses
applications d'analyse et de business intelligence (BI) qui prennent en compte certaines informations
historiques en plus de l'analyse des données en temps réel.
Les meilleures techniques d'exploration de données permettent aux entreprises de développer
plusieurs stratégies commerciales et de mieux gérer leurs opérations.
Cela peut inclure l'amélioration des fonctions orientées client telles que la publicité, le
marketing, les ventes, le support client, les finances et les ressources humaines. L'approche générale
consiste à trouver des « pépites » de nouvelles informations dans les données. Il s'agit d'un domaine
interdisciplinaire dont les racines sont dans l'aide à la décision.
 Exemple concret (domaine : e-commerce) :
De nombreux détaillants en ligne utilisent des techniques d'exploration de données pour extraire des
informations précieuses des données collectées sur le comportement de leurs clients afin de fournir
des recommandations personnalisées et d'améliorer l'expérience d'achat.
L'analyse des données relatives à l'historique des achats, aux préférences et au comportement de
navigation des clients permet d'identifier des modèles et des tendances. Ces informations peuvent
être utilisées pour créer des profils de clients et des segments de marché basés sur les préférences et
les besoins individuels des clients.
Grâce à des algorithmes de classement et de recommandation, des recommandations personnalisées
peuvent être fournies aux clients en fonction de leurs achats précédents et de leur comportement de
navigation et peut également être utilisée pour identifier les fraudes et les comportements suspects
dans les transactions en ligne. Les algorithmes de détection d'anomalies peuvent analyser les
habitudes d'achat et identifier les activités inhabituelles telles que des transactions frauduleuses ou
une utilisation non autorisée de cartes de crédit.L'exploration de données peut également aider à
l'optimisation des stocks et à la gestion de la chaîne d'approvisionnement. En analysant les données
de vente, les modèles de demande peuvent être identifiés et les quantités de produits nécessaires à
l'avenir peuvent être prédites. Cela permet aux détaillants d'ajuster leurs stocks en fonction de la
demande prévue, réduisant ainsi les coûts de stockage et le risque de rupture de stock ou de
surstockage.
De nombreuses personnes considèrent l'exploration de données comme synonyme d'un autre
terme couramment utilisé, Knowledge Discovery Data, ou KDD, tandis que d'autres considèrent
simplement l'exploration de données comme une étape importante dans le processus de découverte
de connaissances.
 Le processus de découverte des connaissances est représenté par une séquence d'étapes :
 Nettoyage des données Data Cleaning  Exploration des données Data Mining
 Intégration des données Data Integration  Evaluation des modèles  Pattern Evaluation
 Sélection des données Data Selection  Présentation des connaissances 
 Transformation des données Data Knowledge Presentation
Transformation
 Avantages de l'exploration de données

L'exploration de données est bénéfique pour la plupart des entreprises, principalement parce
qu'elle peut parcourir de vastes volumes de données et identifier des modèles, des relations et des
tendances cachées. Les résultats sont utiles pour l'analyse prédictive qui aide à la planification
stratégique tout en gardant un stock du scénario commercial actuel.
2. L’utilisation de data mining en business

Comme nous avons pu voir, Data mining ou, l’exploration de données en français, joue un
rôle crucial dans divers aspects de l’entreprise en aidant les organisations à découvrir des modèles,
des tendances et des informations à partir de grands ensembles de données. Voici quelques domaines
clés où l’exploration de données est couramment utilisée dans les entreprises :
L’analyse prédictive (Predictive Analytics) est une forme d’analyse de données qui utilise
des algorithmes statistiques et des techniques d’apprentissage automatique pour identifier la
probabilité de résultats futurs en fonction de données historiques. Dans le contexte du Data mining,
c’est le processus de construction d’un modèle représentatif qui s’adapte aux données d’observation.
Ce modèle sert à deux choses : il prédit le rendement sur la base des variables d’entrée, et d’autre
part, nous pouvons l’utiliser pour comprendre la relation entre la variable de sortie et toutes les
variables d’entrée.
La stratégie de segmentation de la clientèle (Customer Segmentation) dans les entreprises,

est utiliser dans l'exploration de données. C’est une technique utilisée pour diviser la clientèle d'une
entreprise en différents groupes ou, de les segmenter en fonction de leurs caractéristiques ou de
comportements communs. Cela implique d'analyser de grandes quantités de données clients pour
identifier des modèles et des similitudes entre les clients, permettant ainsi aux entreprises de mieux
comprendre leurs.
Un autre domaine est celui de l’analyse du panier de consommation (Market Basket

Analysis) qui s’occupe d’analyser la relation des objets qui ‘vont ensemble’ dans un contexte de
business. Comme exemple ou elle peut être utiliser : identifier les produits qui peuvent souvent être
achetés ensemble et organiser l’emplacement de ces articles (par exemple dans un catalogue ou sur
un site Web) à proximité pour encourager l’acheteur à acheter les deux articles. Ou au contraire, les
séparer pour obliger le consommateur a se promené dans le magasin, pour augmenter la probabilité
d’achats impulsifs supplémentaires.
La détection de la fraude (Fraud Detection) fait partie des domaines du Data mining. Elle
consiste à identifier les fraudes le plus rapidement possibles une fois qu’elles ont été perpétrées. La
fraude est découverte à partir d’anomalies dans les données et les modèles. Elle est utilisée dans des
cas tels que l’analyse de la fraude aux paiements, l’analyse de la fraude financière et l’analyse de la
détection de la fraude à l’assurance. Data mining révèle des modèles importent, transformant alors
de grands ensembles de données bruts en informations précieuses. Par exemple on découvre une
série de petites transactions inhabituellement fréquentes provenant de plusieurs comptes dans un
court laps de temps, grâce au des techniques de Data mining. Cela révèle un effort coordonné pour
exploiter une vulnérabilité du système. L’identification du modèle permet alors de détecter et de
prévenir rapidement un stratagème de fraude potentiel. Ce qui conduira à des mesures de sécurité
renforcées et à des mesures de protection contre des attaques similaires à l’avenir.
On a aussi le Customer churming comme domaine de Data mining. Le churning, en termes
de marketing, fait référence au nombre de clients qui ont cessé d’utiliser un produit particulier. Le
taux d’attrition doit toujours être faible. Le désabonnement des clients est courant avec n’importe
quel produit lorsqu’il existe plusieurs options pour un seul problème. Habituellement, les clients
décident d’arrêter la consommation d’un produit lorsqu’ils sont confrontés à des difficultés ou à des
déceptions dans les services rendus par le produit. Les entreprises utilisent aussi les informations
démographiques des clients pour personnaliser leurs services. Le taux d’attrition est généralement
mesuré pour un temps spécifique.
Un autre domaine importent c’est la gestion des risques (Risk Management). Dans le
contexte du Data mining, elle fait référence au processus d’identification, d’évaluation et
d’atténuation des risques potentiels associés à l’application de techniques d’exploration de données
dans un domaine ou pour un projet particulier. Il s’agit d’une analyse systématique des menaces et
des incertitudes potentielles afin de s’assurer que les activités d’exploration de données sont menées
de manière responsable. En général, les étapes du processus de gestion des risques comprennent les
cinq phases suivantes :
L'évaluation de la performance des employés (Employee Performance Analysis) est une

pratique fondamentale dans le domaine de la gestion des ressources humaines. Par conséquent, il
devient de la responsabilité des HR d’attribue aux meilleurs employés un poste approprié au bon
moment, de les former et de les qualifier, et de mettre en place des systèmes d’évaluation pour
surveiller leurs performances et tenter de préserver les talents potentiels des employés. Le
développement d’un cadre de Data mining avec l’aide d’un arbre de décision, afin de générer des
règles utiles pour la sélection du personnel. Un arbre de décision est un outil aidant à la prise de
décision. Il regroupe sur un même graphique différents choix possibles face à une situation sous la
forme de branches d’arbre ou, à chaque extrémité des branches, existe une décision potentielle.
Ce cadre peut être utilisé pour développer un mécanisme efficace de sélection du personnel
afin de trouver les talents qui conviennent le mieux à l’organisation. Utiliser des techniques de Data
mining permet aussi d’extraire des connaissances significatives pour prédire les besoins de
formation des membres nouvellement embauchés afin de concevoir des programmes de
développement nécessaires. On s’utilisait des algorithmes de classification comme des arbres de
décision pour classer les candidats à un profil d’emploi en fonction de leur CV et de leur présence
sur les réseaux sociaux.
3. Data Mining Techniques
L’objectif principal de data mining est de créer soit un modèle descriptif, soit un modèle
prédictif. Chaque type répond à des besoins commerciaux distincts et offre des informations
uniques. Dans le modèle descriptif, les données sont divisées en groupes, les probabilités totales des
données sont distribuées et des modèles sont formes pour décrire les relations entre les
caractéristiques. Alors que le modèle prédictif est utilisé pour prédire les valeurs futures et
inconnues (Dogra&TanujWala, 2015 ; Smita&Sharma,2014). Il consiste à analyser des données

actuelles et historiques pour anticiper des événements futurs.
Les modèles prédictifs et descriptifs contiennent divers algorithmes et techniques tels que
classification, régression, clustering, prédiction, règles d’association etc.
Figure 1. Types de data mining

(Source : www.altexsoft.com)
Cette figure montre les deux types de data mining : prédictif et descriptif qui chacun
comprend certaines techniques qui peut être utilisées dans le processus de data mining dans le cadre
d’un business.
 Classification
La classification représente une forme d’analyse de données qui extrait des modèles/ patterns
décrivant des classes de données importantes. (Han, Kamber, & Pei, 2012)
La classification consiste à organiser les données dans des classes ou des catégories
prédéfinies, en examinant les attributs des données. Une fois que les caractéristiques clés des
données sont identifiées, les données connexes peuvent être regroupées ou classifiées de manière
systématique.
La classification est une méthode d’apprentissage supervise considérée comme la technique
d’exploration de données la plus courante. En même temps, il y a diverses techniques utilisées dans
la classification, telles que la classification bayésienne qui présente une méthode statique sur la base
du théorème de Bayes, les algorithmes génétiques, le K-Nearest Neighbour, la machine à vecteurs de
support, réseaux neuronaux, arbres décisionnels, régression logistique et linéaire, classification
basée sur des associations, etc. (Smita&Sharma,2014 ; Tamiselvi & Kalaiselvi, 2013). Ces
techniques ont été utilisées dans diverses applications telles que l’identification et la prédiction dans
le secteur de la sante, la détection de fraude par carte de crédit, la détection de spam (Anshu,2019 ;
Ramageri).
Les réseaux neuronaux traitent les données à l'aide de nœuds. Ces nœuds sont composés
d'entrées, de poids et d'une sortie. Les réseaux de neurones sont un type d’apprentissage automatique
ou de modèle d’IA inspiré de la structure et du fonctionnement du cerveau humain. Ce modèle peut
être programmé pour donner des valeurs seuils afin de déterminer la précision d'un modèle.
Par exemple, une compagnie aérienne pourrait catégoriser ses clients en fonction de leurs
habitudes de voyage et de dépenses, offrant des programmes de fidélité adaptés. De même, cette
méthode pourrait être utilisée pour évaluer les demandes de prêt bancaire, distinguant entre celles
sûres et risquées.
La régression
Son objectif principal est de créer un modèle capable d'estimer la valeur d'une variable (la
variable dépendante) en fonction des changements d'autres variables (les variables indépendantes)
pour faire des prédictions précises dans un ensemble de données.
Par exemple, une chaîne hôtelière pourrait utiliser la régression pour analyser les données
concernant les réservations passées et les stratégies de tarification afin de prévoir les revenus pour
différentes périodes de l'année.
 L'analyse de séries temporelles
Cela est une technique spécialisée pour analyser et interpréter des données collectées à
intervalles de temps réguliers. Cette méthode est particulièrement utile pour identifier les tendances,
les patterns saisonniers et les comportements cycliques. Contrairement à d'autres méthodes de
fouille de données qui traitent des informations statiques, l'analyse de séries temporelles se
concentre sur des données qui évoluent avec le temps et implique des techniques telles que la
prévision, l’analyse des tendances, la détection de la saisonnalité et la détection des anomalies.
Les compagnies aériennes utilisent l'analyse de séries temporelles pour prédire la demande
des passagers en examinant les données historiques. De même, cette technique est appliquée dans le
domaine financier pour acheter des actions, en analysant les performances mensuelles des
entreprises et en prévoyant leur croissance future.
 Le regroupement (Clustering)
Le clustering est une méthode d’apprentissage non supervisée. Il consiste à regrouper
différents objets en fonction de leurs similitudes, créant des clusters/groupes. Dans certaines
applications, le clustering est appelé segmentation de données car il segmente le grand ensemble de
données en groupes en fonction de sa similarité (Solanki & Patel, 2015).
Contrairement à la classification, qui trie les données dans des catégories prédéfinies en
fonction d'attributs connus, le regroupement est exploratoire, identifiant des similitudes entre les
objets, puis regroupe ces éléments en fonction de ce qui les rend différents des autres éléments.
Par exemple, une entreprise de croisières peut utiliser le regroupement pour segmenter les
clients en examinant l'historique des voyages, les dépenses à bord et les caractéristiques
démographiques. Ainsi, elle peut cibler efficacement différents clusters, tels que les familles
orientées vers les activités pour enfants ou les couples retraités recherchant des expériences
luxueuses.
 Summarization
Un résumé signifie la réduction de grands ensembles de données sous une forme plus
compréhensible sans perdre leurs informations essentielles. Ce processus consiste à extraire et à
présenter les caractéristiques clés des données, permettant un aperçu rapide et une compréhension de
leurs principales caractéristiques.
 Association rules
L'association est la technique d'exploration de données la plus populaire qui décrit des
modèles qui ont tendance à se produire ensemble dans la même transaction. Il est utilisé pour
trouver les ensembles d'éléments les plus fréquents (Julio Ponce et al., 2009).
Les règles d'association, également appelées analyse du panier de marché, recherchent des
relations entre les variables. Il permet d'identifier les éléments fréquents et génère des règles telles
que « si X, alors Y » pour révéler les associations entre les éléments. Ce diagramme de Venn simple
montre les associations entre les ensembles d'éléments X et Y d'un ensemble de données.
La règle d'association est généralement utilisée dans de nombreux domaines, tels que les
applications médicales, l'analyse du panier de marché, les réseaux de communication modernes, etc.
(P.Thangaraju & D.Nanthini, 2015). Par exemple, les règles d'association pourraient examiner
l'historique des ventes d'une entreprise pour voir quels produits sont le plus fréquemment achetés
ensemble ; avec ces informations, les magasins peuvent planifier, promouvoir et prévoir.
Certaines techniques, comme les arbres de décision, sont flexibles et peuvent être utilisées à
la fois dans des contextes prédictifs et descriptifs en fonction de l'application. Les arbres de décision
classent ou prédisent des résultats en posant des questions successives basées sur des critères définis,
offrant une approche visuelle pour explorer les données. La détection des valeurs aberrantes identifie
des instances rares ou inhabituelles, utile, par exemple, pour détecter des transactions frauduleuses
ou des comportements anormaux.
Conclusion
En conclusion, , le data mining vise à transformer les données en informations exploitables, à
découvrir des modèles et des relations cachés, à prédire des événements futurs et à prendre des
décisions éclairées dans divers domaines d'application. L’utilisation du data mining offre de
nombreux avantages et opportunités pour analyser et extraire des informations à partir de grandes
quantités de données. Cette méthode aide à identifier les modèles, tendances et connexions cachés
dans les données, fournissant ainsi une base solide pour prendre des décisions éclairées et
développer des stratégies efficaces.
Bibliographie :
John Wang (2003),Data Mining Opportunities and Challenges
Mahendra Tiwari, Ramjee Dixit, Abhishek Kesharwani (August 16,2017),Data Mining Principles,
Process Model and Applications
Jiawei Han, Micheline Kamber, Jian Pei (2011) Data Mining: Concepts and Techniques
Arun K. Pujari (2001) Data Mining Techniques
Ian H. Witten, Eibe Frank, Mark A. Hall, Christopher J. Pal (2016)Data Mining: Practical Machine
Learning Tools and Techniques, Fourth Edition,
Parteek Bhatia (2019), Data Mining and Data Warehousing .Principles and Practical Techniques
Ian H. Witten, Eibe Frank (2005) , Data Mining.Practical Machine Learning Tools and Techniques,
Second Edition
Das Saumendra (2022) ‘Customer Segmentation via Data Mining Techniques : State-of-the-Art‘,
Computational Intelligence in Data Mining Review, pp.489-491.
David Loshin. (2013) ‘Knowledge Discovery and Data Mining for Predictive Analytics,Business
Intelligence (Second Edition),pp.271-286.
Anita B. Desai. (2013) ‘Data mining techniques for Fraud Detection’, International Journal of
Computer Science and Information Technologies, Vol. 4 (1), pp.1-4.
Deshpande,B. (2015) Predictive Analytics and Data Mining. USA : Waltham.
Prabadevi, B. (2023) ‘Customer churning analysis using machine learning algorithms’, International
Journal of Intelligent Networks, Volume(4), pp.145-154.
Dilbag S. (2012) ‘Conceptual Mapping of Insurance Risk Management to Data Mining’,
International Journal of Computer Applications V.39, pp 1-6.
John M. Kirimi & Christopher A. Moturi (2016) ‘Application of Data Mining Classification in
Employee Performance Prediction’, International Journal of Computer Applications, Volume (146),
pp.1-8.
Abderrafih Lehmam, Essential summarizer: innovative automatic text summarization software in
twenty languages, 2010
Anshu, 2019, Review Paper on Data Mining Techniques and Applications, International Journal of
Innovative Research in Computer Science & Technology, 7(2): 22-26
A. K. Dogra, & Tanuj Wala, 2015, A Review Paper on Data Mining Techniques and Algorithms,
International Journal of Advanced Research in Computer Engineering & Technology
(IJARCET),4(5): 1
Han, J., Kamber, M., & Pei, J. (2012). Data Mining. Concepts and Techniques. Waltham:
Elsevier Inc.
Julio Ponce, A. O. Alberto Hernández, A. P. Felipe Padilla, Francisco Álvarez, & E. P. d. León.
2009.Data Mining in Web Applications. In J. P. a. A. Karahoca (Ed.), Data Mining and Knowledge
Discovery in Real Life Applications: 438. Austria: I-Tech.
P.Thangaraju, & D.Nanthini, 2015, AN EXHAUSTIVE STUDY ON ASSOCIATION RULE
MINING, International Journal of Computer Science and Mobile Computing, 4(3): 411 – 417
S. K. Solanki, & J. T. Patel. 2015. A Survey on Association Rule Mining, 2015 Fifth International
Conference on Advanced Computing & Communication Technologies: 212-216
Smita, & P. Sharma, 2014, Use of Data Mining in Various Field: A Survey Paper, IOSR Journal of
Computer Engineering (IOSR-JCE), 16(3): 18-21
R. Tamilselvi, & S. Kalaiselvi, 2013, An Overview of Data Mining Techniques and Applications,
International Journal of Science and Research, 2(2): 506-509
Rastogi, R., & Bansal, M. (2023). Diabetes prediction model using data mining techniques.
Measurement: Sensors, Volume 25.
www.altexsoft.com

Data Mining Projet-M

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Data Mining Projet-M

Transféré par

Droits d'auteur :

Formats disponibles

Business Intelligence

Data Mining. La technologie et exemples de corrélations trouvées spécifiques à

1. Introduction -DATA MINING.......................................................................................................................3

1. Introduction -DATA MINING

 Avantages de l'exploration de données

2. L’utilisation de data mining en business

La stratégie de segmentation de la clientèle (Customer Segmentation) dans les entreprises,

Un autre domaine est celui de l’analyse du panier de consommation (Market Basket

L'évaluation de la performance des employés (Employee Performance Analysis) est une

3. Data Mining Techniques

inconnues (Dogra&TanujWala, 2015 ; Smita&Sharma,2014). Il consiste à analyser des données

Figure 1. Types de data mining

John Wang (2003),Data Mining Opportunities and Challenges

Arun K. Pujari (2001) Data Mining Techniques

Vous aimerez peut-être aussi