Académique Documents
Professionnel Documents
Culture Documents
Projet
Étudiant(e)s:
Cîmpeanu Gabriela
Coordonnateur scientifique: Prof. Liana Anica Popa Drăgan Ana-Maria
Nechifor Mihaela
Paltin Ana-Maria
BUCAREST
2024
Business Intelligence
Contenu
Le but
Le but du data mining est d'extraire des connaissances, des informations et des modèles utiles à
partir de grandes quantités de données.
La motivation
La création de cette recherche sur l'exploration de données nous offre la possibilité d'explorer des
applications concrètes de ce domaine. Il nous permet de mieux comprendre le systèmes de Data
mining, comment il est utilisé et où.
Les objectifs principaux du data mining
Expliquer un processus, évènement ou phénomène
Confirmer d’une hypothèse
Découvrir des modèles et des relations cachés
Explorer les données en but de découvrir des corrélations inconnues
Prédiction et prévision
Segmenter et cibler les clients
Détection des anomalies
Optimisation des processus
Exploration de données
La méthodologie
Nous avons fait notre recherche sur les techniques et l'utilisation dans un cadre business, de Data
mining en nous utilisant des différents documents relèvent et livre mis à notre disposition.
Définition
Data Mining est le processus de filtrage, de tri et de classification des données provenant de grands
ensembles de données pour révéler des modèles et des relations subtiles, permettant aux entreprises
d'identifier et de résoudre des problèmes commerciaux complexes grâce à l'analyse des données.
" L'exploration de données est l'extraction non triviale d'informations implicites, jusqu'alors
inconnues et potentiellement utiles à partir de données". (W. Frawley)
"L'exploration de données n'est rien d'autre que de torturer les données jusqu'à ce qu'elles soient
avouées..."
"Si vous le torturez suffisamment, vous pouvez lui faire avouer n'importe quoi". (Fred Menger)
"…processus d’extraction des connaissances des volumes très grands de données, mémorisés dans
des bases de données, ED ou autre source”. (Han şi Kamber, 2001)
"…recherché de corrélations, liaisons schématiques dans une base volumineuse ou complexe d’infos
en but de les transformer en connaissances” (Goglin, 1998)
Business Intelligence
Les entreprises s'appuient fortement sur l'exploration de données pour leurs efforts
analytiques en matière de développement organisationnel.
De nombreuses organisations de divers secteurs tirent parti de l'exploration de données,
notamment la fabrication, le marketing, la chimie, l'aérospatiale, etc., pour accroître leur efficacité
commerciale. Par conséquent, les besoins en matière de processus d'exploration de données standard
ont considérablement augmenté.
Les données analytiques issues de l'exploration de données sont utilisées pour diverses
applications d'analyse et de business intelligence (BI) qui prennent en compte certaines informations
historiques en plus de l'analyse des données en temps réel.
Les meilleures techniques d'exploration de données permettent aux entreprises de développer
plusieurs stratégies commerciales et de mieux gérer leurs opérations.
Cela peut inclure l'amélioration des fonctions orientées client telles que la publicité, le
marketing, les ventes, le support client, les finances et les ressources humaines. L'approche générale
consiste à trouver des « pépites » de nouvelles informations dans les données. Il s'agit d'un domaine
interdisciplinaire dont les racines sont dans l'aide à la décision.
Exemple concret (domaine : e-commerce) :
De nombreux détaillants en ligne utilisent des techniques d'exploration de données pour extraire des
informations précieuses des données collectées sur le comportement de leurs clients afin de fournir
des recommandations personnalisées et d'améliorer l'expérience d'achat.
L'analyse des données relatives à l'historique des achats, aux préférences et au comportement de
navigation des clients permet d'identifier des modèles et des tendances. Ces informations peuvent
être utilisées pour créer des profils de clients et des segments de marché basés sur les préférences et
les besoins individuels des clients.
Grâce à des algorithmes de classement et de recommandation, des recommandations personnalisées
peuvent être fournies aux clients en fonction de leurs achats précédents et de leur comportement de
navigation et peut également être utilisée pour identifier les fraudes et les comportements suspects
dans les transactions en ligne. Les algorithmes de détection d'anomalies peuvent analyser les
habitudes d'achat et identifier les activités inhabituelles telles que des transactions frauduleuses ou
une utilisation non autorisée de cartes de crédit.L'exploration de données peut également aider à
l'optimisation des stocks et à la gestion de la chaîne d'approvisionnement. En analysant les données
de vente, les modèles de demande peuvent être identifiés et les quantités de produits nécessaires à
l'avenir peuvent être prédites. Cela permet aux détaillants d'ajuster leurs stocks en fonction de la
demande prévue, réduisant ainsi les coûts de stockage et le risque de rupture de stock ou de
surstockage.
De nombreuses personnes considèrent l'exploration de données comme synonyme d'un autre
terme couramment utilisé, Knowledge Discovery Data, ou KDD, tandis que d'autres considèrent
simplement l'exploration de données comme une étape importante dans le processus de découverte
de connaissances.
Business Intelligence
Le processus de découverte des connaissances est représenté par une séquence d'étapes :
Nettoyage des données Data Cleaning Exploration des données Data Mining
Intégration des données Data Integration Evaluation des modèles Pattern Evaluation
Sélection des données Data Selection Présentation des connaissances
Transformation des données Data Knowledge Presentation
Transformation
Un autre domaine importent c’est la gestion des risques (Risk Management). Dans le
contexte du Data mining, elle fait référence au processus d’identification, d’évaluation et
d’atténuation des risques potentiels associés à l’application de techniques d’exploration de données
dans un domaine ou pour un projet particulier. Il s’agit d’une analyse systématique des menaces et
des incertitudes potentielles afin de s’assurer que les activités d’exploration de données sont menées
Business Intelligence
de manière responsable. En général, les étapes du processus de gestion des risques comprennent les
cinq phases suivantes :
L’objectif principal de data mining est de créer soit un modèle descriptif, soit un modèle
prédictif. Chaque type répond à des besoins commerciaux distincts et offre des informations
uniques. Dans le modèle descriptif, les données sont divisées en groupes, les probabilités totales des
données sont distribuées et des modèles sont formes pour décrire les relations entre les
caractéristiques. Alors que le modèle prédictif est utilisé pour prédire les valeurs futures et
Business Intelligence
Les réseaux neuronaux traitent les données à l'aide de nœuds. Ces nœuds sont composés
d'entrées, de poids et d'une sortie. Les réseaux de neurones sont un type d’apprentissage automatique
ou de modèle d’IA inspiré de la structure et du fonctionnement du cerveau humain. Ce modèle peut
être programmé pour donner des valeurs seuils afin de déterminer la précision d'un modèle.
Par exemple, une compagnie aérienne pourrait catégoriser ses clients en fonction de leurs
habitudes de voyage et de dépenses, offrant des programmes de fidélité adaptés. De même, cette
méthode pourrait être utilisée pour évaluer les demandes de prêt bancaire, distinguant entre celles
sûres et risquées.
La régression
Son objectif principal est de créer un modèle capable d'estimer la valeur d'une variable (la
variable dépendante) en fonction des changements d'autres variables (les variables indépendantes)
pour faire des prédictions précises dans un ensemble de données.
Par exemple, une chaîne hôtelière pourrait utiliser la régression pour analyser les données
concernant les réservations passées et les stratégies de tarification afin de prévoir les revenus pour
différentes périodes de l'année.
L'analyse de séries temporelles
Cela est une technique spécialisée pour analyser et interpréter des données collectées à
intervalles de temps réguliers. Cette méthode est particulièrement utile pour identifier les tendances,
les patterns saisonniers et les comportements cycliques. Contrairement à d'autres méthodes de
fouille de données qui traitent des informations statiques, l'analyse de séries temporelles se
concentre sur des données qui évoluent avec le temps et implique des techniques telles que la
prévision, l’analyse des tendances, la détection de la saisonnalité et la détection des anomalies.
Les compagnies aériennes utilisent l'analyse de séries temporelles pour prédire la demande
des passagers en examinant les données historiques. De même, cette technique est appliquée dans le
domaine financier pour acheter des actions, en analysant les performances mensuelles des
entreprises et en prévoyant leur croissance future.
Le regroupement (Clustering)
Le clustering est une méthode d’apprentissage non supervisée. Il consiste à regrouper
différents objets en fonction de leurs similitudes, créant des clusters/groupes. Dans certaines
applications, le clustering est appelé segmentation de données car il segmente le grand ensemble de
données en groupes en fonction de sa similarité (Solanki & Patel, 2015).
Contrairement à la classification, qui trie les données dans des catégories prédéfinies en
fonction d'attributs connus, le regroupement est exploratoire, identifiant des similitudes entre les
objets, puis regroupe ces éléments en fonction de ce qui les rend différents des autres éléments.
Par exemple, une entreprise de croisières peut utiliser le regroupement pour segmenter les
clients en examinant l'historique des voyages, les dépenses à bord et les caractéristiques
démographiques. Ainsi, elle peut cibler efficacement différents clusters, tels que les familles
Business Intelligence
orientées vers les activités pour enfants ou les couples retraités recherchant des expériences
luxueuses.
Summarization
Un résumé signifie la réduction de grands ensembles de données sous une forme plus
compréhensible sans perdre leurs informations essentielles. Ce processus consiste à extraire et à
présenter les caractéristiques clés des données, permettant un aperçu rapide et une compréhension de
leurs principales caractéristiques.
Association rules
L'association est la technique d'exploration de données la plus populaire qui décrit des
modèles qui ont tendance à se produire ensemble dans la même transaction. Il est utilisé pour
trouver les ensembles d'éléments les plus fréquents (Julio Ponce et al., 2009).
Les règles d'association, également appelées analyse du panier de marché, recherchent des
relations entre les variables. Il permet d'identifier les éléments fréquents et génère des règles telles
que « si X, alors Y » pour révéler les associations entre les éléments. Ce diagramme de Venn simple
montre les associations entre les ensembles d'éléments X et Y d'un ensemble de données.
La règle d'association est généralement utilisée dans de nombreux domaines, tels que les
applications médicales, l'analyse du panier de marché, les réseaux de communication modernes, etc.
(P.Thangaraju & D.Nanthini, 2015). Par exemple, les règles d'association pourraient examiner
l'historique des ventes d'une entreprise pour voir quels produits sont le plus fréquemment achetés
ensemble ; avec ces informations, les magasins peuvent planifier, promouvoir et prévoir.
Certaines techniques, comme les arbres de décision, sont flexibles et peuvent être utilisées à
la fois dans des contextes prédictifs et descriptifs en fonction de l'application. Les arbres de décision
classent ou prédisent des résultats en posant des questions successives basées sur des critères définis,
offrant une approche visuelle pour explorer les données. La détection des valeurs aberrantes identifie
des instances rares ou inhabituelles, utile, par exemple, pour détecter des transactions frauduleuses
ou des comportements anormaux.
Conclusion
En conclusion, , le data mining vise à transformer les données en informations exploitables, à
découvrir des modèles et des relations cachés, à prédire des événements futurs et à prendre des
décisions éclairées dans divers domaines d'application. L’utilisation du data mining offre de
nombreux avantages et opportunités pour analyser et extraire des informations à partir de grandes
quantités de données. Cette méthode aide à identifier les modèles, tendances et connexions cachés
dans les données, fournissant ainsi une base solide pour prendre des décisions éclairées et
développer des stratégies efficaces.
Business Intelligence
Bibliographie :
Mahendra Tiwari, Ramjee Dixit, Abhishek Kesharwani (August 16,2017),Data Mining Principles,
Process Model and Applications
Jiawei Han, Micheline Kamber, Jian Pei (2011) Data Mining: Concepts and Techniques
Ian H. Witten, Eibe Frank, Mark A. Hall, Christopher J. Pal (2016)Data Mining: Practical Machine
Learning Tools and Techniques, Fourth Edition,
Parteek Bhatia (2019), Data Mining and Data Warehousing .Principles and Practical Techniques
Ian H. Witten, Eibe Frank (2005) , Data Mining.Practical Machine Learning Tools and Techniques,
Second Edition
Das Saumendra (2022) ‘Customer Segmentation via Data Mining Techniques : State-of-the-Art‘,
Computational Intelligence in Data Mining Review, pp.489-491.
David Loshin. (2013) ‘Knowledge Discovery and Data Mining for Predictive Analytics,Business
Intelligence (Second Edition),pp.271-286.
Anita B. Desai. (2013) ‘Data mining techniques for Fraud Detection’, International Journal of
Computer Science and Information Technologies, Vol. 4 (1), pp.1-4.
Deshpande,B. (2015) Predictive Analytics and Data Mining. USA : Waltham.
Prabadevi, B. (2023) ‘Customer churning analysis using machine learning algorithms’, International
Journal of Intelligent Networks, Volume(4), pp.145-154.
Dilbag S. (2012) ‘Conceptual Mapping of Insurance Risk Management to Data Mining’,
International Journal of Computer Applications V.39, pp 1-6.
John M. Kirimi & Christopher A. Moturi (2016) ‘Application of Data Mining Classification in
Employee Performance Prediction’, International Journal of Computer Applications, Volume (146),
pp.1-8.
Abderrafih Lehmam, Essential summarizer: innovative automatic text summarization software in
twenty languages, 2010
Anshu, 2019, Review Paper on Data Mining Techniques and Applications, International Journal of
Innovative Research in Computer Science & Technology, 7(2): 22-26
Business Intelligence
A. K. Dogra, & Tanuj Wala, 2015, A Review Paper on Data Mining Techniques and Algorithms,
International Journal of Advanced Research in Computer Engineering & Technology
(IJARCET),4(5): 1
Han, J., Kamber, M., & Pei, J. (2012). Data Mining. Concepts and Techniques. Waltham:
Elsevier Inc.
Julio Ponce, A. O. Alberto Hernández, A. P. Felipe Padilla, Francisco Álvarez, & E. P. d. León.
2009.Data Mining in Web Applications. In J. P. a. A. Karahoca (Ed.), Data Mining and Knowledge
Discovery in Real Life Applications: 438. Austria: I-Tech.
P.Thangaraju, & D.Nanthini, 2015, AN EXHAUSTIVE STUDY ON ASSOCIATION RULE
MINING, International Journal of Computer Science and Mobile Computing, 4(3): 411 – 417
S. K. Solanki, & J. T. Patel. 2015. A Survey on Association Rule Mining, 2015 Fifth International
Conference on Advanced Computing & Communication Technologies: 212-216
Smita, & P. Sharma, 2014, Use of Data Mining in Various Field: A Survey Paper, IOSR Journal of
Computer Engineering (IOSR-JCE), 16(3): 18-21
R. Tamilselvi, & S. Kalaiselvi, 2013, An Overview of Data Mining Techniques and Applications,
International Journal of Science and Research, 2(2): 506-509
Rastogi, R., & Bansal, M. (2023). Diabetes prediction model using data mining techniques.
Measurement: Sensors, Volume 25.
www.altexsoft.com