Académique Documents
Professionnel Documents
Culture Documents
0 Intro - New
0 Intro - New
FOUILLE DE
DONNÉES
A. BELAID, 2018
Université de Béjaia,
Département Informatique
I. Introduction
1
08/04/2018
Plateforme d’enseignement à
distance
• http://elearning.univ-bejaia.dz/
Définition
• Data Mining == Fouille de données
2
08/04/2018
Exemples d’applications
• Entreprise et Relation Clients: création de profils clients,
ciblage de clients potentiels et nouveaux marchés
• Finances: minimisation de risques financiers
• Bioinformatique: analyse du génome, mise au point de
médicament ...
• Internet: spam, e-commerce, détection d’intrusion, recherche
d’informations ...
• Sécurité
3
08/04/2018
Exemples d’applications : E-
commerce
Targeting (ciblage)
• Stocker les séquences de clicks des visiteurs, analyser les
caractéristiques des acheteurs
• Faire du ”targeting” lors de la visite d’un client potentiel
Systèmes de recommandation
• Opportunité : les clients notent les produits! Comment tirer
profit de ces données pour proposer des produits à un autre
client ?
• Solutions: technique dit de filtrage collaboratif pour regrouper
les clients ayant les mêmes “goûts”.
Exemples d’applications :
Analyse des risques
Détection de fraudes pour les assurances
• Analyse des déclarations des assurés par un expert afin
d’identifier les cas de fraudes.
• Applications de méthodes statistiques pour identifier les
déclarations fortement corrélées à la fraude.
Prêt Bancaire
• Objectif des banques: réduire le risque des prêts bancaires.
• Créer un modèle à partir de caractérisques des clients pour
discriminer les clients à risque des autres.
4
08/04/2018
Exemples d’applications :
Commerce
Opinion mining
• Exemple: analyser l’opinion des usagers sur les produits d’une
entreprise à travers les commentaires sur les réseaux sociaux
et les blogs
5
08/04/2018
Type de données
• Capteurs variables quantitatives, qualitatives, ordinales
• Texte Chaîne de caractères
• Parole Séries temporelles
• Images données 2D
• Videos données 2D + temps
• Réseaux Graphes
• Flux Logs, coupons. . .
• Etiquettes information d’évaluation
• Big Data (volume, vélocité, variété), flot "continu" de données
• Pre-traitement des données: nettoyage, normalisation, codage. . .
• Représentation : des données aux vecteurs
6
08/04/2018
Données et Métriques
Les algorithmes nécessitent une notion de similarité dans l’espace 𝓧 des
données. La similarité est traduite par la notion de distance. Pour
𝑥, 𝑦 ∈ 𝑅𝑑 , on a :
distance euclidienne :
𝑑
2
𝐷 𝑥, 𝑦 = 𝑥 − 𝑦 2 = 𝑥𝑗 − 𝑦𝑗
𝑗=1
= 𝑥 − 𝑦 𝑇 (𝑥 − 𝑦).
distance de manhattan
𝑑
𝐷 𝑥, 𝑦 = 𝑥 − 𝑦 1 = 𝑥𝑗 − 𝑦𝑗 .
𝑗=1
distance de mahalanobis
𝐷 𝑥, 𝑦 = 𝑥 − 𝑦 𝑇 𝑀−1 (𝑥 − 𝑦), avec 𝑀 ∈ 𝑅𝑑×𝑑 : matrice carrée
définie positive
7
08/04/2018
Organisation du cours
• Introduction et généralités
• Méthode des 𝑘 plus proches voisins
• Clustering
• CHA
• K means
• Modèles de mélange
• Modèle bayesien
• La régression
• La réduction de données
8
08/04/2018
9
08/04/2018
10
08/04/2018
𝐿(𝑌, 𝑓(𝑋)) = 𝑌 − 𝑓 𝑋 ,
𝑅 𝑓 = 𝐸 𝑌 − 𝑓 𝑋 = ∫ 𝑦 − 𝑓 𝑥 𝑝 𝑥, 𝑦 𝑑𝑥𝑑𝑦.
11
08/04/2018
2
• Fonction de coût typique : quadratique 𝑦 − 𝑓 𝑥
𝑅 𝑓
𝑃𝑎𝑟𝑎𝑚è𝑡𝑟𝑒 𝛼
12
08/04/2018
Illustration du sur-
apprentissage
13
08/04/2018
Sélection de modèles
Problématique
𝑅𝑒𝑚𝑝 𝑓𝛼 = 𝑦𝑖 − 𝑓𝛼 𝑥𝑖 2.
𝑖=1
• Objectifs :
1) proposer une méthode d’estimation d’un modèle afin de choisir
(approximativement) le meilleur modèle appartenant à l’espace
hypothèses.
2) une fois le modèle choisi, calculer son erreur de généralisation.
Sélection de modèles :
approche classique
Cas idéal : Données 𝑫𝑵 avec N très grand
14
08/04/2018
Sélection de modèles :
Validation Croisée
Cas moins favorable : les données 𝑫𝑵 sont modestes
Sélection de modèles :
Validation Croisée (suite)
• Détails :
𝑘 𝑁𝑘
1 1
𝑅𝐶𝑉 = 𝐿(𝑦𝑖𝑘 , 𝑓 −𝑘 (𝑥𝑖𝑘 ))
𝐾 𝑁𝑘
𝐾=1 𝑖=1
15
08/04/2018
Conclusions
Pour bien mener un projet de DM:
Au final ...
• Les voies du Machine Learning et du traitement des données c’est ...
16