Académique Documents
Professionnel Documents
Culture Documents
STT 3795
Guy Wolf
guy.wolf@umontreal.ca
Université de Montréal
Hiver 2023
données collectées
-
données collectées
-
données collectées
-
-
données collectées
-
-
-
données collectées
-
+)
⊆ RO(100
-
-
-
données collectées
-
+)
⊆ RO(100
-
-
-
Méthodes prédictives
Prédisent des informations inconnues à partir de données connues.
Combien peux-je demander pour ma maison selon les
statistiques de vente?
Bob aimera-t-il Ghostbusters selon son histoire Netflix?
Méthodes descriptives
Déduisent ou extraient des modèles interprétables pour décrire les
données.
Quels profils de consommateurs doit-on cibler aux annonces?
Si la carte de Jean essaie de facturer 300$ dans un magasin
Disney aujourd’hui, est-ce raisonnable ou une fraude?
STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 6 / 21
La science des données, c’est quoi?
Apprentissage supervisé et nonsupervisé
Apprentissage supervisé
Déduire des informations à partir de données étiquetées.
Apprentissage non-supervisé
Recherche de motifs cachés dans des données sans étiquettes.
Apprentissage semi-supervisé
Combinez les informations des données étiquetées et non étiquetées
pour modéliser et déduire des informations.
Classification
Classer des “objets” en un ensemble fini de classes ou “catégories”.
Phase d’entraînement
Données étiquetées: Modèle de classification:
z }| { z }| {
{(x1 , `1 ), . . . , (xn , `n )} ⊂ X × L Z⇒ F : X → L, F (xi ) = `i |L| < ∞
Phase de test
Nouveaux données: Résultat de classification:
z }| { z }| {
y1 , y2 , . . . ∈ X 7→ Modèle de classification Z⇒ F (y1 ), . . . , F (yn ) ∈ L
Régression
Calculer les valeurs d’une fonction continue (par morceaux) à partir
d’un nombre fini “d’objets” & de valeurs échantillonnées.
Regroupement
Regrouper des “éléments” similaires tout en séparant ceux qui sont
différents les uns des autres.
Regroupement
Regrouper des “éléments” similaires tout en séparant ceux qui sont
différents les uns des autres.
Regroupement
Regrouper des “éléments” similaires tout en séparant ceux qui sont
différents les uns des autres.
La qualité du regroupement obtenu provient de son interprétabilité.
Des variations comprennent un nombre connu ou inconnu de numéros
de groupes, ainsi que de regroupement hiérarchique et multi-échelle.
Exemples
Diversifier les investissements boursiers en regroupant des actions
Détection des communautés en regroupant les profils sociaux
Regroupement des gènes et des cellules pour découvrir des
activités, réactions et interactions
Profilage de l’activité réseau par regroupement des paquets
STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 11 / 21
Tâches d’analyse de données
Détection d’anomales
Détection d’anomales
Détecter des écarts significatifs du comportement normal exprimés
par les modèles inférés des données .
Phase d’entraînement
Règles d’association:
Transactions observées: z }| {
z }| {
X X
T1 , . . . , Tn ⊆ X Z⇒ F : 2 → 2 , T ⊆ Ti 7→ F (T ) ≈ Ti \ T
Phase de test
Transactions partielles: Informations prévues:
z }| { z }| {
S1 , S2 , . . . ⊆ X 7→ Règles d’association Z⇒ ∀i , Si 7→ F (Si ) ⊆ X \ Si
STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 13 / 21
Tâches d’analyse de données
Règles d’association
Exemples
Publicités & recommandations actives (p.ex., “Les utilisateurs
qui ont aimé/acheté ce produit-ci ont également aimé/acheté
celui-là”)
Soutenir la prise de décision sur l’organisation des rayons des
magasins & supermarchés
Complètement automatique des noms dans les courriels, les
réseaux sociaux, etc.
STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 13 / 21
Tâches d’analyse de données
Motifs séquentiels
Réduction de dimensions
Trouver des coordonnées en basses dimensions (p.ex., en Rd ,
d < 10) qui représentent les données.
Réduction de dimensions
Trouver des coordonnées en basses dimensions (p.ex., en Rd ,
d < 10) qui représentent les données.
Visualisation
Trouvez des représentations interprétables en 2D ou 3D via des
éléments, des motifs, des tendances, et des structures géométriques
dans les données.
Une combinaison de ces techniques peut aider à créer des algorithmes
de traitement de données interactifs qui utilisent des éléments
descriptifs non supervisés pour demander des entrées humaines, puis
utilisent des approches prédictives semi-supervisées pour produire les
résultats plus solides.
STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 15 / 21
Tâches d’analyse de données
Visualisation & réduction de dimensions - exemple
3 Prétraitement
4 Appliquer des algorithmes
5 Post-traitement & obtenir des résultats interprétables
6 Évaluation & validation croisée
Objectifs spécifiques:
1 (a) Se familiariser avec une sélection variée d’approches de
l’apprentissage supervisé et non-supervisé.
2 (b) Connaître des modèles mathématiques des structures
intrinsèques des données.
3 (c) Distinguer entre des modèles linéaires et non linéaires.