STT3795 - S01

Fondements théorétiques à la science des données
Introduction à la science des données
STT 3795
Guy Wolf
guy.wolf@umontreal.ca
Université de Montréal
Hiver 2023
STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 1 / 21

Préambule
Les données collectées ont augmenté exponentiellement durant la dernière
décennie, c’est qui a favorisé l’émergence de la science des données.
Exemple (Stephens et al. 2015)

Préambule
Les données collectées ont augmenté exponentiellement durant la dernière
décennie, c’est qui a favorisé l’émergence de la science des données.
Les trois V
Adaptée de “Big data et Machine Learning”, Dunod, 2015

La science des données, c’est quoi?


«Data Mining» «Machine Learning»
Extraction non triviale des infor- Apprentissage automatique; des
mations utiles, nouvelles, cachées méthodes qui permettent les ordi-
ou implicites à partir des données. nateurs d’apprendre sans être ex-
plicitement programmés.
«Deep Learning»
(apprentissage profond) «Big Data»
Des algorithmes qui modélisent Des données extrêmement volu-
des abstractions des données mineux qui peuvent être analysés
en utilisant plusieurs couches par ordinateur pour révéler des
de traitement, composées de modèles, des tendances et des as-
transformations linéaires et non sociations, en particulier concer-
linéaires. nant le comportement humain et
les interactions.

Des données aux informations


Des données aux information / à la connaissance

données collectées
-

-

-
-

-
-
-

-
+)
⊆ RO(100
-
-
-

-
+)
⊆ RO(100
-
-
-



Exemples de tâches d’analyse / d’exploration de données:

Recommander des films sur Netflix ou des livres sur Amazon.
Reconnaissance d’objets dans les images et marquage
automatique des images
Détection des communautés dans les réseaux sociaux
Diagnostic médical automatique et recommandation de
traitement
Exemples d’autres tâches de traitement des données dehors de la
science de données :
Antivirus basé sur les signatures
Récupération des détails d’une liste de contacts
Recherche textuelle dans un document ou sur le Web
Quicksort, arbres équilibrés, etc.
Méthodes prédictives et descriptives
Méthodes prédictives
Prédisent des informations inconnues à partir de données connues.
Combien peux-je demander pour ma maison selon les
statistiques de vente?
Bob aimera-t-il Ghostbusters selon son histoire Netflix?
Méthodes descriptives
Déduisent ou extraient des modèles interprétables pour décrire les
données.
Quels profils de consommateurs doit-on cibler aux annonces?
Si la carte de Jean essaie de facturer 300$ dans un magasin
Disney aujourd’hui, est-ce raisonnable ou une fraude?
Apprentissage supervisé et nonsupervisé
Les tâches d’apprentissage automatique en science de données sont

grossièrement divisés en:
Apprentissage supervisé
Déduire des informations à partir de données étiquetées.
Apprentissage non-supervisé
Recherche de motifs cachés dans des données sans étiquettes.
Apprentissage semi-supervisé
Combinez les informations des données étiquetées et non étiquetées
pour modéliser et déduire des informations.

Tâches d’analyse de données
Classification
Classification
Classer des “objets” en un ensemble fini de classes ou “catégories”.
Phase d’entraînement
Données étiquetées: Modèle de classification:
z }| { z }| {
{(x1 , `1 ), . . . , (xn , `n )} ⊂ X × L Z⇒ F : X → L, F (xi ) = `i |L| < ∞
Phase de test
Nouveaux données: Résultat de classification:
z }| { z }| {
y1 , y2 , . . . ∈ X 7→ Modèle de classification Z⇒ F (y1 ), . . . , F (yn ) ∈ L

Classification - exemples
Exemple (Classification des chiffres de MNIST)

Classification - exemples
Exemple (Classification des images de CalTech 101)

Anchor Joshua-Tree Beaver Lotus Water-Lily

Régression
Régression
Calculer les valeurs d’une fonction continue (par morceaux) à partir
d’un nombre fini “d’objets” & de valeurs échantillonnées.
Cette tâche est similaire à la classification, mais ici le modèle F peut

R
avoir un codomaine infini (p.ex., or [0, 1]).
Exemples
Évaluation de prix du marché d’une maison/voiture en fonction
de ses caractéristiques.
Ajustement de courbe à partir des données expérimentales.
Les prévisions de météo (température / probabilité de neige).
Indice de confiance dans les diagnostics / classificateurs binaires.
Regroupement
Regroupement
Regrouper des “éléments” similaires tout en séparant ceux qui sont
différents les uns des autres.

Regroupement
Regroupement

Regroupement
Regroupement
La qualité du regroupement obtenu provient de son interprétabilité.
Des variations comprennent un nombre connu ou inconnu de numéros
de groupes, ainsi que de regroupement hiérarchique et multi-échelle.
Exemples
Diversifier les investissements boursiers en regroupant des actions
Détection des communautés en regroupant les profils sociaux
Regroupement des gènes et des cellules pour découvrir des
activités, réactions et interactions
Profilage de l’activité réseau par regroupement des paquets
Détection d’anomales
Détection d’anomales
Détecter des écarts significatifs du comportement normal exprimés
par les modèles inférés des données .
La notion de «comportement normal» peut être définie de plusieurs

manières, comme le regroupement ou l’ajustement de courbe.
Exemples
Détection de fraude sur les cartes de crédit
Détection d’intrusions en cybersécurité
Détection du trafic des «bots» dans la publicité en ligne
Détection de dysfonctionnement dans la monitorage de processus

Règles d’association
Découverte de règles d’association

Produire des règles de dépendance qui modélisent les cooccurence
d’entrée des “objets” pour prédire, étant donné une “transaction”
partielle, les “objets” restants.
Phase d’entraînement
Règles d’association:
Transactions observées: z }| {
z }| {
X X
T1 , . . . , Tn ⊆ X Z⇒ F : 2 → 2 , T ⊆ Ti 7→ F (T ) ≈ Ti \ T
Phase de test
Transactions partielles: Informations prévues:
z }| { z }| {
S1 , S2 , . . . ⊆ X 7→ Règles d’association Z⇒ ∀i , Si 7→ F (Si ) ⊆ X \ Si
Règles d’association
Découverte de règles d’association

Produire des règles de dépendance qui modélisent les cooccurence
d’entrée des “objets” pour prédire, étant donné une “transaction”
partielle, les “objets” restants.
Exemples
Publicités & recommandations actives (p.ex., “Les utilisateurs
qui ont aimé/acheté ce produit-ci ont également aimé/acheté
celui-là”)
Soutenir la prise de décision sur l’organisation des rayons des
magasins & supermarchés
Complètement automatique des noms dans les courriels, les
réseaux sociaux, etc.
Motifs séquentiels
Découverte de motifs séquentiels

Étant donné un ensemble de séquences ordonnées, produire des règles
pour prédire des événements inconnus / manquants / futurs à partir
d’événements antérieurs et / ou ultérieurs.
Similaire à la découverte de règles d’association, mais avec un aspect

d’ordre ou de chronologie pour chaque transaction.
Exemples
Analyse des chaînes de caractères:
Traitement automatique du langage naturel
Séquençage de gènes dans l’ADN et l’ARN
Séquences d’achat d’articles fréquentes
Prédire les résultats d’un traitement médical
Visualisation & réduction de dimensions
Réduction de dimensions
Trouver des coordonnées en basses dimensions (p.ex., en Rd ,
d < 10) qui représentent les données.
Souvent utilisé comme une étape utile (ou même critique) de

prétraitement pour atténuer les défis du fléau de la dimension.
Visualisation
Trouvez des représentations interprétables en 2D ou 3D via des
éléments, des motifs, des tendances, et des structures géométriques
dans les données.
Utilisé pour permettre le traitement des données par les utilisateur
humains pour tirer des conclusions, pour appuyer la prise de décision
ou pour guider l’exploration de données.
Visualisation & réduction de dimensions
Réduction de dimensions
Trouver des coordonnées en basses dimensions (p.ex., en Rd ,
d < 10) qui représentent les données.
Visualisation
Trouvez des représentations interprétables en 2D ou 3D via des
éléments, des motifs, des tendances, et des structures géométriques
dans les données.
Une combinaison de ces techniques peut aider à créer des algorithmes
de traitement de données interactifs qui utilisent des éléments
descriptifs non supervisés pour demander des entrées humaines, puis
utilisent des approches prédictives semi-supervisées pour produire les
résultats plus solides.
Visualisation & réduction de dimensions - exemple
Modélisation des mouvements des lèvres dans la parole:

Paramètres dominants: ouverture des lèvres et affichage des dents


Démarche typique d’analyse des données
La démarche d’analyse des données

1 Reconnaître la tâche spécifique
2 Connaître les données
3 Prétraitement
4 Appliquer des algorithmes
5 Post-traitement & obtenir des résultats interprétables
6 Évaluation & validation croisée


1 Reconnaître la tâche spécifique
2 Connaître les données P
i
3 Prétraitement


1 Reconnaître la tâche spécifique H
Y
2 Connaître les données

3 Prétraitement

Syllabus
Objectifs de cours
Formulation et compréhension des fondements mathématiques

sous-jacents à plusieurs des principaux problèmes, algorithmes et
méthodes de la science des données. Connaissance d’algorithmes
pour modéliser et extraire d’informations de grandes données (« Big
Data ») en apprentissage automatique.
Objectifs spécifiques:
1 (a) Se familiariser avec une sélection variée d’approches de
l’apprentissage supervisé et non-supervisé.
2 (b) Connaître des modèles mathématiques des structures
intrinsèques des données.
3 (c) Distinguer entre des modèles linéaires et non linéaires.

Syllabus
Sujets couvrant dans le cours
Traitement formel des données: Regroupement:

Données tabulaires et non-tabulaires DBScan
Statistiques sommaires k-moyennes
Visualisations Regroupement hiérarchique
Classification: Réduction de dimension:
Projections aléatoires
Classification bayésienne
Classification naïve bayésienne Analyse en composantes principales
Réseaux de croyances bayésiens Positionnement multidimensionnel
Isomap
Machine à vecteurs de support
Classification lineaire Diffusion maps
Astuce du noyau Des géométries de données:
Espaces métriques (distances/similarités)
Arbres de décision
Graphes et noyaux d’affinités
Mesures d’impureté:
Variétés de données
entropie et Gini
Gain d’information et d’impurité Géométries de diffusion
Forêts aléatoires Espace de Hilbert à noyau reproduisant

Syllabus
Composition de la note finale
La note finale de ce cours sera composée de trois composantes:

20% – devoirs
Devoir I: en février
Devoir II: en avril
30% – projet en groupe
Sélection de groupes: 2022-02-10
Proposition de projet: 2021-02-24
Rapport de projet: 2023-04-20
50% – examens
20% – Intra I: 2023-02-20
30% – Intra II: 2023-04-03

Livres optionnels en analyse de données

STT3795 - S01

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

STT3795 - S01

Transféré par

Droits d'auteur :

Formats disponibles

Fondements théorétiques à la science des données

Introduction à la science des données

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 1 / 21

Exemple (Stephens et al. 2015)

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 2 / 21

Adaptée de “Big data et Machine Learning”, Dunod, 2015

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 2 / 21

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 3 / 21

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 3 / 21

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 3 / 21

Des données aux informations

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 3 / 21

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 3 / 21

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 4 / 21

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 4 / 21

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 4 / 21

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 4 / 21

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 4 / 21

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 4 / 21

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 4 / 21

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 4 / 21

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 4 / 21

Exemples de tâches d’analyse / d’exploration de données:

Les tâches d’apprentissage automatique en science de données sont

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 7 / 21

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 8 / 21

Exemple (Classification des chiffres de MNIST)

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 9 / 21

Exemple (Classification des images de CalTech 101)

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 9 / 21

Cette tâche est similaire à la classification, mais ici le modèle F peut

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 11 / 21

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 11 / 21

La notion de «comportement normal» peut être définie de plusieurs

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 12 / 21

Découverte de règles d’association

Découverte de règles d’association

Découverte de motifs séquentiels

Similaire à la découverte de règles d’association, mais avec un aspect

Souvent utilisé comme une étape utile (ou même critique) de

Modélisation des mouvements des lèvres dans la parole:

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 16 / 21

Modélisation des mouvements des lèvres dans la parole:

Paramètres dominants: ouverture des lèvres et affichage des dents

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 16 / 21

Modélisation des mouvements des lèvres dans la parole:

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 16 / 21

La démarche d’analyse des données

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 17 / 21

La démarche d’analyse des données

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 17 / 21

La démarche d’analyse des données

2 Connaître les données

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 17 / 21

Formulation et compréhension des fondements mathématiques

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 18 / 21

Traitement formel des données: Regroupement:

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 19 / 21

La note finale de ce cours sera composée de trois composantes:

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 20 / 21

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 21 / 21

Vous aimerez peut-être aussi