Vous êtes sur la page 1sur 44

Fondements théorétiques à la science des données

Introduction à la science des données

STT 3795
Guy Wolf
guy.wolf@umontreal.ca

Université de Montréal
Hiver 2023

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 1 / 21


Préambule
Les données collectées ont augmenté exponentiellement durant la dernière
décennie, c’est qui a favorisé l’émergence de la science des données.

Exemple (Stephens et al. 2015)

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 2 / 21


Préambule
Les données collectées ont augmenté exponentiellement durant la dernière
décennie, c’est qui a favorisé l’émergence de la science des données.
Les trois V

Adaptée de “Big data et Machine Learning”, Dunod, 2015

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 2 / 21


La science des données, c’est quoi?

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 3 / 21


La science des données, c’est quoi?

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 3 / 21


La science des données, c’est quoi?
«Data Mining» «Machine Learning»
Extraction non triviale des infor- Apprentissage automatique; des
mations utiles, nouvelles, cachées méthodes qui permettent les ordi-
ou implicites à partir des données. nateurs d’apprendre sans être ex-
plicitement programmés.
«Deep Learning»
(apprentissage profond) «Big Data»
Des algorithmes qui modélisent Des données extrêmement volu-
des abstractions des données mineux qui peuvent être analysés
en utilisant plusieurs couches par ordinateur pour révéler des
de traitement, composées de modèles, des tendances et des as-
transformations linéaires et non sociations, en particulier concer-
linéaires. nant le comportement humain et
les interactions.
STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 3 / 21
La science des données, c’est quoi?

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 3 / 21


La science des données, c’est quoi?

Des données aux informations

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 3 / 21


La science des données, c’est quoi?

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 3 / 21


La science des données, c’est quoi?
Des données aux information / à la connaissance

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 4 / 21


La science des données, c’est quoi?
Des données aux information / à la connaissance

données collectées
-

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 4 / 21


La science des données, c’est quoi?
Des données aux information / à la connaissance

données collectées
-

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 4 / 21


La science des données, c’est quoi?
Des données aux information / à la connaissance

données collectées
-
-

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 4 / 21


La science des données, c’est quoi?
Des données aux information / à la connaissance

données collectées
-
-
-

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 4 / 21


La science des données, c’est quoi?
Des données aux information / à la connaissance

données collectées
-
+)
⊆ RO(100
-
-
-

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 4 / 21


La science des données, c’est quoi?
Des données aux information / à la connaissance

données collectées
-
+)
⊆ RO(100
-
-
-

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 4 / 21


La science des données, c’est quoi?
Des données aux information / à la connaissance

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 4 / 21


La science des données, c’est quoi?
Des données aux information / à la connaissance

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 4 / 21


La science des données, c’est quoi?
Des données aux information / à la connaissance

Exemples de tâches d’analyse / d’exploration de données:


Recommander des films sur Netflix ou des livres sur Amazon.
Reconnaissance d’objets dans les images et marquage
automatique des images
Détection des communautés dans les réseaux sociaux
Diagnostic médical automatique et recommandation de
traitement
Exemples d’autres tâches de traitement des données dehors de la
science de données :
Antivirus basé sur les signatures
Récupération des détails d’une liste de contacts
Recherche textuelle dans un document ou sur le Web
Quicksort, arbres équilibrés, etc.
STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 5 / 21
La science des données, c’est quoi?
Méthodes prédictives et descriptives

Méthodes prédictives
Prédisent des informations inconnues à partir de données connues.
Combien peux-je demander pour ma maison selon les
statistiques de vente?
Bob aimera-t-il Ghostbusters selon son histoire Netflix?

Méthodes descriptives
Déduisent ou extraient des modèles interprétables pour décrire les
données.
Quels profils de consommateurs doit-on cibler aux annonces?
Si la carte de Jean essaie de facturer 300$ dans un magasin
Disney aujourd’hui, est-ce raisonnable ou une fraude?
STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 6 / 21
La science des données, c’est quoi?
Apprentissage supervisé et nonsupervisé

Les tâches d’apprentissage automatique en science de données sont


grossièrement divisés en:

Apprentissage supervisé
Déduire des informations à partir de données étiquetées.

Apprentissage non-supervisé
Recherche de motifs cachés dans des données sans étiquettes.

Apprentissage semi-supervisé
Combinez les informations des données étiquetées et non étiquetées
pour modéliser et déduire des informations.

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 7 / 21


Tâches d’analyse de données
Classification

Classification
Classer des “objets” en un ensemble fini de classes ou “catégories”.

Phase d’entraînement
Données étiquetées: Modèle de classification:
z }| { z }| {
{(x1 , `1 ), . . . , (xn , `n )} ⊂ X × L Z⇒ F : X → L, F (xi ) = `i |L| < ∞

Phase de test
Nouveaux données: Résultat de classification:
z }| { z }| {
y1 , y2 , . . . ∈ X 7→ Modèle de classification Z⇒ F (y1 ), . . . , F (yn ) ∈ L

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 8 / 21


Tâches d’analyse de données
Classification - exemples

Exemple (Classification des chiffres de MNIST)

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 9 / 21


Tâches d’analyse de données
Classification - exemples

Exemple (Classification des images de CalTech 101)


Anchor Joshua-Tree Beaver Lotus Water-Lily

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 9 / 21


Tâches d’analyse de données
Régression

Régression
Calculer les valeurs d’une fonction continue (par morceaux) à partir
d’un nombre fini “d’objets” & de valeurs échantillonnées.

Cette tâche est similaire à la classification, mais ici le modèle F peut


R
avoir un codomaine infini (p.ex., or [0, 1]).
Exemples
Évaluation de prix du marché d’une maison/voiture en fonction
de ses caractéristiques.
Ajustement de courbe à partir des données expérimentales.
Les prévisions de météo (température / probabilité de neige).
Indice de confiance dans les diagnostics / classificateurs binaires.
STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 10 / 21
Tâches d’analyse de données
Regroupement

Regroupement
Regrouper des “éléments” similaires tout en séparant ceux qui sont
différents les uns des autres.

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 11 / 21


Tâches d’analyse de données
Regroupement

Regroupement
Regrouper des “éléments” similaires tout en séparant ceux qui sont
différents les uns des autres.

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 11 / 21


Tâches d’analyse de données
Regroupement

Regroupement
Regrouper des “éléments” similaires tout en séparant ceux qui sont
différents les uns des autres.
La qualité du regroupement obtenu provient de son interprétabilité.
Des variations comprennent un nombre connu ou inconnu de numéros
de groupes, ainsi que de regroupement hiérarchique et multi-échelle.
Exemples
Diversifier les investissements boursiers en regroupant des actions
Détection des communautés en regroupant les profils sociaux
Regroupement des gènes et des cellules pour découvrir des
activités, réactions et interactions
Profilage de l’activité réseau par regroupement des paquets
STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 11 / 21
Tâches d’analyse de données
Détection d’anomales

Détection d’anomales
Détecter des écarts significatifs du comportement normal exprimés
par les modèles inférés des données .

La notion de «comportement normal» peut être définie de plusieurs


manières, comme le regroupement ou l’ajustement de courbe.
Exemples
Détection de fraude sur les cartes de crédit
Détection d’intrusions en cybersécurité
Détection du trafic des «bots» dans la publicité en ligne
Détection de dysfonctionnement dans la monitorage de processus

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 12 / 21


Tâches d’analyse de données
Règles d’association

Découverte de règles d’association


Produire des règles de dépendance qui modélisent les cooccurence
d’entrée des “objets” pour prédire, étant donné une “transaction”
partielle, les “objets” restants.

Phase d’entraînement
Règles d’association:
Transactions observées: z }| {
z }| {
X X
T1 , . . . , Tn ⊆ X Z⇒ F : 2 → 2 , T ⊆ Ti 7→ F (T ) ≈ Ti \ T

Phase de test
Transactions partielles: Informations prévues:
z }| { z }| {
S1 , S2 , . . . ⊆ X 7→ Règles d’association Z⇒ ∀i , Si 7→ F (Si ) ⊆ X \ Si
STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 13 / 21
Tâches d’analyse de données
Règles d’association

Découverte de règles d’association


Produire des règles de dépendance qui modélisent les cooccurence
d’entrée des “objets” pour prédire, étant donné une “transaction”
partielle, les “objets” restants.

Exemples
Publicités & recommandations actives (p.ex., “Les utilisateurs
qui ont aimé/acheté ce produit-ci ont également aimé/acheté
celui-là”)
Soutenir la prise de décision sur l’organisation des rayons des
magasins & supermarchés
Complètement automatique des noms dans les courriels, les
réseaux sociaux, etc.
STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 13 / 21
Tâches d’analyse de données
Motifs séquentiels

Découverte de motifs séquentiels


Étant donné un ensemble de séquences ordonnées, produire des règles
pour prédire des événements inconnus / manquants / futurs à partir
d’événements antérieurs et / ou ultérieurs.

Similaire à la découverte de règles d’association, mais avec un aspect


d’ordre ou de chronologie pour chaque transaction.
Exemples
Analyse des chaînes de caractères:
Traitement automatique du langage naturel
Séquençage de gènes dans l’ADN et l’ARN
Séquences d’achat d’articles fréquentes
Prédire les résultats d’un traitement médical
STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 14 / 21
Tâches d’analyse de données
Visualisation & réduction de dimensions

Réduction de dimensions
Trouver des coordonnées en basses dimensions (p.ex., en Rd ,
d < 10) qui représentent les données.

Souvent utilisé comme une étape utile (ou même critique) de


prétraitement pour atténuer les défis du fléau de la dimension.
Visualisation
Trouvez des représentations interprétables en 2D ou 3D via des
éléments, des motifs, des tendances, et des structures géométriques
dans les données.
Utilisé pour permettre le traitement des données par les utilisateur
humains pour tirer des conclusions, pour appuyer la prise de décision
ou pour guider l’exploration de données.
STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 15 / 21
Tâches d’analyse de données
Visualisation & réduction de dimensions

Réduction de dimensions
Trouver des coordonnées en basses dimensions (p.ex., en Rd ,
d < 10) qui représentent les données.

Visualisation
Trouvez des représentations interprétables en 2D ou 3D via des
éléments, des motifs, des tendances, et des structures géométriques
dans les données.
Une combinaison de ces techniques peut aider à créer des algorithmes
de traitement de données interactifs qui utilisent des éléments
descriptifs non supervisés pour demander des entrées humaines, puis
utilisent des approches prédictives semi-supervisées pour produire les
résultats plus solides.
STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 15 / 21
Tâches d’analyse de données
Visualisation & réduction de dimensions - exemple

Modélisation des mouvements des lèvres dans la parole:

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 16 / 21


Tâches d’analyse de données
Visualisation & réduction de dimensions - exemple

Modélisation des mouvements des lèvres dans la parole:

Paramètres dominants: ouverture des lèvres et affichage des dents

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 16 / 21


Tâches d’analyse de données
Visualisation & réduction de dimensions - exemple

Modélisation des mouvements des lèvres dans la parole:

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 16 / 21


Démarche typique d’analyse des données

La démarche d’analyse des données


1 Reconnaître la tâche spécifique
2 Connaître les données
3 Prétraitement
4 Appliquer des algorithmes
5 Post-traitement & obtenir des résultats interprétables
6 Évaluation & validation croisée

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 17 / 21


Démarche typique d’analyse des données

La démarche d’analyse des données


1 Reconnaître la tâche spécifique
2 Connaître les données P
i

3 Prétraitement
4 Appliquer des algorithmes
5 Post-traitement & obtenir des résultats interprétables
6 Évaluation & validation croisée

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 17 / 21


Démarche typique d’analyse des données

La démarche d’analyse des données


1 Reconnaître la tâche spécifique H
Y

2 Connaître les données


3 Prétraitement
4 Appliquer des algorithmes
5 Post-traitement & obtenir des résultats interprétables
6 Évaluation & validation croisée

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 17 / 21


Syllabus
Objectifs de cours

Formulation et compréhension des fondements mathématiques


sous-jacents à plusieurs des principaux problèmes, algorithmes et
méthodes de la science des données. Connaissance d’algorithmes
pour modéliser et extraire d’informations de grandes données (« Big
Data ») en apprentissage automatique.

Objectifs spécifiques:
1 (a) Se familiariser avec une sélection variée d’approches de
l’apprentissage supervisé et non-supervisé.
2 (b) Connaître des modèles mathématiques des structures
intrinsèques des données.
3 (c) Distinguer entre des modèles linéaires et non linéaires.

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 18 / 21


Syllabus
Sujets couvrant dans le cours

Traitement formel des données: Regroupement:


Données tabulaires et non-tabulaires DBScan
Statistiques sommaires k-moyennes
Visualisations Regroupement hiérarchique
Classification: Réduction de dimension:
Projections aléatoires
Classification bayésienne
Classification naïve bayésienne Analyse en composantes principales
Réseaux de croyances bayésiens Positionnement multidimensionnel
Isomap
Machine à vecteurs de support
Classification lineaire Diffusion maps
Astuce du noyau Des géométries de données:
Espaces métriques (distances/similarités)
Arbres de décision
Graphes et noyaux d’affinités
Mesures d’impureté:
Variétés de données
entropie et Gini
Gain d’information et d’impurité Géométries de diffusion
Forêts aléatoires Espace de Hilbert à noyau reproduisant

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 19 / 21


Syllabus
Composition de la note finale

La note finale de ce cours sera composée de trois composantes:


20% – devoirs
Devoir I: en février
Devoir II: en avril
30% – projet en groupe
Sélection de groupes: 2022-02-10
Proposition de projet: 2021-02-24
Rapport de projet: 2023-04-20
50% – examens
20% – Intra I: 2023-02-20
30% – Intra II: 2023-04-03

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 20 / 21


Livres optionnels en analyse de données

STT 3795 (Guy Wolf) Introduction UdeM - Hiver 2023 21 / 21

Vous aimerez peut-être aussi