Académique Documents
Professionnel Documents
Culture Documents
STT 3795
Guy Wolf
guy.wolf@umontreal.ca
Université de Montréal
Hiver 2023
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 1 / 42
Les données viennent d’où?
@
@
@
R
@
I
@
@
@
@
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 2 / 42
Les données viennent d’où?
Données expérimentales ou observationnelles
Exemples
Essais cliniques médicaux
Sondages électoraux
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 4 / 42
Données tabulaires
L’organisation des données dans un tableau d’observations par
attributs est le plus pratique/standard à l’analyse des données.
Exemple
Considérez la procédure suivante:
1 De chaque machine, collectez 3 mesures de température
(MOBO, CPU, GPU), 4 param. logiciels (CPU, RAM, HDD,
#processus) et 2 vals. de consomm. d’énergie (MOBO, GPU)
2 Attachez des identifiants uniques de la machine, de l’OS et du
fabricant du matériel
3 Chaque seconde, enregistrez une rangée avec ces valeurs de
chaque machine du système.
On se retrouve avec des centaines de milliers d’enregistrements,
chacun contenant 12 champs.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 5 / 42
Données tabulaires
Observations/Points de données vs. Caractéristiques/Attributs
Caractéristiques/attributs/traits/paramètres
z }| {
Timestamp OS Temp · · · CPU # proc
Observations/objets/points-
de données/exemples
.. .. .. .. .. ..
. . . . . .
9/1/16 1:00 AM LNX 45◦ C ··· 65% 23
.. .. .. .. .. ..
. . . . . .
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 6 / 42
Données tabulaires
Types des attributs
Exemples
Pouvons-nous calculer une moyenne de couleurs des yeux?
Comment calculer la différence entre les numéros de téléphone?
Peut-on dire qu’aujourd’hui c’est « deux fois plus chaud / froid »
qu’hier?
Attributs qualitatifs
Les attributs qui prennent des valeurs d’un ensemble (fini) de
catégories sont appelés attributs catégoriels ou qualitatifs. Dans un
certain sens, ils décrivent un objet, plutôt que de mesurer ses
propriétés.
Attributs quantitatifs
Les attributs qui représentent des quantités sont appelés attributs
numériques ou quantitatifs. Ils fournissent des mesures quantifiables
concrètes d’un objet / d’une observation.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 8 / 42
Données tabulaires
Qualitatifs: Nominaux vs. Ordinaux
Attributs de ratios
Exemples : masse, longueur, distance, monnaie, âge. Des quantités
qui ont des rapports expressifs entre leurs valeurs. Contrairement aux
intervalles, ceux-ci ont généralement un «zéro absolu».
Les types d’attributs peuvent être considérés via les opérations qui
peuvent leur être appliquées :
Comparaison (= et 6=) - tous les types
Ordre (> et <) - tous les types sauf les nominaux
Différence (−) et addition (+) - seulement les quantitatifs
Division (/) et multiplication (×, ·) - seulement les ratios
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 11 / 42
Statistiques sommaires
La représentation brute des données n’est souvent pas pratique pour
l’exploration et la compréhension initiales des données.
Comment pouvons-nous avoir un aperçu général des données et de
leurs attributs dans leur ensemble ?
Statistiques sommaires
Propriétés qui résument l’information globale, telles que la tendance
centrale, la dispersion et les variations des observations et des
caractéristiques.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 12 / 42
Statistiques sommaires
Fréquence, mode, & centiles
Fréquence
La portion (p.ex., le pourcentage) de l’observation avec chaque valeur
spécifique d’un attribut catégorique ou discret.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 13 / 42
Statistiques sommaires
Fréquence, mode, & centiles
Fréquence
La portion (p.ex., le pourcentage) de l’observation avec chaque valeur
spécifique d’un attribut catégorique ou discret.
Mode
La valeur la plus fréquente d’un attribut dans les données.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 13 / 42
Statistiques sommaires
Fréquence, mode, & centiles
Fréquence
La portion (p.ex., le pourcentage) de l’observation avec chaque valeur
spécifique d’un attribut catégorique ou discret.
Mode
La valeur la plus fréquente d’un attribut dans les données.
Centiles
Le p-ième centile est une valeur Pp telle que p% des valeurs
observées sont inférieures à Pp . On prend typiquement Pp comme
une des valeurs observées. Alternatives: quartile Qi (i = 1, 2, 3), etc.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 13 / 42
Statistiques sommaires
Fréquence, mode, & centiles
Fréquence
La portion (p.ex., le pourcentage) de l’observation avec chaque valeur
spécifique d’un attribut catégorique ou discret.
Mode
La valeur la plus fréquente d’un attribut dans les données.
Centiles
Le p-ième centile est une valeur Pp telle que p% des valeurs
observées sont inférieures à Pp . On prend typiquement Pp comme
une des valeurs observées. Alternatives: quartile Qi (i = 1, 2, 3), etc.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 13 / 42
Statistiques sommaires
Fréquence, mode, & centiles
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 13 / 42
Statistiques sommaires
Fréquence, mode, & centiles
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 13 / 42
Statistiques sommaires
Moyenne & médiane
Moyenne
La moyenne x̄ = n1 ni=1 xn est la façon la plus courante de mesurer
P
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 14 / 42
Statistiques sommaires
Moyenne & médiane
Moyenne
La moyenne x̄ = n1 ni=1 xn est la façon la plus courante de mesurer
P
Médiane
La médiane d’un attribut est une valeur telle que la moitié des valeurs
observées sont au-dessus et l’autre moitié au-dessous. C’est la valeur
médiane pour un nombre impair d’observations, ou la moyenne
(lorsque cela a de sens) entre les deux nombres médians pour un
nombre pair d’observations. La médiane correspond à P50 et Q2 .
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 14 / 42
Statistiques sommaires
Centralité et asymétrie
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 15 / 42
Statistiques sommaires
Plage & variance
Plage
La plage est la différence entre les valeurs max et min observées d’un
attribut
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 16 / 42
Statistiques sommaires
Plage & variance
Plage
La plage est la différence entre les valeurs max et min observées d’un
attribut
Variance
q
La variance sx2 = n1 ni=1 (xi − x̄ )2 et l’écart-type (STD) sx = sx2
P
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 16 / 42
Statistiques sommaires
Plage & variance
Plage
La plage est la différence entre les valeurs max et min observées d’un
attribut
Variance
q
La variance sx2 = n1 ni=1 (xi − x̄ )2 et l’écart-type (STD) sx = sx2
P
Covariance
La mesure dans laquelle les attributs varient ensemble et est calculé
par cov (x , y ) = n1 ni=1 (xi − x̄ )(yi − ȳ ). Cette valeur dépend de
P
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 17 / 42
Statistiques sommaires
Covariance & corrélation
Covariance
La mesure dans laquelle les attributs varient ensemble et est calculé
par cov (x , y ) = n1 ni=1 (xi − x̄ )(yi − ȳ ). Cette valeur dépend de
P
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 17 / 42
Statistiques sommaires
Covariance & corrélation
Covariance
La mesure dans laquelle les attributs varient ensemble et est calculé
par cov (x , y ) = n1 ni=1 (xi − x̄ )(yi − ȳ ). Cette valeur dépend de
P
Corrélation
Une valeur entre 0 et 1 qui indique la relation (linéaire) entre deux
attributs. Corrélation de Pearson : corr(x , y ) = cov(x
sx sy
,y )
. On remarque
qu’il est indépendant des magnitudes/écartements et corr(x , x ) = 1.
n
1
sx−1 sy−1
X
corr(x , y ) = (xi − x̄ )(yi − ȳ )
n i=1
n
!
1X xi − x̄ yi − ȳ
=
n i=1 sx sy
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 17 / 42
Statistiques sommaires
Exemple trompeur: les pirates & le réchauffement climatique
Tiré de Wikipedia
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 18 / 42
Statistiques sommaires
Qualité des données
Biais
Une variation systématique des mesures par rapport à la quantité
mesurée.
Justesse
La proximité des mesures par rapport à la valeur réelle de la grandeur
mesurée.
Des autres problèmes: valeurs manquantes, aberrantes ou dupliquées.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 19 / 42
Visualisations
Pourquoi a-t-on besoin de visualisations?
Visualisations
Conversion de données en éléments visuels qui expriment des
caractéristiques, des relations et des informations sur des points et
des attributs de données.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 20 / 42
Visualisations
Pourquoi a-t-on besoin de visualisations?
Exemple
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 20 / 42
Visualisations
Pourquoi a-t-on besoin de visualisations?
Exemple (TreeMap)
Tirées de Wikipedia
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 20 / 42
Visualisations
Pourquoi a-t-on besoin de visualisations?
Exemple (TreeMap)
Tirées de Wikipedia
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 20 / 42
Visualisations
Qu’est-ce qui constitue une bonne visualisation ?
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 21 / 42
Visualisations
Diagramme en boîte
:
Outliers
XXX
X
z
90th percentile -
75th percentile H
HH
j
H
Median -
1
25th percentile 1
10th percentile
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 22 / 42
Visualisations
Histogrammes
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 23 / 42
Visualisations
Histogrammes
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 23 / 42
Visualisations
Histogrammes
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 23 / 42
Visualisations
Histogrammes
Tirée de: Pierchala, C. “The choice of age groupings may affect the quality of tabular presentations.” 2002.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 23 / 42
Visualisations
Tracés en étoile
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 24 / 42
Visualisations
Tracés en étoile
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 24 / 42
Visualisations
Tracés de coordonnées parallèles
Notez que les attributs dans ce cas n’ont pas d’ordre particulier.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 25 / 42
Visualisations
Diagrammes de dispersion
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 26 / 42
Visualisations
Tracés « Quiver »
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 27 / 42
Données non tabulaires
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 28 / 42
Données transactionnelles
Dans les données transactionnelles, chaque observation est une
transaction qui contient un ensemble d’éléments ou une séquence
d’événements.
Exemple
Données du panier de marché Customer #1: {milk, bread, butter};
Customer #2: {orange juice, milk}; Customer #3:
{orange juice, peanut butter, jelly, bread}; . . .
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 29 / 42
Données transactionnelles
Matrice de termes
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 31 / 42
Données transactionnelles
Documents texte
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 31 / 42
Données transactionnelles
Documents texte
Tiré de varianceexplained.org/r/trump-tweets/
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 31 / 42
Données transactionnelles
Documents texte
Tiré de github.com/aubry74/visual-word2vec/
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 31 / 42
Signaux structurés
Les signaux structurés ont des relations bien connues entre leurs "
attributs ". Ils sont typiquement numériques, avec un ordre temporel
ou spatial.
Exemples
Les enregistrements audio
Les signaux EEG
Rythme cardiaque
Températures ambiantes
Série temporelle
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 33 / 42
Signaux structurés
Fourier & spectre de puissance
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 33 / 42
Signaux structurés
Fourier & spectre de puissance
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 33 / 42
Signaux structurés
STFT/TFCT & ondelettes
STFT/TFCT
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 34 / 42
Signaux structurés
STFT/TFCT & ondelettes
Ondelettes
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 34 / 42
Signaux structurés
STFT/TFCT & ondelettes
Lowpass
Scale 1
Scale 2
Ondelette Haar
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 34 / 42
Signaux structurés
Spectrogram & scalogram
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 35 / 42
Signaux structurés
Spectrogram & scalogram
Spectrogram Scalogram
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 35 / 42
Signaux multidimensionnels
Les signaux multidimensionnels ont plusieurs coordonnées qui
spécifient les relations entre leurs «attributs».
Exemples
Les images en «grayscale» ont deux coordonnées spatiales qui
déterminent la position des pixels.
Les vidéos ont deux coordonnées spatiales et une temporelle qui
déterminent la position des pixels.
Les données géographiques ont deux ou trois coordonnées
déterminant la longitude, la latitude et l’élévation.
Les images colorées et hyperspectrales ont deux coordonnées
spatiales et une coordonnée spectrale.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 37 / 42
Signaux multidimensionnels
Ondelettes bidimensionnelles
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 37 / 42
Signaux multidimensionnels
Ondelettes bidimensionnelles
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 37 / 42
Signaux multidimensionnels
Ondelettes bidimensionnelles
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 37 / 42
Signaux multidimensionnels
Visualisation avec tracés de contour
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 38 / 42
Signaux multidimensionnels
Visualisation avec tracés de contour
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 38 / 42
Représentations non paramétriques
Dans certains cas, les informations importantes dans les données sont
les relations entre les points de données, plutôt que leurs attributs.
Exemples
Localisation spatiale et trajectoires
Appels téléphoniques et correspondances par courriel
Interactions des gènes et progressions cellulaires
Dans ces cas, une matrice d’affinité, basée sur des similarités ou
distances, entre les points de données peut être utilisée pour l’analyse.
Essentiellement, chaque point de données est représenté par ses
relations avec d’autres points plutôt que par ses propres attributs.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 39 / 42
Représentations non paramétriques
Données de graphes
Les graphes peuvent être utilisés pour formaliser les relations dans les
données de deux façons:
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 40 / 42
Représentations non paramétriques
Données de graphes
Les graphes peuvent être utilisés pour formaliser les relations dans les
données de deux façons:
1 Les relations entre les attributs peuvent former des graphes (p.ex.,
données des molécules). Ici, chaque «point» est un graphe, et
ceci est un exemple plus compliqué des données structurées.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 40 / 42
Représentations non paramétriques
Données de graphes
Les graphes peuvent être utilisés pour formaliser les relations dans les
données de deux façons:
1 Les relations entre les attributs peuvent former des graphes (p.ex.,
données des molécules).
Benzene (C6 H6 ): Ici, chaque «point» est un graphe, et
ceci est un exemple plus compliqué des données structurées.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 40 / 42
Représentations non paramétriques
Données de graphes
Les graphes peuvent être utilisés pour formaliser les relations dans les
données de deux façons:
1 Les relations entre les attributs peuvent former des graphes (p.ex.,
données des molécules). Ici, chaque «point» est un graphe, et
ceci est un exemple plus compliqué des données structurées.
2 Le graphe est considéré comme le jeu de données, et chaque noeud
est un point de données (p.ex., réseaux sociaux, des références
sur le Web). La matrice d’adjacence peut former des affinités, et
inversement, les données non paramétriques sont souvent consid-
érées comme des données de graphes, en formant les adjacences
par des affinités.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 40 / 42
Représentations non paramétriques
Données de graphes
Les graphes peuvent être utilisés pour formaliser les relations dans les
données de deux façons:
1 Les relations entre les attributs peuvent former des graphes (p.ex.,
données des molécules). Ici, chaque «point» est un graphe, et
ceci est un exemple plus compliqué des données structurées.
2 Le graphe est considéré comme le jeu de données, et chaque noeud
est un point de données (p.ex., réseaux sociaux, des références
sur le Web). La matrice d’adjacence peut former des affinités, et
inversement, les données non paramétriques sont souvent consid-
érées comme des données de graphes, en formant les adjacences
par des affinités.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 40 / 42
Représentations non paramétriques
Données de graphes
Les graphes peuvent être utilisés pour formaliser les relations dans les
données de deux façons:
1 Les relations entre les attributs peuvent former des graphes (p.ex.,
données des molécules). Ici, chaque «point» est un graphe, et
ceci est un exemple plus compliqué des données structurées.
2 Le graphe est considéré comme le jeu de données, et chaque noeud
est un point de données (p.ex., réseaux sociaux, des références
sur le Web). La matrice d’adjacence peut former des affinités, et
inversement, les données non paramétriques sont souvent consid-
érées comme des données de graphes, en formant les adjacences
par des affinités.
Les méthodes spectrales (p.ex., SVD du graphe Laplacien) peuvent être
utilisées pour associer des coordonnées aux noeuds dans le deuxième
cas pour la visualisation par diag. de dispersion et d’autres analyses.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 40 / 42
Représentations non paramétriques
Visualisation par «matrix plot»
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 41 / 42
Récapitulation
On a examiné les types de données et d’attributs suivants, puis
montré brièvement comment les traiter, manipuler, & visualiser :
Types d’attributs Types de données
Nominaux Tabulaires
Ordinaux Transactionnelles & textuelles
Intervalles Structurées (1D, 2D, . . .)
Ratios Non paramétriques & de graphes
L’exploration préliminaire des données est cruciale pour obtenir des
résultats significatifs, p.ex. en identifiant d’opérations valides et peut-
être des représentations de données plus facile à analyser.
Les autres étapes de prétraitement comprennent la normalisa-
tion/standardisation, l’échantillonnage, la discrétisation, l’agrégation
et la réduction de dimensionnalité.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 42 / 42