Vous êtes sur la page 1sur 79

Fondements théorétiques en science des données

Traitement formel des données

STT 3795
Guy Wolf
guy.wolf@umontreal.ca

Université de Montréal
Hiver 2023

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 1 / 42
Les données viennent d’où?

@
@
@
R
@


I
@
@
@
@

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 2 / 42
Les données viennent d’où?
Données expérimentales ou observationnelles

Des données expérimentales


Données recueillies à partir d’expériences strictement contrôlées /
conçues avec des efforts déployés pour garantir la validité statistique.

Exemples
Essais cliniques médicaux
Sondages électoraux

Des données observationnelles


Données obtenues en « real-world settings » sans contrôler les
phénomènes sous-jacents capturés. Souvent plus facile à collecter,
mais les résultats / conclusions peuvent être biaisés / non concluants.

La plupart des données en «science des données» sont observationnelles.


STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 3 / 42
Données tabulaires

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 4 / 42
Données tabulaires
L’organisation des données dans un tableau d’observations par
attributs est le plus pratique/standard à l’analyse des données.

Exemple
Considérez la procédure suivante:
1 De chaque machine, collectez 3 mesures de température
(MOBO, CPU, GPU), 4 param. logiciels (CPU, RAM, HDD,
#processus) et 2 vals. de consomm. d’énergie (MOBO, GPU)
2 Attachez des identifiants uniques de la machine, de l’OS et du
fabricant du matériel
3 Chaque seconde, enregistrez une rangée avec ces valeurs de
chaque machine du système.
On se retrouve avec des centaines de milliers d’enregistrements,
chacun contenant 12 champs.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 5 / 42
Données tabulaires
Observations/Points de données vs. Caractéristiques/Attributs
Caractéristiques/attributs/traits/paramètres
z }| {
Timestamp OS Temp · · · CPU # proc

Observations/objets/points-







de données/exemples



 .. .. .. .. .. ..
. . . . . .














9/1/16 1:00 AM LNX 45◦ C ··· 65% 23









.. .. .. .. .. ..



. . . . . .










STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 6 / 42
Données tabulaires
Types des attributs

Il est important de reconnaître les types de valeurs que chaque


attribut prend afin de comprendre quelles opérations peuvent y être
appliquées.

Exemples
Pouvons-nous calculer une moyenne de couleurs des yeux?
Comment calculer la différence entre les numéros de téléphone?
Peut-on dire qu’aujourd’hui c’est « deux fois plus chaud / froid »
qu’hier?

Ceci est similaire à des problèmes comme 6 pommes / 4 personnes =


1.5 pomme par personne, mais 10 personnes / 4 sièges d’auto = 3
voitures.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 7 / 42
Données tabulaires
Attributs qualitatifs vs. quantitatifs

Les valeurs d’attribut peuvent être divisées en deux types:

Attributs qualitatifs
Les attributs qui prennent des valeurs d’un ensemble (fini) de
catégories sont appelés attributs catégoriels ou qualitatifs. Dans un
certain sens, ils décrivent un objet, plutôt que de mesurer ses
propriétés.

Attributs quantitatifs
Les attributs qui représentent des quantités sont appelés attributs
numériques ou quantitatifs. Ils fournissent des mesures quantifiables
concrètes d’un objet / d’une observation.

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 8 / 42
Données tabulaires
Qualitatifs: Nominaux vs. Ordinaux

Les attributs qualitatifs peuvent être divisés en deux types:


Attributs nominaux
Exemples : codes postaux, couleur des yeux, système d’exploitation
Les valeurs de ces attributs ne font que spécifier des noms sans ordre
particulier ni relation entre eux (sauf pour = et 6=).

Les attributs binaires sont nominaux avec seulement deux valeurs


(Oui/Non ou 0/1). Ils peuvent être symétriques ou asymétriques
selon que leurs valeurs sont également informatives ou non.
Attributs ordinaux
Exemples : ratings, notes, numéros des salles
Les valeurs de ces attributs ont un certain ordre, même si elles ne
spécifient pas une quantité exacte
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 9 / 42
Données tabulaires
Quantitatifs : Intervalles vs. Rapports

Les quantitatifs peuvent également être divisés en deux types :


Attributs d’intervalles
Exemples : dates, direction de l’azimut, températures (F ou C). Ces
attributs représentent des quantités avec des différences expressives
entre leurs valeurs, mais pas des relations multiplicatives.

Attributs de ratios
Exemples : masse, longueur, distance, monnaie, âge. Des quantités
qui ont des rapports expressifs entre leurs valeurs. Contrairement aux
intervalles, ceux-ci ont généralement un «zéro absolu».

On peut également diviser les quantités en discrètes et continues.


Tous les attributs qualitatifs sont considérés comme discrets.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 10 / 42
Données tabulaires
Récapitulation des types d’attributs

Les types d’attributs peuvent être considérés via les opérations qui
peuvent leur être appliquées :
Comparaison (= et 6=) - tous les types
Ordre (> et <) - tous les types sauf les nominaux
Différence (−) et addition (+) - seulement les quantitatifs
Division (/) et multiplication (×, ·) - seulement les ratios

D’autres opérations (p. ex., moyenne, médiane, corrélation) peuvent


également être inapplicables pour certains types mais applicables à
d’autres.

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 11 / 42
Statistiques sommaires
La représentation brute des données n’est souvent pas pratique pour
l’exploration et la compréhension initiales des données.
Comment pouvons-nous avoir un aperçu général des données et de
leurs attributs dans leur ensemble ?

Statistiques sommaires
Propriétés qui résument l’information globale, telles que la tendance
centrale, la dispersion et les variations des observations et des
caractéristiques.

Ces statistiques constituent une première étape importante dans


l’analyse des données et la plupart d’entre elles ne sont pas difficiles à
calculer en temps linéaire par rapport à la taille des données.

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 12 / 42
Statistiques sommaires
Fréquence, mode, & centiles

Fréquence
La portion (p.ex., le pourcentage) de l’observation avec chaque valeur
spécifique d’un attribut catégorique ou discret.

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 13 / 42
Statistiques sommaires
Fréquence, mode, & centiles

Fréquence
La portion (p.ex., le pourcentage) de l’observation avec chaque valeur
spécifique d’un attribut catégorique ou discret.

Mode
La valeur la plus fréquente d’un attribut dans les données.

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 13 / 42
Statistiques sommaires
Fréquence, mode, & centiles

Fréquence
La portion (p.ex., le pourcentage) de l’observation avec chaque valeur
spécifique d’un attribut catégorique ou discret.

Mode
La valeur la plus fréquente d’un attribut dans les données.

Centiles
Le p-ième centile est une valeur Pp telle que p% des valeurs
observées sont inférieures à Pp . On prend typiquement Pp comme
une des valeurs observées. Alternatives: quartile Qi (i = 1, 2, 3), etc.

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 13 / 42
Statistiques sommaires
Fréquence, mode, & centiles

Fréquence
La portion (p.ex., le pourcentage) de l’observation avec chaque valeur
spécifique d’un attribut catégorique ou discret.

Mode
La valeur la plus fréquente d’un attribut dans les données.

Centiles
Le p-ième centile est une valeur Pp telle que p% des valeurs
observées sont inférieures à Pp . On prend typiquement Pp comme
une des valeurs observées. Alternatives: quartile Qi (i = 1, 2, 3), etc.

Exemples visuels : affichages de «stem-and-leaves» ; tracés de


quantiles & Q − Q.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 13 / 42
Statistiques sommaires
Fréquence, mode, & centiles

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 13 / 42
Statistiques sommaires
Fréquence, mode, & centiles

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 13 / 42
Statistiques sommaires
Fréquence, mode, & centiles

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 13 / 42
Statistiques sommaires
Moyenne & médiane

Moyenne
La moyenne x̄ = n1 ni=1 xn est la façon la plus courante de mesurer
P

l’emplacement central ou la valeur des points de données.


Cependant, il est très sensible aux valeurs aberrantes. Une moyenne
ajustée est plus robuste aux valeurs aberrantes en ne tenant pas
compte des valeurs extrêmes. La moyenne pondérée tient également
compte des poids pour chaque observation.

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 14 / 42
Statistiques sommaires
Moyenne & médiane

Moyenne
La moyenne x̄ = n1 ni=1 xn est la façon la plus courante de mesurer
P

l’emplacement central ou la valeur des points de données.


Cependant, il est très sensible aux valeurs aberrantes. Une moyenne
ajustée est plus robuste aux valeurs aberrantes en ne tenant pas
compte des valeurs extrêmes. La moyenne pondérée tient également
compte des poids pour chaque observation.

Médiane
La médiane d’un attribut est une valeur telle que la moitié des valeurs
observées sont au-dessus et l’autre moitié au-dessous. C’est la valeur
médiane pour un nombre impair d’observations, ou la moyenne
(lorsque cela a de sens) entre les deux nombres médians pour un
nombre pair d’observations. La médiane correspond à P50 et Q2 .
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 14 / 42
Statistiques sommaires
Centralité et asymétrie

Les relations entre trois mesures de centralité (moyenne, médiane et


mode) peuvent indiquer les distributions symétriques ou asymétriques
des attributs :

symétrique positivement biaisée négativement biaisée

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 15 / 42
Statistiques sommaires
Plage & variance

Plage
La plage est la différence entre les valeurs max et min observées d’un
attribut

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 16 / 42
Statistiques sommaires
Plage & variance

Plage
La plage est la différence entre les valeurs max et min observées d’un
attribut

Variance
q
La variance sx2 = n1 ni=1 (xi − x̄ )2 et l’écart-type (STD) sx = sx2
P

sont les manières les plus courantes de mesurer la dispersion des


valeurs. Cependant, comme la moyenne, ils sont sensibles aux valeurs
aberrantes.

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 16 / 42
Statistiques sommaires
Plage & variance

Plage
La plage est la différence entre les valeurs max et min observées d’un
attribut

Variance
q
La variance sx2 = n1 ni=1 (xi − x̄ )2 et l’écart-type (STD) sx = sx2
P

sont les manières les plus courantes de mesurer la dispersion des


valeurs. Cependant, comme la moyenne, ils sont sensibles aux valeurs
aberrantes.
D’autres mesures de diffusion comprennent :
déviation absolue moyenne - la moyenne de |xi − x̄ |
déviation absolue médiane - la médiane de |xi − x̄ |
l’écart interquartile - la différence x75% − x25%
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 16 / 42
Statistiques sommaires
Covariance & corrélation

Covariance
La mesure dans laquelle les attributs varient ensemble et est calculé
par cov (x , y ) = n1 ni=1 (xi − x̄ )(yi − ȳ ). Cette valeur dépend de
P

l’ampleur/étendue des valeurs des attributs.

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 17 / 42
Statistiques sommaires
Covariance & corrélation

Covariance
La mesure dans laquelle les attributs varient ensemble et est calculé
par cov (x , y ) = n1 ni=1 (xi − x̄ )(yi − ȳ ). Cette valeur dépend de
P

l’ampleur/étendue des valeurs des attributs.

Pour K attributs, ceux-ci forment une matrice de covariance k × k,


avec des variances sx2 = cov(x , x ) sur sa diagonale.

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 17 / 42
Statistiques sommaires
Covariance & corrélation

Covariance
La mesure dans laquelle les attributs varient ensemble et est calculé
par cov (x , y ) = n1 ni=1 (xi − x̄ )(yi − ȳ ). Cette valeur dépend de
P

l’ampleur/étendue des valeurs des attributs.

Pour K attributs, ceux-ci forment une matrice de covariance k × k,


avec des variances sx2 = cov(x , x ) sur sa diagonale.
Corrélation
Une valeur entre 0 et 1 qui indique la relation (linéaire) entre deux
attributs. Corrélation de Pearson : corr(x , y ) = cov(x
sx sy
,y )
. On remarque
qu’il est indépendant des magnitudes/écartements et corr(x , x ) = 1.

Remarquez que la corrélation de Pearson est la covariance ou le


produit scalaire entre les attributs normalisés.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 17 / 42
Statistiques sommaires
Covariance & corrélation

Corrélation
Une valeur entre 0 et 1 qui indique la relation (linéaire) entre deux
attributs. Corrélation de Pearson : corr(x , y ) = cov(x
sx sy
,y )
. On remarque
qu’il est indépendant des magnitudes/écartements et corr(x , x ) = 1.

Remarquez que la corrélation de Pearson est la covariance ou le


produit scalaire entre les attributs normalisés.

n
1
sx−1 sy−1
X
corr(x , y ) = (xi − x̄ )(yi − ȳ )
n i=1
n
!
1X xi − x̄ yi − ȳ
 
=
n i=1 sx sy

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 17 / 42
Statistiques sommaires
Exemple trompeur: les pirates & le réchauffement climatique

Tiré de Wikipedia

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 18 / 42
Statistiques sommaires
Qualité des données

Les statistiques sommaires permettent d’identifier divers problèmes


de qualité des données, tels que
Précision
La proximité des mesures répétées les unes par rapport aux autres.

Biais
Une variation systématique des mesures par rapport à la quantité
mesurée.

Justesse
La proximité des mesures par rapport à la valeur réelle de la grandeur
mesurée.
Des autres problèmes: valeurs manquantes, aberrantes ou dupliquées.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 19 / 42
Visualisations
Pourquoi a-t-on besoin de visualisations?

Bien que les statistiques sommaires fournissent des renseignements


utiles sur les données, elles peuvent être accablantes et difficiles à
suivre lorsque de nombreux attributs sont pris en compte.

Visualisations
Conversion de données en éléments visuels qui expriment des
caractéristiques, des relations et des informations sur des points et
des attributs de données.

Les visualisations fournissent des représentations graphiques qui nous


permettent de dessiner des aperçus en un seul coup d’œil.

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 20 / 42
Visualisations
Pourquoi a-t-on besoin de visualisations?

Exemple

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 20 / 42
Visualisations
Pourquoi a-t-on besoin de visualisations?

Exemple (TreeMap)

Tirées de Wikipedia
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 20 / 42
Visualisations
Pourquoi a-t-on besoin de visualisations?

Exemple (TreeMap)

Tirées de Wikipedia
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 20 / 42
Visualisations
Qu’est-ce qui constitue une bonne visualisation ?

Pas de bonne réponse... mais il y a quelques directives générales:


Principes d’ACCENT
Apprehension: on peut correctement percevoir les relations entre les variables.
Clarity: distinguer visuellement les relations et les éléments importants.
Consistency: la comparaison des éléments graphiques montre des
(dés)similitudes fidèles dans les données.
Efficiency: les relations et les modèles complexes sont simplifiés dans la
visualisation.
Necessity: la visualisation n’inclut que les éléments graphiques nécessaires -
aucun élément étranger.
Truthfulness: les valeurs réelles (absolues ou relatives) peuvent être
déterminées à partir d’éléments graphiques.

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 21 / 42
Visualisations
Diagramme en boîte

Les diagrammes en boîtes (inventés par J. Tukey) montrent les


distribution d’attributs en cinq nombres en fonction des centiles :

 :

Outliers 
XXX
X
z

90th percentile -

75th percentile H
HH
j
H

Median -
1


25th percentile  1



10th percentile 
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 22 / 42
Visualisations
Histogrammes

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 23 / 42
Visualisations
Histogrammes

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 23 / 42
Visualisations
Histogrammes

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 23 / 42
Visualisations
Histogrammes

Tirée de: Pierchala, C. “The choice of age groupings may affect the quality of tabular presentations.” 2002.

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 23 / 42
Visualisations
Tracés en étoile

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 24 / 42
Visualisations
Tracés en étoile

Tirée de: www.coffeeanalysts.com/2011/11/coffee-spider-graphs-explained/

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 24 / 42
Visualisations
Tracés de coordonnées parallèles

Notez que les attributs dans ce cas n’ont pas d’ordre particulier.

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 25 / 42
Visualisations
Diagrammes de dispersion

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 26 / 42
Visualisations
Tracés « Quiver »

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 27 / 42
Données non tabulaires

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 28 / 42
Données transactionnelles
Dans les données transactionnelles, chaque observation est une
transaction qui contient un ensemble d’éléments ou une séquence
d’événements.
Exemple
Données du panier de marché Customer #1: {milk, bread, butter};
Customer #2: {orange juice, milk}; Customer #3:
{orange juice, peanut butter, jelly, bread}; . . .

Les articles de transaction peuvent également contenir des attributs


numériques, tels que le nombre d’articles achetés (par exemple, 3
boîtes de cookies) ou leur prix. Lorsque des séquences (p. ex., des
événements, des actions ou des gènes) sont considérées, l’information
temporelle/ordre peut également être incluse.

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 29 / 42
Données transactionnelles
Matrice de termes

Dans certains cas, les données transactionnelles peuvent être


converties sous forme tabulaire en considérant la matrice de termes
(a.c.c., sac de mots/caractéristiques ou «bag of words»).
Exemple

CustomerID milk bread butter O.J. cheese P.B. jelly


Customer #1 1 1 1 0 0 0 0
Customer #2 1 0 0 0 1 0 0
Customer #3 0 1 0 0 1 1 1
.. .. .. .. .. .. .. ..
. . . . . . . .

Ceci perd l’information séquentielle, et son application à des valeurs


continues nécessite une étape de discrétisation.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 30 / 42
Données transactionnelles
Documents texte

Les documents texte peuvent être considérés comme des données


transactionnelles de deux façons:

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 31 / 42
Données transactionnelles
Documents texte

Les documents texte peuvent être considérés comme des données


transactionnelles de deux façons:
1 Chaque document peut être considéré comme une grosse transaction
contenant des mots. Les techniques Bag of words ignorent les
structures grammaticales et représentent un document comme un
histogramme des occurrences de mots. Des approches similaires
peuvent également être appliquées aux images, aux questionnaires,
etc., avec une étape de regroupement appropriée pour la construction
du dictionnaire.

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 31 / 42
Données transactionnelles
Documents texte

Les documents texte peuvent être considérés comme des données


transactionnelles de deux façons:
1 Chaque document peut être considéré comme une grosse transaction
contenant des mots. Les techniques Bag of words ignorent les
structures grammaticales et représentent un document comme un
histogramme des occurrences de mots. Des approches similaires
peuvent également être appliquées aux images, aux questionnaires,
etc., avec une étape de regroupement appropriée pour la construction
du dictionnaire.
2 Un document peut être considéré comme un ensemble de données
transactionnelles, ce qui contient des contextes de mots (p.ex., avec
n-grammes ou skip-grammes). Les techniques Word2vec utilisent
cette approche pour associer des coordonnées numériques
R
(typiquement en 300 ) aux mots en fonction des contextes dans
lesquels ils apparaissent.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 31 / 42
Données transactionnelles
Documents texte

Exemple (Analyse terminologique des twits de Donald


Trump)
Les mots les plus fréquents : iPhone vs. Android:

Tiré de varianceexplained.org/r/trump-tweets/

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 31 / 42
Données transactionnelles
Documents texte

Tiré de github.com/aubry74/visual-word2vec/

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 31 / 42
Signaux structurés
Les signaux structurés ont des relations bien connues entre leurs "
attributs ". Ils sont typiquement numériques, avec un ordre temporel
ou spatial.

Exemples
Les enregistrements audio
Les signaux EEG
Rythme cardiaque
Températures ambiantes

Chaque point de données est alors un signal collecté dans le temps


(ou l’espace), et peut être analysés avec des outils de traitement du
signal.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 32 / 42
Signaux structurés
Fourier & spectre de puissance

Série temporelle

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 33 / 42
Signaux structurés
Fourier & spectre de puissance

Série temporelle Spectre de puissance

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 33 / 42
Signaux structurés
Fourier & spectre de puissance

Série temporelle Spectre de puissance

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 33 / 42
Signaux structurés
STFT/TFCT & ondelettes

STFT/TFCT

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 34 / 42
Signaux structurés
STFT/TFCT & ondelettes

Ondelettes
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 34 / 42
Signaux structurés
STFT/TFCT & ondelettes

Lowpass

Scale 1









Scale 2






Ondelette Haar
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 34 / 42
Signaux structurés
Spectrogram & scalogram

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 35 / 42
Signaux structurés
Spectrogram & scalogram

Spectrogram Scalogram
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 35 / 42
Signaux multidimensionnels
Les signaux multidimensionnels ont plusieurs coordonnées qui
spécifient les relations entre leurs «attributs».
Exemples
Les images en «grayscale» ont deux coordonnées spatiales qui
déterminent la position des pixels.
Les vidéos ont deux coordonnées spatiales et une temporelle qui
déterminent la position des pixels.
Les données géographiques ont deux ou trois coordonnées
déterminant la longitude, la latitude et l’élévation.
Les images colorées et hyperspectrales ont deux coordonnées
spatiales et une coordonnée spectrale.

En général, de nombreuses approches de traitement du signal peuvent


être étendues des signaux unidimensionnels aux multidimensionnels.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 36 / 42
Signaux multidimensionnels
Ondelettes bidimensionnelles

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 37 / 42
Signaux multidimensionnels
Ondelettes bidimensionnelles

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 37 / 42
Signaux multidimensionnels
Ondelettes bidimensionnelles

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 37 / 42
Signaux multidimensionnels
Ondelettes bidimensionnelles

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 37 / 42
Signaux multidimensionnels
Visualisation avec tracés de contour

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 38 / 42
Signaux multidimensionnels
Visualisation avec tracés de contour

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 38 / 42
Représentations non paramétriques
Dans certains cas, les informations importantes dans les données sont
les relations entre les points de données, plutôt que leurs attributs.

Exemples
Localisation spatiale et trajectoires
Appels téléphoniques et correspondances par courriel
Interactions des gènes et progressions cellulaires

Dans ces cas, une matrice d’affinité, basée sur des similarités ou
distances, entre les points de données peut être utilisée pour l’analyse.
Essentiellement, chaque point de données est représenté par ses
relations avec d’autres points plutôt que par ses propres attributs.

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 39 / 42
Représentations non paramétriques
Données de graphes

Les graphes peuvent être utilisés pour formaliser les relations dans les
données de deux façons:

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 40 / 42
Représentations non paramétriques
Données de graphes

Les graphes peuvent être utilisés pour formaliser les relations dans les
données de deux façons:
1 Les relations entre les attributs peuvent former des graphes (p.ex.,
données des molécules). Ici, chaque «point» est un graphe, et
ceci est un exemple plus compliqué des données structurées.

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 40 / 42
Représentations non paramétriques
Données de graphes

Les graphes peuvent être utilisés pour formaliser les relations dans les
données de deux façons:
1 Les relations entre les attributs peuvent former des graphes (p.ex.,
données des molécules).
Benzene (C6 H6 ): Ici, chaque «point» est un graphe, et
ceci est un exemple plus compliqué des données structurées.

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 40 / 42
Représentations non paramétriques
Données de graphes

Les graphes peuvent être utilisés pour formaliser les relations dans les
données de deux façons:
1 Les relations entre les attributs peuvent former des graphes (p.ex.,
données des molécules). Ici, chaque «point» est un graphe, et
ceci est un exemple plus compliqué des données structurées.
2 Le graphe est considéré comme le jeu de données, et chaque noeud
est un point de données (p.ex., réseaux sociaux, des références
sur le Web). La matrice d’adjacence peut former des affinités, et
inversement, les données non paramétriques sont souvent consid-
érées comme des données de graphes, en formant les adjacences
par des affinités.

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 40 / 42
Représentations non paramétriques
Données de graphes

Les graphes peuvent être utilisés pour formaliser les relations dans les
données de deux façons:
1 Les relations entre les attributs peuvent former des graphes (p.ex.,
données des molécules). Ici, chaque «point» est un graphe, et
ceci est un exemple plus compliqué des données structurées.
2 Le graphe est considéré comme le jeu de données, et chaque noeud
est un point de données (p.ex., réseaux sociaux, des références
sur le Web). La matrice d’adjacence peut former des affinités, et
inversement, les données non paramétriques sont souvent consid-
érées comme des données de graphes, en formant les adjacences
par des affinités.

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 40 / 42
Représentations non paramétriques
Données de graphes

Les graphes peuvent être utilisés pour formaliser les relations dans les
données de deux façons:
1 Les relations entre les attributs peuvent former des graphes (p.ex.,
données des molécules). Ici, chaque «point» est un graphe, et
ceci est un exemple plus compliqué des données structurées.
2 Le graphe est considéré comme le jeu de données, et chaque noeud
est un point de données (p.ex., réseaux sociaux, des références
sur le Web). La matrice d’adjacence peut former des affinités, et
inversement, les données non paramétriques sont souvent consid-
érées comme des données de graphes, en formant les adjacences
par des affinités.
Les méthodes spectrales (p.ex., SVD du graphe Laplacien) peuvent être
utilisées pour associer des coordonnées aux noeuds dans le deuxième
cas pour la visualisation par diag. de dispersion et d’autres analyses.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 40 / 42
Représentations non paramétriques
Visualisation par «matrix plot»

STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 41 / 42
Récapitulation
On a examiné les types de données et d’attributs suivants, puis
montré brièvement comment les traiter, manipuler, & visualiser :
Types d’attributs Types de données
Nominaux Tabulaires
Ordinaux Transactionnelles & textuelles
Intervalles Structurées (1D, 2D, . . .)
Ratios Non paramétriques & de graphes
L’exploration préliminaire des données est cruciale pour obtenir des
résultats significatifs, p.ex. en identifiant d’opérations valides et peut-
être des représentations de données plus facile à analyser.
Les autres étapes de prétraitement comprennent la normalisa-
tion/standardisation, l’échantillonnage, la discrétisation, l’agrégation
et la réduction de dimensionnalité.
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 42 / 42

Vous aimerez peut-être aussi