STT3795 - S02

Fondements théorétiques en science des données
Traitement formel des données
STT 3795
Guy Wolf
guy.wolf@umontreal.ca
Université de Montréal
Hiver 2023
STT 3795 (Guy Wolf) Traitement formel des données UdeM - Hiver 2023 1 / 42
Les données viennent d’où?
@
@
@
R
@

I
@
@
@
@
Les données viennent d’où?
Données expérimentales ou observationnelles
Des données expérimentales

Données recueillies à partir d’expériences strictement contrôlées /
conçues avec des efforts déployés pour garantir la validité statistique.
Exemples
Essais cliniques médicaux
Sondages électoraux
Des données observationnelles

Données obtenues en « real-world settings » sans contrôler les
phénomènes sous-jacents capturés. Souvent plus facile à collecter,
mais les résultats / conclusions peuvent être biaisés / non concluants.
La plupart des données en «science des données» sont observationnelles.

Données tabulaires
Données tabulaires
L’organisation des données dans un tableau d’observations par
attributs est le plus pratique/standard à l’analyse des données.
Exemple
Considérez la procédure suivante:
1 De chaque machine, collectez 3 mesures de température
(MOBO, CPU, GPU), 4 param. logiciels (CPU, RAM, HDD,
#processus) et 2 vals. de consomm. d’énergie (MOBO, GPU)
2 Attachez des identifiants uniques de la machine, de l’OS et du
fabricant du matériel
3 Chaque seconde, enregistrez une rangée avec ces valeurs de
chaque machine du système.
On se retrouve avec des centaines de milliers d’enregistrements,
chacun contenant 12 champs.
Données tabulaires
Observations/Points de données vs. Caractéristiques/Attributs
Caractéristiques/attributs/traits/paramètres
z }| {
Timestamp OS Temp · · · CPU # proc

Observations/objets/points-






de données/exemples


 .. .. .. .. .. ..
. . . . . .














9/1/16 1:00 AM LNX 45◦ C ··· 65% 23









.. .. .. .. .. ..



. . . . . .











Données tabulaires
Types des attributs
Il est important de reconnaître les types de valeurs que chaque

attribut prend afin de comprendre quelles opérations peuvent y être
appliquées.
Exemples
Pouvons-nous calculer une moyenne de couleurs des yeux?
Comment calculer la différence entre les numéros de téléphone?
Peut-on dire qu’aujourd’hui c’est « deux fois plus chaud / froid »
qu’hier?
Ceci est similaire à des problèmes comme 6 pommes / 4 personnes =

1.5 pomme par personne, mais 10 personnes / 4 sièges d’auto = 3
voitures.
Données tabulaires
Attributs qualitatifs vs. quantitatifs
Les valeurs d’attribut peuvent être divisées en deux types:
Attributs qualitatifs
Les attributs qui prennent des valeurs d’un ensemble (fini) de
catégories sont appelés attributs catégoriels ou qualitatifs. Dans un
certain sens, ils décrivent un objet, plutôt que de mesurer ses
propriétés.
Attributs quantitatifs
Les attributs qui représentent des quantités sont appelés attributs
numériques ou quantitatifs. Ils fournissent des mesures quantifiables
concrètes d’un objet / d’une observation.
Données tabulaires
Qualitatifs: Nominaux vs. Ordinaux
Les attributs qualitatifs peuvent être divisés en deux types:

Attributs nominaux
Exemples : codes postaux, couleur des yeux, système d’exploitation
Les valeurs de ces attributs ne font que spécifier des noms sans ordre
particulier ni relation entre eux (sauf pour = et 6=).
Les attributs binaires sont nominaux avec seulement deux valeurs

(Oui/Non ou 0/1). Ils peuvent être symétriques ou asymétriques
selon que leurs valeurs sont également informatives ou non.
Attributs ordinaux
Exemples : ratings, notes, numéros des salles
Les valeurs de ces attributs ont un certain ordre, même si elles ne
spécifient pas une quantité exacte
Données tabulaires
Quantitatifs : Intervalles vs. Rapports
Les quantitatifs peuvent également être divisés en deux types :

Attributs d’intervalles
Exemples : dates, direction de l’azimut, températures (F ou C). Ces
attributs représentent des quantités avec des différences expressives
entre leurs valeurs, mais pas des relations multiplicatives.
Attributs de ratios
Exemples : masse, longueur, distance, monnaie, âge. Des quantités
qui ont des rapports expressifs entre leurs valeurs. Contrairement aux
intervalles, ceux-ci ont généralement un «zéro absolu».
On peut également diviser les quantités en discrètes et continues.

Tous les attributs qualitatifs sont considérés comme discrets.
Données tabulaires
Récapitulation des types d’attributs
Les types d’attributs peuvent être considérés via les opérations qui
peuvent leur être appliquées :
Comparaison (= et 6=) - tous les types
Ordre (> et <) - tous les types sauf les nominaux
Différence (−) et addition (+) - seulement les quantitatifs
Division (/) et multiplication (×, ·) - seulement les ratios
D’autres opérations (p. ex., moyenne, médiane, corrélation) peuvent

également être inapplicables pour certains types mais applicables à
d’autres.
Statistiques sommaires
La représentation brute des données n’est souvent pas pratique pour
l’exploration et la compréhension initiales des données.
Comment pouvons-nous avoir un aperçu général des données et de
leurs attributs dans leur ensemble ?
Propriétés qui résument l’information globale, telles que la tendance
centrale, la dispersion et les variations des observations et des
caractéristiques.
Ces statistiques constituent une première étape importante dans

l’analyse des données et la plupart d’entre elles ne sont pas difficiles à
calculer en temps linéaire par rapport à la taille des données.
Fréquence, mode, & centiles
Fréquence
La portion (p.ex., le pourcentage) de l’observation avec chaque valeur
spécifique d’un attribut catégorique ou discret.
Fréquence
Mode
La valeur la plus fréquente d’un attribut dans les données.
Fréquence
Mode
Centiles
Le p-ième centile est une valeur Pp telle que p% des valeurs
observées sont inférieures à Pp . On prend typiquement Pp comme
une des valeurs observées. Alternatives: quartile Qi (i = 1, 2, 3), etc.
Fréquence
Mode
Centiles
Le p-ième centile est une valeur Pp telle que p% des valeurs
observées sont inférieures à Pp . On prend typiquement Pp comme
une des valeurs observées. Alternatives: quartile Qi (i = 1, 2, 3), etc.
Exemples visuels : affichages de «stem-and-leaves» ; tracés de

quantiles & Q − Q.
Moyenne & médiane
Moyenne
La moyenne x̄ = n1 ni=1 xn est la façon la plus courante de mesurer
P
l’emplacement central ou la valeur des points de données.

Cependant, il est très sensible aux valeurs aberrantes. Une moyenne
ajustée est plus robuste aux valeurs aberrantes en ne tenant pas
compte des valeurs extrêmes. La moyenne pondérée tient également
compte des poids pour chaque observation.
Moyenne & médiane
Moyenne
La moyenne x̄ = n1 ni=1 xn est la façon la plus courante de mesurer
P
l’emplacement central ou la valeur des points de données.

Cependant, il est très sensible aux valeurs aberrantes. Une moyenne
ajustée est plus robuste aux valeurs aberrantes en ne tenant pas
compte des valeurs extrêmes. La moyenne pondérée tient également
compte des poids pour chaque observation.
Médiane
La médiane d’un attribut est une valeur telle que la moitié des valeurs
observées sont au-dessus et l’autre moitié au-dessous. C’est la valeur
médiane pour un nombre impair d’observations, ou la moyenne
(lorsque cela a de sens) entre les deux nombres médians pour un
nombre pair d’observations. La médiane correspond à P50 et Q2 .
Centralité et asymétrie
Les relations entre trois mesures de centralité (moyenne, médiane et

mode) peuvent indiquer les distributions symétriques ou asymétriques
des attributs :
symétrique positivement biaisée négativement biaisée
Plage & variance
Plage
La plage est la différence entre les valeurs max et min observées d’un
attribut
Plage & variance
Plage
attribut
Variance
q
La variance sx2 = n1 ni=1 (xi − x̄ )2 et l’écart-type (STD) sx = sx2
P
sont les manières les plus courantes de mesurer la dispersion des

valeurs. Cependant, comme la moyenne, ils sont sensibles aux valeurs
aberrantes.
Plage & variance
Plage
attribut
Variance
q
La variance sx2 = n1 ni=1 (xi − x̄ )2 et l’écart-type (STD) sx = sx2
P
sont les manières les plus courantes de mesurer la dispersion des

valeurs. Cependant, comme la moyenne, ils sont sensibles aux valeurs
aberrantes.
D’autres mesures de diffusion comprennent :
déviation absolue moyenne - la moyenne de |xi − x̄ |
déviation absolue médiane - la médiane de |xi − x̄ |
l’écart interquartile - la différence x75% − x25%
Covariance & corrélation
Covariance
La mesure dans laquelle les attributs varient ensemble et est calculé
par cov (x , y ) = n1 ni=1 (xi − x̄ )(yi − ȳ ). Cette valeur dépend de
P
l’ampleur/étendue des valeurs des attributs.
Covariance
P
Pour K attributs, ceux-ci forment une matrice de covariance k × k,

avec des variances sx2 = cov(x , x ) sur sa diagonale.
Covariance
P
Pour K attributs, ceux-ci forment une matrice de covariance k × k,

avec des variances sx2 = cov(x , x ) sur sa diagonale.
Corrélation
Une valeur entre 0 et 1 qui indique la relation (linéaire) entre deux
attributs. Corrélation de Pearson : corr(x , y ) = cov(x
sx sy
,y )
. On remarque
qu’il est indépendant des magnitudes/écartements et corr(x , x ) = 1.
Remarquez que la corrélation de Pearson est la covariance ou le

produit scalaire entre les attributs normalisés.
Corrélation
Une valeur entre 0 et 1 qui indique la relation (linéaire) entre deux
attributs. Corrélation de Pearson : corr(x , y ) = cov(x
sx sy
,y )
. On remarque
qu’il est indépendant des magnitudes/écartements et corr(x , x ) = 1.
Remarquez que la corrélation de Pearson est la covariance ou le

produit scalaire entre les attributs normalisés.
n
1
sx−1 sy−1
X
corr(x , y ) = (xi − x̄ )(yi − ȳ )
n i=1
n
!
1X xi − x̄ yi − ȳ

=
n i=1 sx sy
Exemple trompeur: les pirates & le réchauffement climatique
Tiré de Wikipedia
Qualité des données
Les statistiques sommaires permettent d’identifier divers problèmes

de qualité des données, tels que
Précision
La proximité des mesures répétées les unes par rapport aux autres.
Biais
Une variation systématique des mesures par rapport à la quantité
mesurée.
Justesse
La proximité des mesures par rapport à la valeur réelle de la grandeur
mesurée.
Des autres problèmes: valeurs manquantes, aberrantes ou dupliquées.
Visualisations
Pourquoi a-t-on besoin de visualisations?
Bien que les statistiques sommaires fournissent des renseignements

utiles sur les données, elles peuvent être accablantes et difficiles à
suivre lorsque de nombreux attributs sont pris en compte.
Visualisations
Conversion de données en éléments visuels qui expriment des
caractéristiques, des relations et des informations sur des points et
des attributs de données.
Les visualisations fournissent des représentations graphiques qui nous

permettent de dessiner des aperçus en un seul coup d’œil.
Visualisations
Exemple
Visualisations
Exemple (TreeMap)
Tirées de Wikipedia
Visualisations
Exemple (TreeMap)
Tirées de Wikipedia
Visualisations
Qu’est-ce qui constitue une bonne visualisation ?
Pas de bonne réponse... mais il y a quelques directives générales:

Principes d’ACCENT
Apprehension: on peut correctement percevoir les relations entre les variables.
Clarity: distinguer visuellement les relations et les éléments importants.
Consistency: la comparaison des éléments graphiques montre des
(dés)similitudes fidèles dans les données.
Efficiency: les relations et les modèles complexes sont simplifiés dans la
visualisation.
Necessity: la visualisation n’inclut que les éléments graphiques nécessaires -
aucun élément étranger.
Truthfulness: les valeurs réelles (absolues ou relatives) peuvent être
déterminées à partir d’éléments graphiques.
Visualisations
Diagramme en boîte
Les diagrammes en boîtes (inventés par J. Tukey) montrent les

distribution d’attributs en cinq nombres en fonction des centiles :
:

Outliers
XXX
X
z
90th percentile -
75th percentile H
HH
j
H
Median -
1

25th percentile 1

10th percentile
Visualisations
Histogrammes
Visualisations
Histogrammes
Visualisations
Histogrammes
Visualisations
Histogrammes
Tirée de: Pierchala, C. “The choice of age groupings may affect the quality of tabular presentations.” 2002.
Visualisations
Tracés en étoile
Visualisations
Tracés en étoile
Tirée de: www.coffeeanalysts.com/2011/11/coffee-spider-graphs-explained/
Visualisations
Tracés de coordonnées parallèles
Notez que les attributs dans ce cas n’ont pas d’ordre particulier.
Visualisations
Diagrammes de dispersion
Visualisations
Tracés « Quiver »
Données non tabulaires
Données transactionnelles
Dans les données transactionnelles, chaque observation est une
transaction qui contient un ensemble d’éléments ou une séquence
d’événements.
Exemple
Données du panier de marché Customer #1: {milk, bread, butter};
Customer #2: {orange juice, milk}; Customer #3:
{orange juice, peanut butter, jelly, bread}; . . .
Les articles de transaction peuvent également contenir des attributs

numériques, tels que le nombre d’articles achetés (par exemple, 3
boîtes de cookies) ou leur prix. Lorsque des séquences (p. ex., des
événements, des actions ou des gènes) sont considérées, l’information
temporelle/ordre peut également être incluse.
Matrice de termes
Dans certains cas, les données transactionnelles peuvent être

converties sous forme tabulaire en considérant la matrice de termes
(a.c.c., sac de mots/caractéristiques ou «bag of words»).
Exemple
CustomerID milk bread butter O.J. cheese P.B. jelly

Customer #1 1 1 1 0 0 0 0
Customer #2 1 0 0 0 1 0 0
Customer #3 0 1 0 0 1 1 1
.. .. .. .. .. .. .. ..
. . . . . . . .
Ceci perd l’information séquentielle, et son application à des valeurs

continues nécessite une étape de discrétisation.
Documents texte
Les documents texte peuvent être considérés comme des données

transactionnelles de deux façons:
Documents texte

1 Chaque document peut être considéré comme une grosse transaction
contenant des mots. Les techniques Bag of words ignorent les
structures grammaticales et représentent un document comme un
histogramme des occurrences de mots. Des approches similaires
peuvent également être appliquées aux images, aux questionnaires,
etc., avec une étape de regroupement appropriée pour la construction
du dictionnaire.
Documents texte

1 Chaque document peut être considéré comme une grosse transaction
contenant des mots. Les techniques Bag of words ignorent les
structures grammaticales et représentent un document comme un
histogramme des occurrences de mots. Des approches similaires
peuvent également être appliquées aux images, aux questionnaires,
etc., avec une étape de regroupement appropriée pour la construction
du dictionnaire.
2 Un document peut être considéré comme un ensemble de données
transactionnelles, ce qui contient des contextes de mots (p.ex., avec
n-grammes ou skip-grammes). Les techniques Word2vec utilisent
cette approche pour associer des coordonnées numériques
R
(typiquement en 300 ) aux mots en fonction des contextes dans
lesquels ils apparaissent.
Documents texte
Exemple (Analyse terminologique des twits de Donald

Trump)
Les mots les plus fréquents : iPhone vs. Android:
Tiré de varianceexplained.org/r/trump-tweets/
Documents texte
Tiré de github.com/aubry74/visual-word2vec/
Signaux structurés
Les signaux structurés ont des relations bien connues entre leurs "
attributs ". Ils sont typiquement numériques, avec un ordre temporel
ou spatial.
Exemples
Les enregistrements audio
Les signaux EEG
Rythme cardiaque
Températures ambiantes
Chaque point de données est alors un signal collecté dans le temps

(ou l’espace), et peut être analysés avec des outils de traitement du
signal.
Signaux structurés
Fourier & spectre de puissance
Série temporelle
Signaux structurés
Série temporelle Spectre de puissance
Signaux structurés
Série temporelle Spectre de puissance
Signaux structurés
STFT/TFCT & ondelettes
STFT/TFCT
Signaux structurés
Ondelettes
Signaux structurés
Lowpass
Scale 1








Scale 2







Ondelette Haar
Signaux structurés
Spectrogram & scalogram
Signaux structurés
Spectrogram & scalogram
Spectrogram Scalogram
Signaux multidimensionnels
Les signaux multidimensionnels ont plusieurs coordonnées qui
spécifient les relations entre leurs «attributs».
Exemples
Les images en «grayscale» ont deux coordonnées spatiales qui
déterminent la position des pixels.
Les vidéos ont deux coordonnées spatiales et une temporelle qui
déterminent la position des pixels.
Les données géographiques ont deux ou trois coordonnées
déterminant la longitude, la latitude et l’élévation.
Les images colorées et hyperspectrales ont deux coordonnées
spatiales et une coordonnée spectrale.
En général, de nombreuses approches de traitement du signal peuvent

être étendues des signaux unidimensionnels aux multidimensionnels.
Ondelettes bidimensionnelles
Visualisation avec tracés de contour
Visualisation avec tracés de contour
Représentations non paramétriques
Dans certains cas, les informations importantes dans les données sont
les relations entre les points de données, plutôt que leurs attributs.
Exemples
Localisation spatiale et trajectoires
Appels téléphoniques et correspondances par courriel
Interactions des gènes et progressions cellulaires
Dans ces cas, une matrice d’affinité, basée sur des similarités ou
distances, entre les points de données peut être utilisée pour l’analyse.
Essentiellement, chaque point de données est représenté par ses
relations avec d’autres points plutôt que par ses propres attributs.
Données de graphes
Les graphes peuvent être utilisés pour formaliser les relations dans les
données de deux façons:
Données de graphes
1 Les relations entre les attributs peuvent former des graphes (p.ex.,
données des molécules). Ici, chaque «point» est un graphe, et
ceci est un exemple plus compliqué des données structurées.
Données de graphes
données des molécules).
Benzene (C6 H6 ): Ici, chaque «point» est un graphe, et
Données de graphes
2 Le graphe est considéré comme le jeu de données, et chaque noeud
est un point de données (p.ex., réseaux sociaux, des références
sur le Web). La matrice d’adjacence peut former des affinités, et
inversement, les données non paramétriques sont souvent consid-
érées comme des données de graphes, en formant les adjacences
par des affinités.
Données de graphes
par des affinités.
Données de graphes
par des affinités.
Les méthodes spectrales (p.ex., SVD du graphe Laplacien) peuvent être
utilisées pour associer des coordonnées aux noeuds dans le deuxième
cas pour la visualisation par diag. de dispersion et d’autres analyses.
Visualisation par «matrix plot»
Récapitulation
On a examiné les types de données et d’attributs suivants, puis
montré brièvement comment les traiter, manipuler, & visualiser :
Types d’attributs Types de données
Nominaux Tabulaires
Ordinaux Transactionnelles & textuelles
Intervalles Structurées (1D, 2D, . . .)
Ratios Non paramétriques & de graphes
L’exploration préliminaire des données est cruciale pour obtenir des
résultats significatifs, p.ex. en identifiant d’opérations valides et peut-
être des représentations de données plus facile à analyser.
Les autres étapes de prétraitement comprennent la normalisa-
tion/standardisation, l’échantillonnage, la discrétisation, l’agrégation
et la réduction de dimensionnalité.

STT3795 - S02

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

STT3795 - S02

Transféré par

Droits d'auteur :

Formats disponibles

Fondements théorétiques en science des données

Traitement formel des données

Des données expérimentales

Des données observationnelles

La plupart des données en «science des données» sont observationnelles.

Il est important de reconnaître les types de valeurs que chaque

Ceci est similaire à des problèmes comme 6 pommes / 4 personnes =

Les valeurs d’attribut peuvent être divisées en deux types:

Les attributs qualitatifs peuvent être divisés en deux types:

Les attributs binaires sont nominaux avec seulement deux valeurs

Les quantitatifs peuvent également être divisés en deux types :

On peut également diviser les quantités en discrètes et continues.

D’autres opérations (p. ex., moyenne, médiane, corrélation) peuvent

Ces statistiques constituent une première étape importante dans

Exemples visuels : affichages de «stem-and-leaves» ; tracés de

l’emplacement central ou la valeur des points de données.

l’emplacement central ou la valeur des points de données.

Les relations entre trois mesures de centralité (moyenne, médiane et

symétrique positivement biaisée négativement biaisée

sont les manières les plus courantes de mesurer la dispersion des

sont les manières les plus courantes de mesurer la dispersion des

l’ampleur/étendue des valeurs des attributs.

l’ampleur/étendue des valeurs des attributs.

Pour K attributs, ceux-ci forment une matrice de covariance k × k,

l’ampleur/étendue des valeurs des attributs.

Pour K attributs, ceux-ci forment une matrice de covariance k × k,

Remarquez que la corrélation de Pearson est la covariance ou le

Remarquez que la corrélation de Pearson est la covariance ou le

Les statistiques sommaires permettent d’identifier divers problèmes

Bien que les statistiques sommaires fournissent des renseignements

Les visualisations fournissent des représentations graphiques qui nous

Pas de bonne réponse... mais il y a quelques directives générales:

Les diagrammes en boîtes (inventés par J. Tukey) montrent les

Tirée de: www.coffeeanalysts.com/2011/11/coffee-spider-graphs-explained/

Les articles de transaction peuvent également contenir des attributs

Dans certains cas, les données transactionnelles peuvent être

CustomerID milk bread butter O.J. cheese P.B. jelly

Ceci perd l’information séquentielle, et son application à des valeurs

Les documents texte peuvent être considérés comme des données

Les documents texte peuvent être considérés comme des données

Les documents texte peuvent être considérés comme des données

Exemple (Analyse terminologique des twits de Donald

Chaque point de données est alors un signal collecté dans le temps

Série temporelle Spectre de puissance

Série temporelle Spectre de puissance

En général, de nombreuses approches de traitement du signal peuvent

Vous aimerez peut-être aussi