Vous êtes sur la page 1sur 142

Data viz

Pr Nawal SAEL
 Objectif du cours

◦ Apprendre les principes de base de la


conception visuelle et de la perception

◦ Explorez différentes méthodes de visualisation

◦ Implémentez une visualisation interactive


 Déroulement
TPs et Mini projet

 TPs du cours réalisés sous tableau


(licence groupe à voir)
 Projet : en groupe (Trinôme)
◦ Rendu : une Visualisation interactive avec
tableau et mise en œuvre sous python ou R
◦ Livrable : présentation et démonstration
 Lectures d’article et présentation
◦ Travail : en groupe (Trinôme)
◦ Rendu : présentation + supports pdf.
◦ Tirage au sort sur les thèmes
◦ 30 minutes de présentations ● 15 à 30 minutes
de discussion
◦ Les sujets seront discutés dans la séance
prochaine
 Evaluation

◦ Un TP noté (20%)
◦ Une note d’exposé (25%)
◦ Une note de projet (25%)
◦ Examen écrit (30%)
Pourquoi la visualisation:
Pourquoi la visualisation:

Explosion de la quantité de données

● Comment faire sens des données ?


● Comment utiliser ces données dans les
processus de décision ?
● Comment ne pas être surchargé ?
Défi: transformer les données en connaissance
(découverte, compréhension) pour qu’elles
deviennent utiles
Pourquoi la visualisation:

“What information consumes is rather


obvious: it consumes the attention of its
recipients. Hence a wealth of information
creates a poverty of attention, and a need
to allocate that attention efficiently among
the overabundance of information sources
that might consume it.”
Herb Simon as quoted by Hal Varian Scientific American
September 1995
Pourquoi la visualisation:

Traiter les données : où l’ordinateur est plus


efficace ?

Question bien définie, sur des données connues


● Quel est le taux de chômage ?
● Quel gène mute fréquemment sur tel ensemble de
patients ?
Décisions doivent être faites en un minimum de
temps
● High-frequency trading
● Détection de défaut sur une chaîne d’assemblage
Pourquoi la visualisation:

Certains travaux autrefois effectués par des humains peuvent


maintenant être complètement automatisés. L'homme est
remplacé par une solution informatique.

En revanche, les systèmes de visualisation sont appropriés


lorsque le but est d'augmenter les capacités
humaines, plutôt que de remplacer complètement l'homme
dans la boucle.

Si une solution entièrement automatique est acceptable et


que le jugement humain n'est pas nécessaire, la
visualisation n'est pas nécessaire.
Pourquoi la visualisation:

il y a encore beaucoup de situations où une automatisation


totale est inappropriée. Dans certains cas, le problème est
trop complexe et n'est pas suffisamment bien défini pour
qu'un ordinateur puisse le traiter de manière
algorithmique.

Par exemple :
Trouver un traitement curatif contre le cancer est un objectif
à long terme pour de nombreux biologistes humains.
Pourquoi la visualisation:

Dans d'autres cas, une solution algorithmique proposée peut


exister, mais avant de pouvoir être déployée, elle doit être
redéfinie et étendue, ou ses résultats doivent être vérifiés
et validés par des humains.

Dans ce cas, l'objectif d'un outil de visualisation serait un


outil intermédiaire pour aider les gens à déboguer cet
algorithme, et donc à «se débrouiller tout seul»: une fois la
phase de raffinement et de vérification de l'algorithme
terminée, l'algorithme automatique serait déployé.

Un système de visualisation pour aider les développeurs


d'algorithmes à analyser ses performances pourrait être un
outil provisoire, et non un outil destiné à être utilisé
quotidiennement pendant une durée indéterminée.
Pourquoi la visualisation
 Les outils de Visualisation aident les utilisateurs dans les
situations où il est préférable de consulter la structure de
l'ensemble de données en détail plutôt que de n'en voir
qu'un bref résumé.

 L'une de ces situations se produit lors de l'exploration des


données pour trouver des modèles, à la fois pour confirmer
ceux qui sont attendus et ceux qui sont inattendus.

 Un autre problème se produit lors de l’évaluation de la


validité d’un modèle statistique: déterminer si le modèle
correspond effectivement aux données. La caractérisation
statistique des jeux de données est une approche très
puissante, mais elle présente la limitation intrinsèque de la
perte d'informations par le biais de la synthèse.
Traiter les données : où l’humain
est il plus performant ?
 Quand les questions ne sont pas bien définies
(exploration)
● Quelle combinaison de gènes peut être associée à un
cancer ?
● Quel remède peut être envisager pour cette maladie?

 Quand les résultats peuvent donner lieu à


plusieurs interprétations
● Quelle est la relation entre l’emploi et la politique
industrielle d’un pays?
Pourquoi la visualisation:
Limites de la cognition :

• La visualisation Nous aide à réfléchir


• Réduit la charge de travail de la mémoire
• De la cognition de la pensée
• Utiliser le pouvoir de la perception
humaine
Perception du système visuel humain
La visualisation, comme son nom l'indique, repose sur
l'exploitation du système visuel humain en tant que moyen
de communication car il s'agit d'un canal à très large bande
passante au cerveau. Une quantité importante de
traitement des informations visuelles a lieu au niveau de la
pré-conscience.

La visualisation permet aux utilisateurs d'associer la


cognition interne et l'utilisation de la mémoire au système
perceptuel, en utilisant des images soigneusement conçues
comme forme de représentations externes, parfois
également appelées mémoire externe.

les informations sont organisées par localisation


spatiale, offrant ainsi la possibilité d'accélérer la recherche
et la reconnaissance.
Perception du système visuel humain

Les représentations externes augmentent les capacités


humaines en nous permettant de dépasser les limites de
notre propre cognition et de notre mémoire internes. Vis
permet aux utilisateurs de fluer la cognition interne et
l'utilisation de la mémoire au système perceptuel, en
utilisant des images soigneusement conçues comme forme
de représentations externes
C’est quoi la visualisation
(définition)
Visualization is a method of computing. It transforms the
symbolic into the geometric, enabling researchers to
observe their simulations and computations. Visualization
offers a method for seeing the unseen. It enriches the
process of scientific discovery and fosters profound and
unexpected insights. In many fields it is already
revolutionizing the way scientists do science.

McCormick, B.H., T.A. DeFanti, M.D. Brown, Visualization in


Scientific Computing, Computer Graphics 21(6), November 1987

“L’utilisation de représentation visuelles, interactives et


informatique de données abstraites pour amplifier la
cognition.” Card, Mackinlay, & Shneiderman, 1999
C’est quoi la visualisation (définition)
Computer-based visualization systems provide visual
representations of datasets intended to help people
carry out some task better.
tamara munzner : visualisation, analysis and design, 2014

 Le système visuel humain est un canal à large bande


passante au cerveau
 les résumés perdent des informations, les détails
importent trop
 Efficace (best) permet des analyses entièrement nouvelles
et plus rapide: accélérer les flux de travail existants.
Comment valider l'efficacité? de nombreuses méthodes
existent, il faut en choisir une qui convient à votre contexte
C’est quoi la visualisation (définition)

Visualization is suitable when there is a need to


augment human capabilities rather than replace
people with computational decision-making methods.

tamara munzner : visualisation, analysis and design, 2014


Nous sommes confronté à
 La limites des capacités de calcul :
◦ temps de traitement
◦ mémoire système
 Limites humaines : l'attention humaine et la
mémoire
 Limites d'affichage :
◦ les pixels sont une ressource précieuse mais aussi la plus
contraignante
◦ densité d'information: rapport entre l'espace utilisé
pour coder les informations et les espaces inutilisés

compromis entre fouillis et gaspillage


d'espace, trouver un endroit idéal entre dense et
clairsemé (dispersé)
L’interactivité
 L'interactivité est cruciale pour la construction d'outils
complexe et simplifié.
 Lorsque les ensembles de données sont suffisamment
volumineux, les limitations des personnes et des affichages
empêchent de tout afficher en même temps; l’interaction
où les actions de l'utilisateur entraînent un changement de
vue est la meilleure solution.
 Une seule vue statique ne peut afficher qu'un seul aspect
d'un jeu de données. Cependant une combinaisons
d'ensembles de données simples et de tâches ne peut
réussir.
 En revanche, un affichage changeant de manière
interactive prend en charge de nombreuses requêtes
possibles.
L’interactivité
 Exemple :

Un outil de visualisation interactif peut prendre en charge des


enquêtes à plusieurs niveaux de détail, allant d'une vue
d'ensemble très détaillée à une synthèse complète jusqu'à
une vue entièrement détaillée d'une petite partie de celle-
ci. Il peut également offrir différentes manières de
représenter et de résumer les données de manière à
permettre de comprendre les liens entre ces alternatives.
L’interactivité

Un langage visuel est une approche distincte de la création et


de la manipulation de représentations visuelles. Il existe de
nombreuses façons de créer un codage visuel des données
sous forme d'image unique. L'espace de conception des
possibilités devient encore plus grand lorsque vous
envisagez de manipuler une ou plusieurs de ces images
avec interaction.

Dans ce cours nous allons voir un cadre de réflexion sur les


possibilités de conception vis-à-vis d’un ensemble de
choix, y compris comment coder des informations avec une
position spatiale, comment répartir des données entre
plusieurs vues et comment réduire la quantité de données
affichée par. filtrage et agrégation.
Les objectifs de la visualisation
 Enregistrer de l’information
● Plan, photo
 Faciliter le raisonnement sur de l’information
(analyser)
● Analyser et calculer
● Raisonner sur les données
● Feedback et interaction
un tremplin vers l'automatisation avant la création du modèle
pour fournir la compréhension lors de la création d'un
algorithme pour affiner, déboguer, définir des paramètres avant
ou pendant le déploiement pour établir la confiance et
surveiller
 Transmettre de l’information (présenter)
● Partager et persuader
● Collaborer et itérer
● Mettre en avant un aspect des données
La raison la plus fondamentale pour laquelle la conception de
la visualisation est une tâche difficile est que la grande
majorité des possibilités dans l'espace de conception ne
sont pas forcement efficace.
Dans certains cas, une conception possible correspond mal
aux systèmes de perception et cognitifs humains. Dans
d’autres, la conception serait compréhensible pour un
humain, mais elle ne correspondait pas à la tâche à
accomplir.
Seul un très petit nombre de possibilités sont meilleure dans
l’ensemble des choix disponibles. , et parmi ceux-là
seulement.

Ce cours a pour but de vous aider, en tant que concepteur, à


considérer un large espace de réflexion en prenant
systématiquement en compte de nombreuses alternatives, mais
également à éliminer certaines parties de l’espace en signalant les
écarts entre les possibilités en matière de capacités humaines et
la tâche à accomplir
What – why - how

Dans la perception conceptuel d’une


visualisation, nous travaillerons sur trois parties
pour une instance: pourquoi la tâche est-elle
effectuée, quelles données sont affichées dans
les vues et comment l'idiome de la vis est-il
construit en termes de choix de conception?
Ch2 : Les données
Pourquoi
 De nombreux aspects de la conception de vis dépendent du
type de données que vous avez à votre disposition. Quel
type de données recevez-vous? Quelles informations
pouvez-vous extraire des données, par opposition aux
significations qu'il faut vous expliquer explicitement? Quels
concepts de haut niveau vous permettront de scinder des
ensembles de données en éléments généraux et utiles?

 La classification ci-dessous présente une manière de


penser les types de données, les types d'attributs et la
sémantique d'une manière suffisamment générale pour
couvrir les cas intéressants, mais suffisamment spécifiques
pour guider les choix de conception aux niveaux
d'abstraction et du code visuel.
À la base de toute visualisation

Un bon designer de visualisation doit


connaître :
● Les propriétés des données
● Les métadonnées associées
● Ce que les gens veulent tirer des données
Types de jeux de donnés
Spatial
Table
 De nombreux jeux de données se présentent
sous la forme de tableaux composés de lignes et
de colonnes, c’est la forme la plus répondu
Networks
 Le type de jeu de données réseaux est bien
adapté pour spécifier qu’il existe une sorte de
relation entre deux éléments ou plus.
◦ Un élément d’un réseau est souvent appelé un nœud.
◦ Un lien est une relation entre deux éléments.
◦ Exemple :
 Dans réseau social articulé, les nœuds sont des personnes et
les liens signifient amitié.
 Dans un réseau d'interaction génique, les nœuds sont des
gènes, et les liens qui les unissent signifient que ces gènes
interagissent entre eux.
Tree
 Les réseaux à structure hiérarchique sont plus
spécifiquement appelés arbres. Contrairement
aux réseaux généraux, les arbres n'ont pas de
cycles: chaque nœud enfant n'a qu'un nœud
parent pointant vers lui.
Fields
Le type de jeu de données Fiels contient également des valeurs
d'attribut associées à des cellules.
Chaque cellule d'un champ contient des mesures ou des calculs
provenant d'un domaine continu: il existe conceptuellement un
nombre infini de valeurs que vous pourriez mesurer, de sorte que
vous pouvez toujours prendre une nouvelle mesure entre deux
valeurs existantes.
Fields

Par exemple, considérons un ensemble de données représentant


une analyse médicale d'un corps humain contenant des mesures
indiquant la densité de tissu en de nombreux points
d'échantillonnage, régulièrement réparties dans un volume
d'espace 3D.
Les mesures de densité pourraient être rapprochées avec une grille
de cellules de résolution supérieure, ou plus éloignées pour une
grille plus grossière.
Grid

Lorsqu'un champ contient des données créées par


échantillonnage à des intervalles parfaitement réguliers, comme
dans l'exemple précédent, les cellules forment une grille
uniforme. Il n'est pas nécessaire de stocker explicitement la
géométrie de la grille en termes de localisation dans l'espace, ni
la topologie de la grille en termes de connexion de chaque cellule
avec ses cellules voisines.

Des exemples plus complexes nécessitent de stocker différentes


quantités d'informations géométriques et topologiques sur la
grille sous-jacente, on parle dans ce cas de géométrie
Spatial Fields
Les données continues se présentent souvent sous la forme d'un
champ spatial(spatial fiel), où la structure cellulaire du champ est
basée sur un échantillonnage à des positions spatiales.

Par exemple, avec un ensemble de données de champ spatial


généré avec un instrument d’imagerie médicale, la tâche de
l’utilisateur pourrait être de localiser des tumeurs suspectes
pouvant être identifiées par des formes ou des densités
distinctives. Un choix évident pour l’encodage visuel serait de
montrer quelque chose qui ressemble spatialement à une image
radiographique du corps humain et d’utiliser un code de couleur
pour mettre en évidence les tumeurs suspectes.
Spatial Fields
Un autre exemple concerne des mesures réelles permettant de
simulée la température et la pression de l'air s'écoulant au-
dessus des ailes d'avion en de nombreux points de l'espace
3D, dans le but de comparer les modèles de flux dans différentes
régions. Un codage visuel possible utiliserait la géométrie de l'aile
comme substrat spatial, montrant la température et la pression à
l'aide de flèches codées par la taille.
Spatial field
Scalar field : Un champ scalaire est univarié, avec
un attribut de valeur unique à chaque point de
l'espace.
Exemple : la température dans une pièce à
chaque point de l'espace 3D.

L'intuition géométrique est que chaque point d'un


champ scalaire a une valeur unique. Un point
dans l’espace peut être associé à plusieurs
nombres différents; s'il n'y a pas de lien sous-
jacent entre eux, il s'agit simplement de
plusieurs champs scalaires distincts.
Spatial field
Vector field : Un champ de vecteur est multivarié, avec une
liste de plusieurs valeurs d'attribut à chaque point.

L'intuition géométrique est que chaque point d'un champ


vectoriel a une direction et une magnitude, comme une
flèche pouvant pointer dans n'importe quelle direction et
avoir n'importe quelle longueur. La longueur peut signifier
la vitesse d'un mouvement ou la force d'une force.
Un exemple concret de champ vectoriel 3D est la vitesse de
l'air dans la pièce à un moment précis, où il existe une
direction et une vitesse pour chaque élément. La
dimensionnalité du champ détermine le nombre de
composants dans le vecteur de direction; sa longueur peut
être calculée directement à partir de ces composants, à
l'aide de la formule de distance euclidienne standard. Les
cas standard sont deux, trois ou quatre composants.
Tensor field
Tensor field : Un champ de tenseurs a un tableau
d'attributs en chaque point, représentant une
structure mathématique multivariée plus
complexe que la liste de nombres dans un
vecteur. Un exemple physique est le stress
qui, dans le cas d'un champ 3D, peut être défini
par neuf chiffres représentant des forces agissant
dans trois directions orthogonales. L’intuition
géométrique est que l’information complète en
chaque point d’un champ tensoriel ne peut être
représentée par une simple flèche et
nécessiterait une forme plus complexe telle qu’un
ellipsoïde.
Geomerty
Le type de jeu de données géométriques spécifie
des informations sur la forme des éléments avec
des positions spatiales explicites. Les éléments
peuvent être des points, des lignes ou des
courbes unidimensionnelles, des surfaces ou des
régions 2D ou des volumes 3D.
Élément : Entité individuelle, discrète.
● Ex: un patient, une voiture
Attribut : Propriété mesurée ou observée
● Ex: taille, pression sanguine (patient), vitesse (voiture)
Lien, Position et Grille

 Lien
Relation entre deux éléments , Ex : “amitié sur Facebook”
Un élément d'un réseau s'appelle souvent un nœud
Dans un réseau. Par exemple, les items peuvent être des
personnes, des actions, des cafés, des gènes ou des villes.

 Position
Données spatiales (en 2D ou 3D), Ex : latitude/longitude

 Grille
Spécifie la stratégie d'échantillonnage de données continues
en termes de relations géométriques et topologiques entre ses
cellules
Ex: positions de stations météo
Type d’échelles
 Nominale (catégoriel)
● Fruits: pommes, oranges, ...
 Ordinale (ordonné)
● Qualité d’un frigo: A+, A++, A+++ …
● Peut être compté et ordonné mais pas mesuré
 Intervalle (zéro arbitraire)
● Dates, longitude, latitude
 Ratio (zero fixé)
● Le zéro a un sens (rien)
● Mesure physique : poid, longueur, ...
Type d’échelles
 Nominale (catégoriel)
Opérations : =, ≠
 Ordinale (ordonné)
Opérations : =, ≠, >, <
 Intervalle (zéro arbitraire) ex : [1989 – 1999] +
[ 2002 – 2012]
Opérations : =, ≠, >, <, +, −
peut mesurer les distances
 Ratio (zero fixé) ex : 10kg / 5kg
Opérations: =, ≠, >, <, +, −, ×, ÷
peut mesurer les proportions
Attribut hiérarchique
 Il peut y avoir une structure hiérarchique dans un attribut ou
entre plusieurs attributs.
Exemple :
Les cours boursiers quotidiens des entreprises collectés au cours
d'une décennie constituent un exemple de jeu de données
chronologiques dans lequel l'un des attributs est le temps. Dans
ce cas, le temps peut être agrégé de manière hiérarchique, de
jours individuels à semaines, allant de mois à années.
Il peut exister des tendances intéressantes à différentes échelles
temporelles, telles que des variations hebdomadaires très fortes
pour les jours de la semaine par rapport aux week-ends, ou des
tendances annuelles plus subtiles montrant des variations
saisonnières été / hiver.
De nombreux types d'attributs peuvent avoir ce type de structure
hiérarchique: par exemple, l'attribut géographique d'un code
postal peut être agrégé au niveau de villes, d'États ou de pays
entiers.
Sémantique
 Connaître le type d'un attribut n’informe pas sur
sa sémantique : ces deux concept sont
transversal et l’un n’explique pas l’autre.
 Exemple :
◦ Modèle de données : description bas niveau
● Flottants : 32.5, 54.0, -17.3
◦ Sémantique
● Température
◦ Type de données
● Valeur continue avec 1 chiffre significatif (Quantitatif)
● Chaud - tiède - froid - glacé (Ordinal)
● Brulé / pas brulé (Nominal)
 La classification de ce cours est fortement axée
sur la sémantique
Notion de clé et valeur

 Un attribut clé agit comme un index permettant de


rechercher des attributs de valeur.
 Un synonyme d'attribut clé est un attribut indépendant. Un
synonyme pour l'attribut value est un attribut dépendant.
 Le langage indépendant et dépendant est courant en
statistique. Dans le langage des entrepôts de données, un
synonyme de Indépendant est dimension et un synonyme
de dépendant est mesure.
Table multidimensionnelle
 Une table multidimensionnelle contient plusieurs clés. Ces
clés sont nécessaires pour rechercher un élément.
 La combinaison de toutes les clés doit être unique pour
chaque élément, même si un attribut de clé individuel peut
contenir des doublons.
 Par exemple, un tableau multidimensionnel commun du
domaine de la biologie a un gène en tant que clé et un
autre en tant que clé, de sorte que la valeur dans chaque
cellule correspond au niveau d'activité d'un gène à un
moment donné.
Temps : sémantique
 Un attribut temporel est simplement n'importe quel type
d'information qui se rapporte au temps. Les données sur le
temps sont compliquées à gérer en raison de la structure
hiérarchique riche que nous utilisons pour raisonner sur le
temps et du potentiel de structure périodique.
Temps : sémantique
 Données variées dans le temps : Un ensemble de données
a une sémantique variable dans le temps lorsque le temps
est l'un des attributs de la clé,
Exemple :
Un réseau de capteurs qui permet de suivre la localisation de
chaque animal dans un troupeau en prenant de nouvelles
mesures toutes les secondes. Chaque animal disposera de
nouvelles données de localisation à chaque instant, de sorte que
l'attribut temporel est une clé indépendante et constituera
probablement un aspect central de la compréhension de
l'ensemble de données.
En revanche, un jeu de données sur les courses de chevaux
couvrant une année de courses pourrait avoir des attributs de
valeur temporelle tels que l’heure de début de la course et la
durée de la course de chaque cheval. Ces attributs traitent
effectivement avec des informations temporelles, mais le jeu de
données n’est pas varié dans le temps.

Synthèse : les origines de la visualisation
Synthèse : les origines de la visualisation
Synthèse : les fonctions clés de la viz
Les domaines de data viz
Synthèse : disciplines impliquées
Synthèse : Processus de
visualisation
Collect Raw Process and Clean
Data Filter Data Dataset

Exploratory
Analysis

Generate Generate
Visualisation Conclusion
Synthèse

La visualisation facilite la compréhension et l’interprétation


des données, améliore la communication, optimise et accélère
la prise de décision, contribue à la motivation des
collaborateurs et favorise l’innovation

en plus de la représentation graphique, ces outils sont


capables d’offrir des procédures d'analyses standards afin de
créer ou d'enrichir le contenu analytique, les visualisations et
les applications.
Synthèse
Pourquoi
Abstraction des tâches

l’abstraction des tâches dans l’objectif de standardiser les


action et sortir des particularité d’un domaine ou d’un autre
La visualisation est utilisée pour :

Deux objectifs sont possibles dans l’analyse


des données à l'aide d'un outil vis:
 Utiliser les informations existantes
 Produire de nouvelles informations.
Utiliser l’existant (consume)
Dans ce cas, on distingue trois utilisation:

 Présenter quelque chose que l’utilisateur


comprend déjà à un tiers,

 Découvrir quelque chose de nouveau ou


analyser des informations qui ne sont pas
encore complètement comprises,

 Jouir d'avantage pour satisfaire les intérêts


occasionnels des utilisateurs sur un sujet
Découvrir

La viz est utilisé pour trouver de nouvelles connaissances


qui n'étaient pas connues auparavant.

La découverte peut découler de l’observation fortuite de


phénomènes inattendus, mais l’enquête peut être motivée
par les théories, modèles, hypothèses ou intuitions
existants.

Cet usage inclut également comme but :


 Trouver des choses complètement nouvelles; c'est-à-dire
que le résultat est de générer une nouvelle hypothèse.
 Déterminer si une conjecture est vraie ou fausse; c'est-à-
dire vérifier ou infirmer une hypothèse existante.
Présenter
La vis est utilisé pour :
 Communiquer de l'informations,
 Raconter une histoire avec des données
 Guider un public à travers une série d'opérations
cognitives.

La présentation utilisant vis peut avoir lieu dans le


contexte des processus de prise de décision, de
planification, de prévision et d’enseignement.

Le point crucial à propos de l'objectif actuel est que


quelqu'un utilise cette information pour communiquer
quelque chose de spécifique et déjà compris par un
public.
Jouir
Dans ces contextes, l'utilisateur n'est pas motivé par un
besoin pressant de vérifier ou de générer une
hypothèse, mais par une curiosité à la fois stimulée et
satisfaite par la vis.
par exemple lorsqu'on regarde une infographie tout en lisant
un article de blog.
Produire (produce)
Contrairement à l'utilisation de vis uniquement pour la
consommation d'informations existantes, l'objectif de
l'utilisateur est de générer de nouveaux éléments.

Le but de produire est souvent de produire une sortie qui est


utilisée immédiatement.

Parfois, l’utilisateur a l’intention d’utiliser ce nouveau matériel


ultérieurement pour une autre tâche, telle que la
découverte ou la présentation.

Parfois, l’utilisation prévue du nouveau matériel est destinée


à une autre analyse en aval utilisant des outils non visuels.
Il existe trois types d'objectifs de production:
annoter, enregistrer et dériver
Annoter
L’objectif d’annoter se réfère à l’ajout d’annotations
graphiques ou textuelles à un ou plusieurs éléments de
visualisation préexistants, généralement sous la forme
d’une action manuelle de la part de l’utilisateur.

Lorsqu'une annotation est associée à des éléments de


données, elle peut être considérée comme un nouvel
attribut.
Par exemple, l'utilisateur peut annoter tous les points d'un
graphe avec une étiquette de texte.
Enregistrer
L'objectif d'enregistrer est d’enregistrer ou capturer les éléments de
visualisation sous forme d'artefacts persistants. Ces artefacts
comprennent des captures d'écran, des listes d'éléments ou
d'emplacement marqués par un livre, des paramètres, des journaux
d'interaction ou des annotations.

Le choix d'enregistrement enregistre un artefact, contrairement à


l'annotation, qui attache temporairement des informations à des
éléments existants; une annotation faite par un utilisateur peut
ensuite être enregistrée.

Un exemple intéressant d’objectif d’enregistrement consiste à


assembler un historique graphique, dans lequel la sortie de chaque
tâche inclut un instantané statique de la vue indiquant son état
actuel, et ces instantanés s’accumulent dans une méta-visualisation
en branches illustrant ce qui s’est passé pendant la totalité de la
session d'utilisation de l'outil vis.
Dériver
Le but de la dérivation est de produire de nouveaux éléments de
données à partir des éléments de données existants.

Les nouveaux attributs peuvent être dérivés des informations


contenues dans ceux existants, ou les données peuvent être
transformées d'un type à un autre. La création de nouvelles
données est une partie essentielle du processus de conception.

Le cas habituel est que la création de nouvelles données est un


choix fait par les concepteurs vis, mais ce choix peut également
être déterminé par l'utilisateur d'un outil vis.
Dériver
Ne dessinez pas simplement ce que vous avez reçu! décider quelle
est la bonne chose à montrer, le créer avec une série de
transformations à partir du jeu de données d'origine est l'une des
quatre principales stratégies de gestion de la complexité.
Dériver un seul attribut
 Dans le cas d’un réseau ou d’un arbre complexe, il est utile de
pouvoir filtrer la plus grande partie de la complexité en créant un
tableau plus simple communiquant les aspects clés de sa
structure topologique.
 Une façon de prendre en charge ce type de résumé consiste à
calculer un nouvel attribut dérivé qui mesure l'importance de
chaque nœud du graphique et du filtre en fonction de cet attribut.
De nombreuses approches sont proposées.
 les métriques de centralité le font d'une manière qui prend en
compte la topologie du réseau.
 Le nombre de Strahler est une mesure de l'importance des
nœuds à l'origine développé en hydrogéologie pour caractériser la
structure de branchement des rivières et a été adapté et étendu
pour la visualisation des arbres et des réseaux
Exemple
Nombre de Strahler (métrique de centralité) pour les arbres /
réseaux
Attribut quantitatif dérivé
dessiner uniquement les 5000 nœuds les mieux classés et les
liens qui les relient est un squelette reconnaissable de
l’arbre complet,
Exemple : why-what-how
La recherche

Dans tous les cas d’analyse, l’utilisateur doit


rechercher des éléments d’intérêt dans le vis
comme un objectif de niveau intermédiaire.

La classification de la recherche en quatre


alternatives est ventilée selon que l'identité et la
localisation de la cible de recherche sont déjà
connu ou pas.
La recherche

 Lookup : Si l’utilisateur sait déjà ce qu’ils


cherche et où il se trouve, le type de recherche
est simplement une recherche.
 On parle de locate lorsqu’on veut trouver une
cible connue à un emplacement inconnu,
 Lorsque les utilisateurs ne savent pas
exactement ce qu’ils cherchent, mais qu’ils ont
un emplacement en tête, on parle de browse
 Lorsque les utilisateurs ne sont même pas sûrs
de l'emplacement, on parle de Explore
Query

Une fois qu'une cible ou un ensemble de cibles


pour une recherche a été trouvé, un objectif
d'utilisateur de bas niveau consiste à interroger
ces cibles selon l'une des trois portées suivantes:
identifier, comparer ou résumer.
Comment
How
La troisième partie d’un trio d’instances d’analyses est la façon dont
une vis peut être construite à partir d’un ensemble de choix de
conception.

Le codage de données dans une vue comporte quatre bloc:


Organiser les données de manière spatiale: exprimer des valeurs;
séparer, ordonner, aligner les régions et utiliser des données
spatiales.

Cette famille comprend également comment mapper des données


avec tous les canaux visuels non spatiaux, y compris la couleur, la
taille, l’angle, la forme, etc.
How
 La famille manipuler a le choix de modifier n’importe quel aspect
de la vue, de sélectionner des éléments dans la vue et de
naviguer pour modifier le point de vue dans la vue - un aspect du
changement avec un ensemble de choix suffisamment riche pour
mériter sa propre catégorie.

 La famille de facettes des données entre les vues permet de


choisir comment juxtaposer et coordonner plusieurs
vues, comment partitionner les données entre les vues et
comment superposer des couches les unes sur les autres.

 La famille des outils réduire permet d'éliminer les données de


filtre, d'agréger de nombreux éléments de données et d'intégrer
des informations de focus et de contexte dans une seule vue.
Pourquoi ce trio : what why how
Pour mieux analyser et comparer des code visuel
Pourquoi ce trio : what-why-how
Validation d’une visualisation
La validation est importante parce que l'espace de conception
vis est énorme et la plupart des conceptions sont
inefficaces.
De ce fait, il est utile de réfléchir à la manière de valider les
choix dès le tout début du processus de conception, au lieu
de laisser ces considérations à la fin.
Quel repère pour évaluer
 Des repères informatiques?
◦ quant: performances du système, mémoire
 Etude utilisateur en laboratoire?
◦ quant: temps (humain), taux d'erreur, préférences
◦ qual: observations comportementales / stratégiques
 Etude sur le terrain du système déployé?
◦ quant: journaux d'utilisation
◦ qual: entretiens avec des utilisateurs, études de cas, observations
 Analyse des résultats?
◦ quant: métriques calculées sur les images de résultat
◦ qual: considère quelle structure est visible dans les images de
résultat
 Justification des choix?
◦ qual: principes de perception, meilleures pratiques
Quatre niveaux de conception de visualisation

 situation de domaine
◦ qui sont les utilisateurs cibles?
 abstraction
◦ traduire des spécificités de domaine au vocabulaire de la
visualisation
 qu'est-ce qui est montré (what)? abstraction de données
 pourquoi l'utilisateur le regarde-t-il (why)? abstraction de
tâche
 idiome
◦ comment est-il montré (how)
 Idiome d'encodage visuel: comment dessiner
 Idiome d'interaction: comment manipuler
 algorithme
◦ calcul efficace
Validation multi-niveau

domain
abstraction

idiom
algorithm
Marques et canaux
Pourquoi?
Le cœur de l'espace de conception des codages visuels peut
être décrit comme une combinaison orthogonale de deux
aspects: des éléments graphiques appelés marques, et des
canaux visuels pour contrôler leur apparence.

Même les encodages visuels complexes peuvent être


décomposés en composants pouvant être analysés en
termes de marques et de structure de canal.
Les marques
Une marque est un élément graphique de base dans une
image.
Les marques sont des objets géométriques primitifs utilisés
pour présenter un data set

Marks for items :

Un repère de volume tridimensionnel (3D) est possible, mais


ils ne sont pas fréquemment utilisés.
Les marques
Marks for links

Containments can be nested


(imbriqués)
Canal
 Un canal visuel est un moyen de contrôler l'apparence
graphique des marques, proportionnellement à leurs
dimension.
 Les canaux changent l'apparence en fonction de l'attribut
 Un canal est une variable visuelle

•Couleur
•Longueur
•Position
•Angle

Ils sont utilisé pour


encoder les données
Exemples
Les figures sont une combinaison de marques et de canaux
1 Mark = Rectangle
4.5

3.5
1 Channel = Length of longest side
3

2.5

1.5

1 1 Mark = Circle segment


1 Channel = Angle
0.5

0
1 2 3

1 Mark = Diamond shape


10
9

2 Channels = X position, Y position


8
7
6
5
4

1 Mark = Circle
3
2

4 Channels:
1
0
0 2 4 6 8 10

X position
Y position
Area
Colour
Les types de canaux
Le système de perception humaine a deux types
fondamentalement de modalités sensorielles.

 Les canaux d'identité nous renseignent sur ce qu'est une


chose est ou à quel endroit elle est.
 En revanche, les canaux de magnitude nous disent
combien il y a de quelque chose
Les types de canaux
Les couleurs
 Représentations techniques de la couleur:

• Rouge + Vert + Bleu (RVB)


• Cyan + Magenta + Jaune + Noir (CMJN)

 Représentation perceptuelle de la couleur

◦ Teinte + Saturation + Luminance(HSL)


Les couleurs
 Teinte(hue) = nuance de couleur qualitative
 Saturation = quantité de couleur quantitative
 Luminance = quantité de blanc quantitative

Les humains n'ont pas de perception quantitative


innée de la teinte mais nous en avons appris
quelques-une
(froid - chaud, arc-en-ciel, etc.)
Notre perception de la teinte n'est pas linéaire
Les types de donnée (rappel)
Quantitatif :
Taille, longueur, poids, expression, etc.

Ordonné : Petit moyen grand


Janvier février mars

Qualitatif (catégorique): WT, Mutant1, Mutant2


GeneA, GeneB, GeneC
Comment choisir(canal et mark) :
règle d’or
 Efficacité (effectiveness) : Encoder les
informations les plus importantes avec le canal le
plus efficace

 Expressivité (Expressiveness) correspond aux


propriétés des données et du canal
Expressivité
Le principe d'expressivité est que le codage visuel doit exprimer
tous et uniquement les informations contenues dans les attributs
du jeu de données.

L’expression la plus fondamentale de ce principe est que les


données ordonnées doivent être montrées d’une manière que
notre système de perception les perçoit intrinsèquement comme
étant ordonné.
Inversement, les données non ordonnées ne doivent pas être
affichées de manière à impliquer (de manière perceptible) un
ordre inexistant

La violation de ce principe est l’erreur commune des débutants.


Dans ce sens les canaux de conception visuelle sont divisé en
deux pour intégrée cette classification.
Effectivité
Le principe d'efficacité (effectiveness) veut que l'importance de
l'attribut corresponde au type et forme du canal; c'est-à-dire sa
perceptibilité.

En d'autres termes, les attributs les plus importants doivent être


codés avec les canaux les plus efficaces pour être les plus
visibles, puis les attributs moins important peuvent être associés
à des canaux moins efficaces et ainsi de suite.
Effectivité de quantification
10 10 18
9 9 16
8 8 14
7 7
12
2X
6 6
10
5 5
8
4 4
6
3 3
2 2 4

1 1 2

0 0 0
0.9 1 1.1 1 2 1

4.5X 1.8X 7X
16X

3.4X
Effectivité de quantification
La précision : est le moyen le plus évident pour quantifier l'efficacité
Il présente à quel point le jugement perceptuel humain est-il proche
d'une mesure objective du stimulus (sensation physique)
Le classement des canaux
Classement des canaux par efficacité en fonction des données et du type de
canal.
•Les données ordonnées sont géré par des canaux de magnitude
•Les données catégorielles avec les canaux d'identité.
La perception de la quantification

Un autre ensemble de réponses à la question de la précision


provient d'expériences contrôlées qui cartographient directement la
réponse humaine à des informations abstraites codées
visuellement, nous fournissant ainsi un classement explicite de la
précision perceptuelle pour chaque type de canal.

Par exemple, les expériences de Cleveland et McGill sur les canaux


de magnitude [Cleveland et McGill 84a] ont montré qu’une position
alignée par rapport à une échelle commune était la plus
précisément perçue, suivie par une position non alignée par rapport
à une échelle identique, suivie de la longueur, puis de l’angle. Une
surface est beaucoup moins perçus que ceux auparavant cité.
La perception de la quantification

Ils proposent également des classements pour les canaux qu'ils


n'ont pas directement testés après surface (area), il y’a une
équivalence de classe entre volume, courbure et luminance; cette
classe est suivie par hue à la dernière place. (Ce dernier classement
correspond à la teinte (hue) en tant que canal de magnitude, ce qui
est très différent de son classement à la deuxième place en tant
que canal d'identité.) Ces résultats de précision pour les codages
visuels s'accordent bien avec les mesures du canal psychophysique
présentées auparavant.
La perception de la quantification
Représentations quantitatives les
plus importantes
Good quantitation
 Diagramme à bandes  Bar chart
 Diagramme à barres  Stacked bar chart with
empilées avec début common start
commun
 Diagramme à barres  Stacked bar chart with
empilées avec des départs different starts
différents
 Camemberts  Pie charts
 Tracés à bulles (zone  Bubble plots (circular area)
circulaire)  Rectangular area
 Zone rectangulaire  Colour (luminance)
 Couleur (luminance)  Colour (saturation)
 Couleur (saturation)

Poor quantitation
Discriminabilité
Si vous encodez des données catégoriques, les différences
entre les catégories sont-elles faciles à percevoir
correctement par l'utilisateur?

les différences entre les éléments sont-elles perceptibles par


l'homme comme prévu?

Combien de couleur on peut apercevoir ?


Discriminabilité
Combien de formes (remplissables) pouvez-vous distinguer?
Discrimination quantitative
Peut se combiner avec la
couleur, mais il faut
maintenir des zones
remplissables similaires
Séparabilité

L'efficacité d'un canal ne survit pas toujours en étant


combinée avec un deuxième canal.

Il y a de grandes variations dans la façon dont deux canaux


différents interfèrent l'un avec l'autre

Essayer de mettre trop d’informations sur une figure peut


réduire l’impact du point principal que vous essayez de
faire valoir.
Separabilité : exemple

There is no Larger points We tend to Humans are


confusion are easier to focus on the very bad at
between the discriminate area of the separating
two channels than smaller shape rather combined
ones than the colours
height/width
separately
Popout

 Un élément distinct se distingue immédiatement


des autres

 Déclenché par notre système visuel bas niveau

 Vous n'avez pas besoin de regarder activement


chaque point (lent!) Pour le voir
Popout
(trouver le cercle)
Popout
La vitesse d’identification est indépendante du nombre de points
Popout
(Trouver le cercle)
Popout
La couleur ressort plus que la forme
Popout
Mélanger des canaux supprime l'effet (Trouver le cercle rouge)
Exploitation de l’espace
Lorsque vous souhaitez que le lecteur se concentre
sur des sous-ensembles de données
spécifiques, vous pouvez améliorer sa perception
en utilisant la disposition ou la mise en
surbrillance des données pour attirer leur
attention sur le point que vous faites valoir.
groupement
Pour indiquer que les éléments forment un groupe, il faut
coder les données catégorielles de manière appropriée
avec les canaux d’identité. Tous les éléments qui partagent
le même niveau d'attribut de catégorie peuvent être perçus
comme un groupe en attirant simplement l'attention sur ce
niveau de manière sélective.
80 80
70 70
60 60
50 50
40 40
30
30
20
20
10
10
0
0
CpG CHH CHG CpG CHH CHG CpG CHH CHG CpG CHH CHG
groupement
L'effet du regroupement perceptuel peut découler de
l'utilisation de marques de lien ou de l'utilisation de canaux
d'identité pour coder des attributs catégoriels

Le codage des marques de lien à l'aide de zones de


confinement ou de lignes de connexion transmet
l'information que les objets liés forment un groupe avec un
très fort indice de perception.

Le confinement est le signal le plus puissant pour le


regroupement, la connexion arrivant en deuxième position.
Containment
Containment
ordre
140

120

100
Weight (kg)

80

60

40

20

0
fish aardvark cat monkey dog cow horse
Remarques
 Toujours essayer de valider les parcelles que vous créez
Vous avez vu vos données trop souvent pour obtenir une
vue impartiale
 Montrer l'intrigue à quelqu'un qui n'est pas familier avec
les données
◦ Que vous dit cette intrigue?
◦ Est-ce le message que vous vouliez transmettre?
◦ S'ils choisissent plusieurs points, choisissent-ils d'abord le plus
important?
Règles à suivre
 Pas de chiffres inutiles
◦ Une représentation graphique rend-elle les choses plus claires?
◦ Une table serait-elle meilleure?
 Un point par figure
◦ Concevez chaque figure pour illustrer un seul point
◦ L'ajout de complexité compromet l'efficacité du point principal
 Pas de dépendance absolue à la couleur
◦ Les chiffres devraient idéalement toujours fonctionner en noir
et blanc
◦ La couleur devrait aider à la perception
 Pas de 3D
◦ La 3D est rarement justifiée et rend les choses moins claires
 Les figures doivent être autonomes
◦ Doit être compréhensible sans information supplémentaire
Règles à suivre
 Aucune 3D injustifiée
- La puissance du plan
- La disparité de profondeur
- L’occlusion masque l'information
- Les dangers de la distorsion de la perspective
- Le texte incliné n'est pas lisible
 Pas de 2D non justifié
 Les yeux batte la mémoire
 Résolution sur immersion
 Vue d'ensemble Tout d'abord, zoomez et filtrez, Détails à la
demande
 Réactivité requise
 Réalisez-le correctement en noir et blanc
 Le fonction d’abord , les formes ensuite
Règles à suivre : Couleurs
Représentations quantitatives les
plus importantes
Good quantitation
 Diagramme à bandes  Bar chart
 Diagramme à barres  Stacked bar chart with
empilées avec début common start
commun
 Diagramme à barres  Stacked bar chart with
empilées avec des départs different starts
différents
 Camemberts  Pie charts
 Tracés à bulles (zone  Bubble plots (circular area)
circulaire)  Rectangular area
 Zone rectangulaire  Colour (luminance)
 Couleur (luminance)  Colour (saturation)
 Couleur (saturation)

Poor quantitation
Utilisation efficace des types de graphiques