Vous êtes sur la page 1sur 78

+

# Manipulations et
traitements de données

Big data et M2 SIGAT


Visualisation de Automne 2015
données (Data.Viz) @Boris Mericskay
+
Objectifs de la séance

 D’un point de vue théorique (30mn):


 Revenir sur le phénomène Big Data
 Comprendre le principe des Data Viz
 Connaitre les clef d’une bonne Data Viz

 D’un point de vue pratique (2h30):


 Familiarisation avec divers d’outils en ligne
permettant de concevoir des Data Viz :
 infogr.am
 RAW
 easel.ly
 Wordle

#M2 SIGAT / Anamoprhoses 2


+
Cours

# M2 SIGAT/ Visualisation de données


+
BIG DATA

 Les big data (données volumineuses) désignent des ensembles de


données qui deviennent tellement volumineux qu'ils en deviennent
difficiles à travailler avec des outils classiques de gestion de base
de données ou de gestion de l'information
 90% des données dans le monde ont été créées au cours des
deux dernières années seulement (selon IBM)
 L’explosion quantitative (et souvent redondante) de la donnée
numérique contraint à de nouvelles manières de voir et analyser le
monde

# M2 SIGAT/ Visualisation de données


+
BIG DATA

 Un monde de données
 La quantité de données exploitables atteint aujourd’hui un volume
inédit, qui continue de croître de jour en jour.

# M2 SIGAT/ Visualisation de données


+
BIG DATA

 Qui en parle ?

# M2 SIGAT/ Visualisation de données


+
BIG DATA

 De quoi parle t’on ?

# M2 SIGAT/ Visualisation de données


+
BIG DATA

 Convergence des bases de données (réseaux fermés) et


des contenus du Web (réseaux ouverts)

# M2 SIGAT/ Visualisation de données


+
BIG DATA

 Caractéristiques des Big Data


 Au-delà des aspects quantitatifs, ces données se présentent d'une
manière telle qu'elles sont difficilement prises en charge par les
opérateurs des SGBD traditionnels :
 elles ne sont pas nécessairement organisées sous forme de tables et
leurs structures peuvent varier ;
 elles sont produites en temps réel ;
 elles arrivent mondialement en flots continus ;
 elles sont souvent documenter (taguées) mais de façon disparate
(localisation, heure, mot-clef, etc.) ;
 elles proviennent de sources très hétérogènes (téléphone mobile,
capteurs, téléviseurs connectés, tablettes, PC fixes, PC portables,
objets, machines), de façon désordonnée et non prédictible.

# M2 SIGAT/ Visualisation de données


+
BIG DATA

 Les 5 V des Big Data


 Variété : diversité des données et des sources
 Volume : quantité exponentielle de données à analyser
 Vitesse : capacité à collecter et analyser le flux de données en
temps réel et en temps voulu
 Véracité : Fiabilité et qualité des données,
 Valeur : savoir tirer profit de la valeur de la donnée collectée.

# M2 SIGAT/ Visualisation de données


+
Volume

 Volume : les organisations sont submergées de volumes


de données croissants de tous types
 Les ordres de grandeurs sont énormes !!!
 Toujours plus exponentiel
 250 milliards de mails par jour (70% de spam)
 40 000 recherches sont analysée sur Google
chaque seconde, soit plus de 3,5 milliards par
jour ! (Source : Google Search Statistics)
 100 heures de vidéo sont en moyenne
téléchargées sur YouTube chaque minute
(Source : YouTube)
 30 milliards d’objets connectés en 2010 (plus
que d’humains)

# M2 SIGAT/ Visualisation de données


+
BIG DATA
Depuis une
minute…

# M2 SIGAT/ Visualisation de données


+
Variété

 Des données très hétérogènes


 Médias sociaux (Facebook, tweeter, Instagram, Youtube,…)
 Données de téléphonie mobiles (SMS, GPS)
 Données géographiques (producteurs institutionnels, OSM,…)
 Documents (pdf, word, excel,…)
 Wikis, forums, pages Web,…
 Données transactionnelles (connexion,validation TC, badge,…)
 Photos (en millards, ex. FB 50 milliards), vidéos
 Open data (ouverture de données publiques)
 Capteurs (trafic, température, pollution,…)
 51% des données sont structurées, 27% sont non structurées
et 21% semi-structurée. (Source: Tata Consultancy Services)
# M2 SIGAT/ Visualisation de données
+
Vitesse

 La vitesse est une nouvelle composante fondamentale


dans l’analyse de données
 Des données statiques aux données en temps réel
 Parfois, 2 minutes c'est trop
 Pour les processus chronosensibles tels que la détection de fraudes, le
Big Data doit être utilisé au fil de l'eau, à mesure que les données sont
collectées par votre entreprise afin d'en tirer le maximum de valeur.
 Parfois 2 secondes c’est trop (trading haute fréquence)
 Scruter 5 millions d'événements commerciaux par jour afin d'identifier
les fraudes potentielles
 Analyser en temps réel 500 millions d’enregistrements détaillés d’appels
quotidiens

# M2 SIGAT/ Visualisation de données


+
Véracité

 La confiance dans la données : le point le plus important


 Des données très hétérogènes, pas toujours structurées
 Pas toujours de documentation, de traçabilité sur ces données
 La clef pour une bonne utilisation : la confiance dans les données
 1 décideur sur 3 ne fait pas confiance aux données sur lesquelles
il se base pour prendre ses décisions
 Comment peut-on se baser sur des informations si on a pas confiance
en elle?
 Etablir la confiance dans les Big Data représente un défi d'autant
plus important que la variété et le nombre de sources augmentent
 L’un des grands défis de demain

# M2 SIGAT/ Visualisation de données


+
Big data

Pour résumer :
 Des données exponentielles :
 Variées
 Volumineuses
 En temps réel
 De sources très hétérogènes
 Mais qui encore « indomptées »
 Encore que peu structurées

 Mais que faire avec ces données ?


 Une des pistes : la visualisation (exploration, fouille, analyse)

# M2 SIGAT/ Visualisation de données


+
BIG DATA

 3 discipline dans l’analyse des données

@Gaultier 2015
# M2 SIGAT/ Visualisation de données
+
Des données à la
visualisation

# M2 SIGAT/ Visualisation de données


+
Mise en contexte

 La question des données volumineuses à mettre en


corrélation avec celle de la visualisation
 Navigation dans des univers de données
 La question de la visualisation des données est depuis
quelques années en animation constante
 Elle se nourrit à la fois de l’augmentation des possibilités offertes
par les outils informatiques et graphiques et…
 …surtout de l’accroissement des sources et des flux de données
 Données « officiels »
 Données « grand public »
 Flux de données (objets connectés, capteurs, réseaux sociaux,…)

# M2 SIGAT/ Visualisation de données


+
L’ère de la visualisation

Validité des
données

Des données
bien
représentées

# M2 SIGAT/ Visualisation de données


+
DataViz

 La dataviz (Data Vizualisation) : désigne les techniques permettant


de présenter des données sous forme visuelle afin d’en faciliter la
compréhension et/ou l’analyse.

# M2 SIGAT/ Visualisation de données


+
DataViz

 L’idée : présenter des données complexes de façon


simple, juste et attractive
 Cette discipline se concentre sur la présentation des données, le
design des représentations
 Après avoir donné du sens aux données (par des traitements
statistiques), il faut un mode de représentation simple
 Pour véhiculer les bons messages ou donner les bons outils permettant
à tout à chacun de comprendre les données
 Les fonctionnalités à rechercher sont :
 Modes de représentations innovants
 Dynamisme, capacité à interagir sur
les informations présentées

# M2 SIGAT/ Visualisation de données


+
Dataviz

 Une Dataviz sert à rendre l’information lisible par tous


pour faciliter la compréhension
 Vise a accélérer le processus de compréhension des chiffres en
sollicitant les 2 hémisphères du cerveau, en s’adressant à la fois
au côté sensoriel et au côté rationnel
 Pour répondre à ces objectifs, la DataViz doit fournir une
information :
 Interprétable, c’est-à-dire claire, quelque soit le volume, la nature ou la
provenance des données
 Pertinente, c’est à dire qui réponde à un objectif métier dans un
contexte défini
 Novatrice, en fournissant une perspective différente qui permet de
découvrir de nouvelles opportunités

# M2 SIGAT/ Visualisation de données


+
DataViz

 Data Viz, ou l'art de transformer ses données en


information intelligible et attrayante

# M2 SIGAT/ Visualisation de données


+
Dataviz

 Pourquoi a-t-on besoin de DataViz ?


 La profusion de données oblige à passer un temps considérable
pour trouver les données pertinentes pour prendre une décision
 Ces données sont nombreuses, variées, souvent confuses
 Elles sont stockées sous forme de tableurs ou de BD
 La Dataviz permet de se concentrer sur l’essentiel, plus
rapidement “une image vaut mieux qu’un long discours”
 Notre cerveau a besoin de moins de 250 millisecondes pour saisir,
comprendre et répondre à une information sous forme visuelle
 Répondre aux problématiques de concentration
en consultation sur écrans : en moyenne, 10
secondes sur le même contenu et elle tend à
diminuer d’année en année

# M2 SIGAT/ Visualisation de données


+
Dataviz

 L’intérêt des dataviz


 La visualisation de données permet de manipuler de larges
volumes de données pour faire émerger des tendances, ou
répondre à des questions spécifiques
 Comparer plusieurs tableaux de données brutes exige un effort
d’abstraction et de mémoire qui n’est plus atteignable à partir d’un
certain volume de données
 Avec les instruments de Data Visualisation, on peut obtenir des
données déjà comparées, triées et mises en perspectives
 Les tableaux de bord = écran unique pour se concentrer sur l’essentiel
 Un outil d’exploration et de fouille des données
 On peut faire apparaître des informations perdues sous le flot de
données, qui ne peuvent se révéler qu’après avoir été visualisées

# M2 SIGAT/ Visualisation de données


+
Dataviz

# M2 SIGAT/ Visualisation de données


+
Dataviz

# M2 SIGAT/ Visualisation de données


+
Dataviz

# M2 SIGAT/ Visualisation de données


+
Dataviz

# M2 SIGAT/ Visualisation de données


+
Tableau de bord

# M2 SIGAT/ Visualisation de données


+
Tableau de bord

# M2 SIGAT/ Visualisation de données


+
Tableau de bord

# M2 SIGAT/ Visualisation de données


+
Data Viz « fixes »

 Data Viz « fixes »


 Des infographies figées, représentant les données ciblées
 Cette catégorie a l’avantage d’être complètement adaptée aux
contextes d’utilisations des réseaux sociaux à fort potentiel viral
que ce soit sur Facebook, Twitter, Google Plus, FlickR, etc.

# M2 SIGAT/ Visualisation de données


+
Data Viz « fixes »

# M2 SIGAT/ Visualisation de données


+
Data Viz « fixes »

# M2 SIGAT/ Visualisation de données


+
Data viz « animées »

 La scénarisation, le story-telling

# M2 SIGAT/ Visualisation de données


+
Data viz « animées »

 La scénarisation, le story-mapping

# M2 SIGAT/ Visualisation de données


+
Dataviz « interactives »

 Les dataviz « interactives »


 Elles offrent la possibilité à l’utilisateur de « jouer », voire de
construire sa propre visualisation
 Si l’objectif à remplir est une prise de décision, on utilisera plutôt
une dataviz dite « interactive » permettant d’afficher une quantité
importante d’informations en disposant d’une certaine granularité
de chiffres ou de nuances

# M2 SIGAT/ Visualisation de données


+
Dataviz « interactives »

# M2 SIGAT/ Visualisation de données


+
Dataviz « interactives »

# M2 SIGAT/ Visualisation de données


+
Dataviz « interactives »

# M2 SIGAT/ Visualisation de données


+
Dataviz « interactives »

# M2 SIGAT/ Visualisation de données


+
Dataviz « interactives »

# M2 SIGAT/ Visualisation de données


+
Dataviz « interactives »

# M2 SIGAT/ Visualisation de données


+
Nouvelles régions

 Cette visualisation permet d'imaginer le nouveau visage de la


France si le découpage avait été confié à un algorithme
 La proximité géographique et les mobilités professionnelles
interdépartementales quotidiennes sont prises en compte

# M2 SIGAT/ Visualisation de données


+
Nouvelles régions

# M2 SIGAT/ Visualisation de données


+
Nouvelles régions

# M2 SIGAT/ Visualisation de données


+
Nouvelles régions

# M2 SIGAT/ Visualisation de données


+
Les outils

 Les principaux outils de Data Viz

# M2 SIGAT/ Visualisation de données


+
Les outils

# M2 SIGAT/ Visualisation de données


+
Les clef pour un bonne Dataviz

 Le choix des sources de données


 Fiabilité de la source et date des données
 Sélectionner les données les plus intéressantes
 En fonction de la finalité visée par la dataviz
 La construction d’indicateurs pertinents
 Mobilisation de méthodes statistiques
 Un mode de visualisation adapté au message et aux données
 Plusieurs type de visualisation
 Des couleurs attrayantes
 Une bonne diffusion (présentation, rapport, site Web, blogue,
réseaux sociaux,…)

# M2 SIGAT/ Visualisation de données


+
Et demain ???

 Données personnelles + tableau de bord


 Des tableaux de bords centrés sur l’utilisateur
 Exemple de FITBIT (bracelets connectés)

# M2 SIGAT/ Visualisation de données


+
Au niveau de l’emploi

 Data scientist : une nouvelle profession en vogue


 Le data scientist est un responsable de la gestion et de l’analyse
de « données massives »
 Domaines multiples : finance, banque, assurance, marketing,…
 Une profession promise à un bel avenir
 Il n’y a encore très peu de formations dédiées au métier ou aux
fonctions de data scientist et de data analyst
 Télécom Paris Tech : Master Big Data
 HEC : Cursus Spécialisé « Big Data et Business Analytics »
 ENSAE : Spécialisation en Data Science
 Polytechnique, ESSEC,…

# M2 SIGAT/ Visualisation de données


+
Data scientist

# M2 SIGAT/ Visualisation de données


+
Data scientist

# M2 SIGAT/ Visualisation de données


+
Data scientist

# M2 SIGAT/ Visualisation de données


+
Et demain?

 Un nouveau métier : Geodata Scientist

# M2 SIGAT/ Visualisation de données


+
Manipulations

# M2 SIGAT/ Visualisation de données


+
Manipulations

Objectifs : nouvelles compétences dans la représentation de


données + outils en ligne pour faire des dataviz
 Toujours utile pour une présentation, un rapport,…

 infogr.am (data Viz) : https://infogr.am/

 RAW (data Viz) : http://raw.densitydesign.org/

 Wordle (nuages de mots) : http://www.wordle.net/

 easel.ly (infographie) : http://www.easel.ly/

 Pas de logiciels, seulement des services en ligne !

# M2 SIGAT/ Visualisation de données


+
Infogr.am

 Infgr.am permet de créer rapidement une infographie en


important ses propres données
 Le résultat est beaucoup plus esthétique et tendance que les
graphiques proposés par les tableurs classiques

# M2 SIGAT/ Visualisation de données


+
Infogr.am

 Créer des infographies dynamiques

# M2 SIGAT/ Visualisation de données


+
Infogr.am

 Créer des visualisation originales


 Collection riche de mode de représentation de données
 Personnalisation (couleur, thèmes, taille, disposition,…)

# M2 SIGAT/ Visualisation de données


+
Infogr.am

 Production d’une infographie sur Rennes 2


 Les données : chiffres clefs de l’Université Rennes 2
 http://www.univ-rennes2.fr/dgs/rennes-2-chiffres
 L’application : Infogr.am (service Web)
 https://infogr.am/
 L’objectif : produire des visualisations sympathiques !
Mettre sur le drive !
Mon exemple : https://infogr.am/dataviz_rennes_2

# M2 SIGAT/ Visualisation de données


+
Infogr.am

# M2 SIGAT/ Visualisation de données


+
RAW

 Service pour des visualisations originales


 RAW est une interface open-source de data visualisation
construite grâce à la librairie graphique D3.js
 http://raw.densitydesign.org/

# M2 SIGAT/ Visualisation de données


+
RAW

 Exemple: les données statistiques sur la culture à Rennes ou la


fréquentation des musées en Fance
http://www.data.rennes-metropole.fr/les-donnees/catalogue/
https://www.data.gouv.fr/fr/datasets/frequentation-des-musees-de-france-de-2003-a-2012/

1. Rentrer vos données dans le tableur intégré


2. Choisir un mode de visualisation adapté aux données

# M2 SIGAT/ Visualisation de données


+
RAW

3. Paramétrer votre visualisation

# M2 SIGAT/ Visualisation de données


+
RAW

 Bubble

# M2 SIGAT/ Visualisation de données


+
RAW

 Treemap

# M2 SIGAT/ Visualisation de données


+
RAW

 Diffuser votre Dataviz


 Télécharger en tant qu’image (mettre sur le drive)
 Incorporer la à votre site Web

# M2 SIGAT/ Visualisation de données


+
Wordle

 Créer des nuages de mots


http://www.wordle.net/

# M2 SIGAT/ Visualisation de données


+
Wordle

 Créer des nuages de mots


 Copier un texte puis générer un nuage de mots
 Personnaliser la police, les couleurs, la disposition des mots,…

# M2 SIGAT/ Visualisation de données


+
easelly

 Créer des infographies http://www.easel.ly/


 Easel.ly propose gratuitement une douzaine de thèmes assez
sommaires qui pourront ensuite servir de base à une infographie
plus personnalisée
 Après, il faut les éditer en ligne, en choisissant parmi de nombreux
objets graphiques (icônes, cartes, paysages, formes, etc.).
 Infographies en HTML5

# M2 SIGAT/ Visualisation de données


+
easelly

 Créer une infographie cartographique

# M2 SIGAT/ Visualisation de données


+
easelly

 Exporter un fond de carte en SVG


 Plugin SimpleSvg dans QGIS

# M2 SIGAT/ Visualisation de données


+
easelly

 Exemple sur Rennes


 Choisissez une variable à représenter
 Faire une carte avec des aplats de couleurs dans QGIS
 Mettre en forme votre infographie
 Partager votre dataviz sur le drive

# M2 SIGAT/ Visualisation de données


+

 Boris.mericskay@uhb.fr

#M2 SIGAT / Anamoprhoses 78

Vous aimerez peut-être aussi