Vous êtes sur la page 1sur 53

Business Intelligence and Data Analytics

Chapiter : 3

Analyse descriptive I : Nature des


données,Modélisation statistique, et visualization

Dr. Nadia BALI


Les diapositives de cette
présentation contiennent des
hyperliens. Les utilisateurs de
JAWS devraient pouvoir obtenir
une liste de liens en utilisant
INSERT+F7
Objectifs (1 sur 2)

2.1 Comprendre la nature des données en ce qui concerne


Business Intelligence et analytique
2.2 Découvrir les méthodes utilisées pour préparer
l'analyse de données dans le monde réel
2.3 Décrire la modélisation statistique et sa relation avec
l'analyse commerciale (Business analytics)
2.4 En savoir plus sur les statistiques descriptives et
inférentielles
2.5 Définir le reporting métier, et comprendre son évolution
historique
Objectifs (2 sur 2)

2.6 Comprendre l'importance de la visualisation des


données/informations
2.7 Apprendre différents types de techniques de
visualisation
2.8 Apprécier la valeur que l'analyse visuelle apporte au
“business analytics”
2.9 Connaître les capacités et les limites des tableaux de
bord
La nature des données(1 sur 2)

• Données : une collection de faits


– généralement obtenu à la suite d'expériences,
observations ou expériences
• Les données peuvent être constituées de nombres, mots,
images, …
• Les données sont le niveau d'abstraction le plus bas (à partir
duquel les informations et les connaissances sont dérivées)
• Les données sont la source d'informations et de
connaissances
• Qualité et intégrité des données → critiques pour l'analyse
La nature des données (2 sur 2)
Métriques pour les données prêtes pour
l'analyse
• Fiabilité des sources de données
• Exactitude du contenu des données
• Accessibilité de Données
• Sécurité des données et confidentialité des données
• Richesse des données
• La cohérence des données
• Actualité des données
• Granularité des données
• Validité et pertinence des données
Une taxonomie simple de Données (1 sur 2)
• Données (données - forme singulière de données) : faits
• Données structurées
– Ciblé pour que les ordinateurs les traitent
– Numérique versus nominal
• Données non structurées/textuelles
– Ciblée pour être traitée/compris par l’humain
• Des données semi-structurées ?
– XML,HJML, Fichiers journaux, etc.
• Taxonomie des données…
Une taxonomie simple de Données (2 sur 2)
Prétraitement(1 sur 2)

• Les données du monde réel sont sales, mal alignées,


trop complexes et inexacte
– Pas prêt pour l'analyse !
• Il est nécessaire de préparer les données pour l'analyse
– Prétraitement de Données
▪ Consolidation des données
▪ Nettoyage des données
▪ Transformation des données
▪ Réduction de donnée
• Art - il se développe et s'améliore avec l’expérience
Prétraitement (2 sur 2)

• Réduction de donnees
1.variables
– Réduction dimensionnelle
– Sélection de variables
2.Cas/échantillons
– Échantillonnage
– Équilibrage / stratification
Tâches et méthodes de prétraitement des
données(1 sur 3)
Tableau 2.1 Un résumé des tâches de prétraitement des données
et des méthodes potentielles
Tâche Sous-tâches Méthodes populaires
principale
Consolidation Accéder et collecter les SQL requêtes, agents logiciels, services Web.
des données données Expertise du domaine, SQL requêtes, tests statistiques.
Sélectionner et filtrer les SQRequêtes L, expertise du domaine, mappage de
données données basé sur l'ontologie.
Intégrer et unifier les
données
Nettoyage des Gérer les valeurs Remplir les valeurs manquantes (imputations) avec les
données manquantes dans valeurs les plus appropriées (moyenne, médiane,
les données min/max, mode, etc.) ; recoder les valeurs manquantes
avec une constante telle que "ML" ; supprimer
l'enregistrement de la valeur manquante ; ne rien faire.
Nettoyage des Identifier et réduire le bruit Identifier les valeurs aberrantes dans les données avec
données dans des techniques statistiques simples (telles que les
les données moyennes et les écarts-types) ou avec une analyse par
grappes ; une fois identifiées, supprimez les valeurs
aberrantes ou lissez-les en utilisant le regroupement, la
régression ou des moyennes simples.
Tâches et méthodes de prétraitement des
données(2 sur 3)
Tâche Sous-tâches Méthodes populaires
principale
Nettoyage des Trouver et Identifier les valeurs erronées dans les données
données éliminer (autres que les valeurs aberrantes), telles que les
données erronées valeurs impaires, les étiquettes de classe
incohérentes, les distributions impaires ; une fois
identifié, utilisez l'expertise du domaine pour corriger
les valeurs ou supprimer les enregistrements
contenant les valeurs erronées.
Transformatio Normaliser les Réduire la plage de valeurs de chaque variable à
n des données données valeur numérique à une plage standard (par
exemple, 0 à 1 ou -1 à +1) en utilisant une variété de
techniques de normalisation ou de mise à l'échelle.

Transformatio Discrétiser ou Si nécessaire, convertissez les variables numériques


n des données agréger les en représentations discrètes à l'aide de la plage ou
Les données techniques de regroupement basées sur la
fréquence ; pour les variables catégorielles, réduisez
le nombre de valeurs en appliquant des hiérarchies
de concepts appropriées.
Tâches et méthodes de prétraitement des
données(3sur 3)
Tâche Sous-tâches Méthodes populaires
principale
Transformatio Construire de Dérivez de nouvelles variables plus informatives à
n des données nouveaux partir des variables existantes à l'aide d'un large
attributs éventail de fonctions mathématiques (aussi simples
que l'addition et la multiplication ou aussi complexes
qu'une combinaison hybride de transformations
logarithmiques).
Réduction de Réduire le Analyse en composantes principales, analyse en
donnée nombre d'attributs composantes indépendantes, test du chi carré,
analyse de corrélation et induction d'arbre de
décision.
Réduction de Réduire le Échantillonnage aléatoire, échantillonnage stratifié,
donnée nombre échantillonnage ciblé axé sur les connaissances
d'enregistrements des experts.
Réduction de Équilibrer les Suréchantillonner les classes les moins
donnée données représentées ou sous-échantillonner les classes les
asymétriques plus représentées.
Modélisation statistique pour
analyse commerciale (1 sur 2)
Modélisation statistique pour
analyse commerciale (2 sur 2)
• Statistiques
– Un ensemble de techniques mathématiques pour
caractériser et interpréter les données
• Statistiques descriptives
– Décrire les données (telles qu'elles sont)
• Statistiques déductives
– Tirer des conclusions sur la population à partir
d'échantillons de données
• Statistiques descriptives pour l'analyse descriptive
Mesures statistiques Descriptif à tendance de
centralité

• Moyenne arithmétique

x1 + x2 +    + xn 
n
x
x = x = i =1 i
n n
• Médiane
– Le numéro au milieu
• Mode
– L'observation la plus fréquente
Mesures statistiques Descriptif de Dispersion(1 sur 2)
• Dispersion
– Degré de variation d'une
variable donnée
• Etendue
– Maximum - minimum
Ecart type
• Variance
i = 1 i
n
− 2
 ( x x)
n
( xi − x) 2

s =
2 i =1 s =
n −1 n −1
• l'écart absolu moyen est la moyenne de la valeur
absolue des écarts à la moyenne. Autrement dit, c'est
la distance moyenne à la moyenne.
Statistiques descriptives Mesures de
dispersion(2sur2)

• quartiles
• Diagramme en boîtes et
moustaches
– alias box-plot
– Polyvalent /informatif
Forme des statistiques Descriptif d’une répartition

• Histogramme– tableau des fréquences (bar chart)


• Asymétrie
– Mesure de l'asymétrie

i =1 i
n
( x − x ) 3

Skewness = S =
(n − 1) s 3
• Paramètre d’aplatissement
– Nature pic/haute/maigre de la distribution

i =1 i
n
( x − x ) 4

Kurtosis = K = 4
− 3
ns
Relation entre la dispersion et les propriétés de
forme
Aperçu de la technologie 2.1(1 sur 2)
Statistiques descriptives dans Excel
Aperçu de la technologie 2.1(2 sur 2)
Statistiques descriptives dans Excel Création d'une boîte à moustaches dans Microsoft Excel
Modélisation de régression pour les statistiques
inférentielles

• Régression
– Une partie de l'inference statistiques
– La technique d'analyse la plus connue et la plus
utilisée en statistique
– Utilisé pour caractériser la relation entre la variable
explicative (entrée) et la variable de réponse (sortie)
• Ça peut être utilisé pour
– Test d'hypothèse (explication)
– Prévision (prédiction)
La modélisation de régression (1 sur 3)
• Corrélation versus Régression
– Quelle est la différence (ou la relation) ?
• Régression simple versus régression multiple
– Basé sur le nombre de variables d'entrée
• Comment développer des modèles de régression linéaire ?
– Nuages ​de points (visualisation—pour une régression
simple)
– Méthode des moindres carrés ordinaires
▪ Une ligne qui minimise au carré les erreurs
La modélisation de Régression (2 sur 3)
La modélisation de Régression (3 sur 3)

• X: contribution,y:sortir
• Régression linéaire simple
y =  0 + 1 x
• Régression linéaire multiple

y =  0 + 1 x1 +  2 x2 + 3 x3 +    +  n xn
• La signification de Bêta (  ) coefficients
– Signe (+ ou -) et grandeur
Processus de développement d'un modèle de
régression

Comment savoir si le modèle est assez bon?

– R 2 (R Carré)
– p Valeurs
– Mesures d'erreur (pour
les problèmes de
prédiction)
▪ MSE,MAD,RMSE
Hypothèses de modélisation de régression

• Linéarité
• Indépendance
• Normalité (distribution normale)
• Écart constant
• Multicolinéarité
• Que se passe-t-il si les hypotheses ne tiennent pas?
– Que doit on faire ?
Régression logistique(1 sur 2)

• Un algorithme de classification basé sur des statistiques


très populaire
• Utilise l'apprentissage supervisé
• Développé dans les années 1940
• La différence entre la régression linéaire et la Régression
logistique
– Dans la variable de sortie/cible de régression
logistique est une variable binomiale (classification
binaire) (par opposition à une variable numérique)
Régression logistique : La modélisation (2
sur2)

1
f ( y) =
1 + e − ( 0 + 1x )
Prévision de séries chronologiques
• Est-ce différent de la régression linéaire simple ? Comment?
Business Rapports : Définitions et notions

• Reportage=Information→Décision
• Reportage?
– Tout artefact de communication préparé pour
transmettre des informations spécifiques
• Un rapport peut remplir de nombreuses fonctions
– Assurer le bon fonctionnement du service
– Pour fournir des informations
– Fournir les résultats d'une analyse
– Pour persuader les autres d'agir
– Créer une mémoire organisationnelle…
Qu'est-ce qu'un rapport d'activité ?
• Un document écrit qui contient des informations
concernant des affaires commerciales.
• But: pour améliorer les décisions managériales
• La source: données de l'intérieur et de l'extérieur de
l'organisation (via l'utilisation de ETL)
• Format: texte + tableaux + graphiques/chart
• Distribution:imprimé, e-mail,portail/intranet
L'acquisition des données→Génération
d'informations→La prise de décision→La gestion des
processus
Rapports d'entreprise
Types de Business rapports
• Métriques des rapports de gestion : Aider à gérer les
performances de l'entreprise grâce à des mesures (SLA
pour les externes ;KPI pour les internes)
– Peut être utilisé dans le cadre des Six Sigma et/ou T
QM
Rapports de type tableau de bord
– Présentation graphique de plusieurs indicateurs de
performance sur une seule page à l'aide
cadrans/jauges
• Rapports de type tableau de bord prospectif
– Inclure des indicateurs financiers, clients, processus
métier, apprentissage et croissance
Visualisation de données
"L'utilisation de représentations visuelles pour explorer,
donner un sens et communiquer des données."
• Visualisation des données vs visualisation des
informations
• Information = agrégation, synthèse et contextualisation
des données
• Relatif aux graphiques d'information, à la visualisation
scientifique et aux graphiques statistiques
• Comprend souvent des tableaux, des graphiques, des
illustrations, …
Une brève histoire de la visualisation de
données

• La visualisation des données peut remonter au deuxième


siècle.
• La plupart des développements se sont produits au cours
des deux derniers siècles et demi
• Jusqu'à récemment, il n'était pas reconnu comme une
discipline
• Les formes visuelles les plus populaires d'aujourd'hui
remontent à quelques siècles
La première tarteGraphique créépar William
Playfair en 1801

William Playfair est largement reconnu comme l'inventeur du graphique


moderne, ayant créé la première ligne et les graphiques circulaires.
Décimation de l'armée de Napoléon pendant la
campagne de Russie de 1812

De Charles-Joseph Minard
• Sans doute le graphique multidimensionnel le plus populaire
Quel tableau ou graphique devriez-vous
utiliser ?
Un exemple Gapminder Graphique Richesse et
Santé des Nations
L'émergence de la visualisation des données et
du visuelAnalytique (1 sur 2)

• Magic Quadrant pour les


plates-formes de Business
Intelligence et d'analyse
(Source :Gartner.com)
• De nombreuses
entreprises de
visualisation de données
se situent dans le 4ème
quadrant
• Il y a un mouvement vers
la visualisation
L'émergence de la visualisation des données et
du visuelAnalytique (2 sur 2)

• Apparition de nouveaux entreprises


– Tableau, Spotfire, QlikView,…
• Concentration accrue des grands joueurs
– MicroStrategy a amélioré Visual Insight
– SAP a lancé l'intelligence visuelle
– SAS a lancé Visual Analytics
– Microsoft a renforcé PowerPivot avec Power View
– IBM a lancé Cognos Insight
– Oracle a acquis Endeca
Analytique visuelle
• Terme inventé récemment
– Visualisation des informations + analyse prédictive
• Visualisation des informations
– Descriptif, centré vers l'arrière
– "ce qui s'est passé" "ce qui se passe"
• Analyses prédictives
– Prédictif, tourné vers l'avenir
– "que va-t-il arriver" "pourquoi cela va-t-il arriver"
• Il y a un fort mouvement vers analyse visuelle
Analyse visuelle par SAS institut A (1 sur 2)

• SAS Architecture d'analyse visuelle


– Big data + En mémoire + Traitement massivement parallèle+ ..
Analytique visuelle par SAS institut (2de 2)
• À teradatauniversitynetwork.com, vous pouvez en savoir
plus sur SAS VA, testez l'outil
Aperçu de la technologie2.3
Raconter de belles histoires avec les données et la visualisation
PerformanceTableaux de bord (1 sur 4)

• Les tableaux de bord de performance sont couramment


utilisés dansBPMsuites logicielles etBjeplates-formes
• Les tableaux de bord fournissent des affichages visuels
d'informations importantes qui sont consolidées et
organisées sur un seul écran afin que les informations
puissent être digérées d'un seul coup d'œil et facilement
explorées et explorées plus avant
PerformanceTableaux de bord (2 sur 4)
PerformanceTableaux de bord (3sur 4)

• Tableau de bord : conception


–Le défi fondamental de la conception de tableau de
bord est d'afficher toutes les informations requises sur
un seul écran, clairement et sans distraction, d'une
manière qui peut être assimilée rapidement
• Trois couches d'informations
–Surveillance
–Analyse
–La gestion
PerformanceTableaux de bord (4sur 4)
• Que rechercher dans untableau de bord
– Utilisation de composants visuels pour mettre en évidence les
données et les exceptions nécessitant une action
– Transparents pour l'utilisateur, ce qui signifie qu'ils nécessitent
une formation minimale et qu'ils sont extrêmement faciles
àutiliser
– Combinez les données de divers systèmes en une vue unique,
résumée et unifiée de l'entreprise
– Activer l'exploration en aval ou en amont vers les sources de
données sous-jacentes ourapports
– Présentez une vue dynamique et réelle avec des données
actualisées
– Nécessite peu de codage pour la mise en œuvre, le déploiement
et la maintenance
Meilleures pratiques en matière de conception
de tableaux de bord
• RéférenceKPjesavec les normes de l'industrie
• Enveloppez les métriques avec des métadonnées
contextuelles
• Valider la conception par un spécialiste de l'utilisabilité
• Prioriser et classer les alertes etDes exceptions
• Enrichir le tableau de bord avec les commentaires des
utilisateurs métier
• Présenter des informations à trois niveaux différents
• Choisissez les bonnes constructions visuelles
• Fournir des analyses guidées
Bibliographie : la présentation
est réalisé a partir du livre :
Business Intelligence,
Analytics, And DATA
SCIENCE, chapter2.

Vous aimerez peut-être aussi