Vous êtes sur la page 1sur 50

ICT101 : Business Information System

Chapitre 5 - Science des données - Business Intelligence

NZEKON NZEKO’O Armel Jacques, PhD

Université de Yaoundé I
armel.nzekon@facsciences-uy1.cm

Année académique 2021-2022


Objectifs du chapitre
A la fin de ce chapitre, chaque étudiant doit être capable de :
I Dire ce qu’est l’analyse des données et la business intelligence
I Citer les périodes historiques de l’analyse des données
I Donner les principales étapes de la démarche scientifique pour
l’analyse des données
I Énumérer les catégories des sources des données analysées
I Donner et justifier le choix de la représentation des données la plus
courante en analyse de données
I Lister des problèmes réels abordés par l’analyse des données
I Identifier des cas réels qui nécessitent l’analyse statistique des
données et donner l’impact des résultats attendus
I Définir business intelligence, donner les domaines d’application
I Décrire les composantes de l’architecture d’un système décisionnel

2/50
Plan du chapitre

1. Définition de la statistique
2. Un peu d’histoire sur l’analyse des données
3. Applications de l’analyse des données
4. Démarche scientifique face à un problème
5. Sources et organisation des données
6. Exemple simpliste du processus d’analyse des données
7. Business Intelligence (Informatique Décisionnel)
8. Orientations de la profession

3/50
Définition de la statistique

4/50
1. Définition de la statistique
Contexte contemporain

5/50
1. Définition de la statistique
La statistique est la discipline qui étudie des phénomènes à
travers la collecte de données, leur traitement, leur analyse,
l’interprétation des résultats et leur présentation afin de rendre ces
données compréhensibles par tous
Le mot statistique vient du latin status = « état ». Le terme
statisticum apparaît à la fin du XVII e siècle
Le terme évolue dans le temps et aujourd’hui c’est à la fois :
I Une branche des mathématiques appliquées
I Une grandeur calculée à partir des observations recueillies
(ex : moyenne d’âge des étudiants d’une filière, balance
commerciale d’un pays, etc..)
I Un ensemble de techniques permettant de décrire et
d’analyser des observations (ou données) qui découlent
généralement de la mesure d’une ou plusieurs caractéristiques
communes sur un ensemble d’individus ou d’objets équivalents
6/50
1. Définition de la statistique
Évolution de la statistique

I La statistique est présente dès la naissance des premières


structures sociales
I Les premiers textes écrits retrouvés sont des recensements du
bétail, des informations sur son cours et des contrats divers.
On a par exemple tracé des recensements en Égypte et en
Chine au 23e siècle av. J.-C
I Les statistiques prennent de l’ampleur pour le recueil des
données répondant aux besoins de gestion et de gouvernement
des grands empires (armée, impôts, organisation des richesses)
I Les statistiques sont aujourd’hui utilisées dans tous les
secteurs d’activité où l’on dispose des données : Industrie
(contrôle de qualité, fiabilité), Économie, Banque, Finance,
Assurance, Santé, Environnement, Marketing, ...

7/50
Un peu d’histoire sur l’analyse
des données

8/50
2. Un peu d’histoire sur l’analyse des données
Pourquoi l’analyse des données ?

Citation de Georges Morlat, dans les années 1960


« Les services rendus montrent bien que l’Analyse des Données
constitue aujourd’hui, et de loin, la partie la plus immédiatement
rentable de la statistique »

9/50
2. Un peu d’histoire sur l’analyse des données
Pourquoi l’analyse des données ?

I Lors de toute étude statistique, il est nécessaire de décrire et


explorer les données avant d’en tirer une quelconque loi ou
modèle prédictif
I Dans plusieurs situations, les données sont trop nombreuses
pour pouvoir avoir des visuels compréhensibles (nombre de
caractéristiques trop élevées)
I Il faut donc extraire l’information pertinente qu’elles
contiennent ; L’analyse des données répond à ce besoin
I L’analyse des données est réalisable lorsqu’il est possible de
réduire l’espace multidimensionnel où l’information n’est pas
lisible en un espace à peu de dimensions (2 ou 3) où
l’information est lisible, tout en conservant une part
importante de l’information qui était dans l’espace d’origine

10/50
2. Un peu d’histoire sur l’analyse des données
Définition

L’analyse des données est un ensemble de techniques de


statistiques descriptives qui permet de résumer, visualiser et
d’appréhender la structure de l’information pertinente contenue
dans un espace à plusieurs dimensions (tableaux de données où les
dimensions des lignes et des colonnes sont importantes)
L’analyse des données rassemble deux familles de techniques :
I Techniques d’analyses factorielles : aident à faire ressortir
les relations pouvant exister entre les différentes données et à
en tirer une information statistique qui permet de décrire les
principales informations contenues dans ces données [Ce cours]
I Techniques de classification automatique : permettent de
regrouper les données de façon à faire apparaître clairement ce
qui les rend homogènes, et ainsi mieux les connaître afin de
dresser des typologies, des regroupement de points (classes)
11/50
2. Un peu d’histoire sur l’analyse des données
Évolution de l’analyse des données

I L’analyse des données a connu un grand essor du fait de


l’expansion de l’informatique dans les années 1960-1970
I Durant ces années, les ordinateurs effectuent déjà des calculs
sur de grands volumes de données, d’où la rupture avec les
statistiques mathématiques classiques
I Bien que l’étude descriptive de grands ensembles de données
soit plus récente, les principes mathématiques dont les
techniques d’analyse de données s’inspirent sont plus anciens
I On a une évolution des techniques d’analyses factorielles et
une évolution des techniques de classification automatique

12/50
2. Un peu d’histoire sur l’analyse des données
Évolution de l’analyse des données - Cas des techniques d’analyses factorielles

En ce qui concerne l’analyse factorielle voici quelques dates clés :


I En 1904, Charles Spearman introduit le concept de facteur ; il
cherche une variable explicative cachée derrière les notes
obtenues par de nombreux sujets à de nombreux tests
I Dans les années 1930, le problème de la recherche de plusieurs
facteurs est posé par Cyril Burt et Louis Leon Thurstone ; on
cherche deux puis plusieurs facteurs pour d’écrire l’aptitude
I En 1933, Harold Hotelling développe l’analyse factorielle en
composantes principales où les individus colonnes du tableau
sont considérés comme des vecteurs à plusieurs dimensions
I En 1962, l’analyse factorielle des correspondances est
introduite par Jean-Paul Benzécri ; fournit, sans hypothèses a
priori des représentations simplifiées à l’interprétation

13/50
2. Un peu d’histoire sur l’analyse des données
Évolution de l’analyse des données - Cas des techniques de classification automatique

En ce qui concerne la classification automatique on fait les


constats suivants :
I La multiplicité des techniques existantes et l’effervescence qui
règne autour de ce domaine (plus de mille articles par an)
rendent difficile de faire l’historique de ces méthodes
I Les précurseurs des techniques de classification automatique
sont : Buffon (1749), Adanson (1757) et Linné (1758)
I Exemple de citation de Adanson - "Je me contenterai de
rapprocher les objets, suivant le plus grand nombre de degrés
de leurs rapports et de leurs ressemblances ... Les objets ainsi
réunis formeront plusieurs petites familles que je réunirai
encore ensemble afin d’en faire un tout dont les parties soient
unies et liées intimement".

14/50
Applications de l’analyse des
données

15/50
3. Applications de l’analyse des données

I L’analyse statistique des données est importante dans tous les


domaines où de grands volumes de données sont disponibles
I Cette discipline joue un grand rôle dans presque tous les
domaines de la science, des affaires, de la santé, de l’économie
et de l’industrie
I Les personnes employées dans ces domaines doivent connaître
les concepts de base, les forces et les limites des statistiques
afin de produire des rapports fiables ou d’être capable
d’apprécier efficacement des rapports statistiques

16/50
3. Applications de l’analyse des données

L’analyse statistique des données est essentielle dans toutes les


sciences qui utilisent des observations de phénomènes naturels, par
le biais d’enquêtes par sondage ou d’expérimentations, pour
développer et tester de nouvelles théories
Quelques domaines d’application de l’analyse des données
I Sciences humaines pour cerner les résultats des enquêtes
d’opinion (l’attitude de la population envers la corruption, les
réactions des populations face aux arguments moraux sur le
tabac ou la chicha, les opinions des électeurs, ...)
I Sciences sociales pour comprendre la vie et le développement
de certaines populations (dépouillement des enquêtes)
I Linguistes, ex : ranger des individus dans l’échiquier politique
en fonction de la fréquence des mots utilisés

17/50
3. Applications de l’analyse des données

I Biologie, permet une meilleure représentation des fonctions


biologiques, aide à la compréhension de systèmes biologiques
complexes (déchiffrer les caractéristiques des génomes, ...)
I Physique, ex : analyse des résultats des expérimentations en
physique des particules pour expliquer le comportement et
l’évolution de systèmes physiques comportant un grand
nombre de particules (atomes, ions, électrons, photons, ...)
I Environnement, ex : enquêtes sur les niveaux de radioactivité
dans une zone suspecte (Des points de la zone sont choisis au
hasard et le niveau de radioactivité est mesuré à chaque point)
I Agronomie, ex : l’étude des traces de métaux dans le blé en
fonction des sols cultivés

18/50
3. Applications de l’analyse des données

I Santé, ex : en épidémiologie pour décrire les tranches d’âges


en fonction de leurs causes de mortalité
I Industrie, ex : pour surveiller la qualité des produits
I Finance, ex : l’échantillonnage des comptes aide à contrôler
la comptabilité et la gestion des entreprises
I Microfinance, ex : pour évaluer les risques et définir les
populations emprunteuses (critères de ceux qui remboursent
leurs prêts)
I Assurance, pour la connaissance des risques et la tarification
à priori (assurance vie - espérance de vie, assurance auto -
statistiques sur les accidents, ...)

19/50
20/50
Démarche scientifique face à
un problème

21/50
4. Démarche scientifique face à un problème
Étapes à suivre

1. Formuler le problème et établir des hypothèses


2. Choisir les données nécessaires pour vérifier les hypothèses
3. Collecter, regrouper et prétraiter les données concernées
4. Appliquer des techniques de statistique, produire des
graphiques et des grandeurs statistiques
5. Interpréter les résultats et produire des recommandations pour
aider les décideurs

Note : Dans certains contextes, la recherche débute au point 3. ;


On a des données et on procède à l’extraction des connaissances
utiles afin d’aider les décideurs

22/50
4. Démarche scientifique face à un problème
Résumé en image

23/50
Les sources de données

24/50
5. Sources et organisation des données
Sources de données

Les sources de données sont divers et peuvent être regroupées dans


les principales catégories suivantes :
I Données écrites (tout ce qui est manuscrit)
I Données saisies (saisie sur ordinateur, tablette ou téléphone)
I Données générées automatiquement (par des processus
informatisés)

L’accessibilité aux données se fait généralement de deux manières :


I Données centralisées (dans une base de données)
I Données distribuées (dans plusieurs unités de stockage,
nécessitent un mécanisme de regroupement avant analyse)

25/50
5. Sources et organisation des données
Organisation des données pour l’analyse
I Les méthodes d’analyse de données supposent souvent une
organisation particulière des données

Le choix d’un tableau permet une


organisation dans le plan de toutes les
données et ainsi de traiter simultanément
toute l’information

I Les observations ou individus sont représentés en ligne et sont


chacun décrits par des variables ou attribut
I Cette notation est conservée dans la suite du cours, xik est donc la
valeur de la variable k pour l’individu i
I Cette représentation des données peut être facile à lire lorsqu’il y a
peu de données. Cependant, dès lors que la taille du tableau est
grande, ou que nous recherchons des relations entre plus de deux
individus ou plus de deux variables, cette représentation et les
techniques simples de la statistique descriptive ne suffisent plus 26/50
Exemple simpliste du processus
d’analyse des données

27/50
6. Exemple simpliste du processus d’analyse des données
Cas d’une entreprise de commerce

1. Problème - une entreprise de commerce veut augmenter ses


bénéfices
2. Données disponibles - historique des achats de chaque client
et des ventes de chaque produit, des achats effectués chez les
fournisseurs
3. Choix des critères à étudier - on peut par exemple
observer :
Le nombre d’achats, la somme des factures et le bénéfice
généré par chaque client
Le poids de chaque produit dans le chiffre d’affaire, et dans les
bénéfices
Les corrélations entre les produits et les corrélations entre les
clients

28/50
6. Exemple simpliste du processus d’analyse des données
Cas d’une entreprise de commerce

4. Résultats et observations
I Plus de 70% des clients ou des produits on quasiment le
même poids X sur le chiffre d’affaire ou sur le bénéfice
I Moins de 10% des clients ou des produits constituent plus de
70% du chiffre d’affaire ou des bénéfices
I Identifier des couples ou ensemble de produits très souvent
achetés ensemble
I Identifier des couples ou des ensembles de clients aux
comportements d’achat similaires

29/50
6. Exemple simpliste du processus d’analyse des données
Cas d’une entreprise de commerce

5. Recommandations et décisions
I Créer des formules de valeur supérieure à X avec quelques
avantages et les recommander à tous les clients
I Si tous les produits apportent X, on peut intensifier la promo
des produits les plus faciles à acquérir (on diminue l’effort
pour augmenter les bénéfices)
I Créer des formules spéciales pour les 10% des clients ou
augmenter les stocks et les promos des 10% des produits qui
génèrent plus de 70% des bénéfices (tout centrer sur eux)
I Produits achetés ensemble - créer des bouquets pour faciliter
la vente ; les rapprocher dans des entrepôts de stockage ; les
éloigner en rayon pour promouvoir d’autres produits
I Clients aux comportements similaires - lorsque l’un achète un
produit, on le recommande aux autres
30/50
6. Exemple simpliste du processus d’analyse des données
Devoir individuel

Pour la semaine prochaine, chaque étudiant doit fournir :


1. Description d’un problème qui nécessite l’analyse des données
2. Description des données disponibles et leur accessibilité
3. Donner les critères à étudier, la signification des grandeurs
statistiques (l’idée à extraire de ces grandeurs ou des
graphiques à produire)
4. Donner des exemples d’observations ou résultats attendus
5. Donner les décisions qui peuvent être prises à la fin du travail

31/50
Business Intelligence
(Informatique Décisionnel)

32/50
7. Business Intelligence (Informatique Décisionnel)
Pourquoi la Business Intelligence ?

Les systèmes décisionnels ont été développés pour fournir une flexibilité
et une possibilité d’analyse importante des données de l’entreprise.
Ce sont des systèmes de base de données séparés des systèmes
transactionnels basés sur les donnés opérationnelles.
Ils couvrent un horizon temporel plus grand, contiennent des données plus
uniformisés et sont optimisés pour répondre à des questions complexes.
Étudier ces systèmes décisionnels s’avère être une vaste tâche pour
plusieurs raisons interdépendantes
Par exemple, le nombre croissant de décisions que peuvent supporter ces
systèmes, les perpétuelles évolutions de la technologie ou encore
l’émergence de nouvelles pratiques de management.

33/50
7. Business Intelligence (Informatique Décisionnel)
Pourquoi la Business Intelligence ?

La business intelligence couvre l’ensemble des technologies permettant en


bout de chaîne d’apporter une aide à la décision.
De fil en aiguille, le mot "décisionnel" correspond simplement à la
traduction française du terme "business intelligence".
Un système décisionnel a pour but la transformation des données de
l’entreprise en informations pour la compréhension du marché et l’analyse
des informations afin de prendre des décisions.
Ce type de systèmes apporte un avantage concurrentiel pour les
entreprises en leur permettant de :
I Développer des stratégies pour fidéliser le client
I Faire des études de marché, des analyses et cibler les promotions
I Évaluer les risques et détecter des fraudes

34/50
7. Business Intelligence (Informatique Décisionnel)
Définition

La Business Intelligence se définit comme l’ensemble des


technologies permettant de traiter, valoriser et présenter les
données à des fins de compréhension, d’analyse et de décision
I Visibilité sur une activité
I Compréhension d’un comportement client
I Détection de faiblesses
I Prise de décisions stratégiques ou tactiques,
I Réactivité face à un événement

35/50
7. Business Intelligence (Informatique Décisionnel)
Domaines d’application de l’informatique décisionnelle
Toutes les activités de l’entreprise sont concernées par les systèmes
décisionnels et en sont des utilisateurs potentiels :
I Le contrôle de gestion pour l’analyse des coûts, l’analyse de la
rentabilité, l’élaboration budgétaire, les indicateurs de performance
I La direction marketing pour le ciblage, le pilotage de gamme, les
applications de Géomarketing, de fidélisation clients, etc.
I La direction commerciale pour la gestion des clients, le pilotage des
réseaux (directs ou indirects), les prévisions des ventes,
l’optimisation des territoires, etc.
I Les ressources humaines pour la gestion des carrières, la gestion
collective, etc.
I La direction de la production pour l’analyse qualité, la prévision des
stocks, la gestion des flux, la fiabilité industrielle, etc.
I La direction générale pour les tableaux de bord, indicateurs de
pilotage, gestion d’alertes, etc.
36/50
7. Business Intelligence (Informatique Décisionnel)
Architecture d’un système décisionnel

L’architecture d’entrepôt de données possède les caractéristiques


suivantes :
I Les données sources sont extraites de systèmes, de bases de
données et de fichiers.
I Les données sources sont nettoyées, transformées et intégrées
avant d’être stockées dans l’entrepôt.
I L’entrepôt est en lecture seulement et est défini
spécifiquement pour la prise de décision organisationnelle.
I Les usagers accèdent à l’entrepôt à partir d’interfaces et
d’applications (clients).

37/50
7. Business Intelligence (Informatique Décisionnel)
Architecture d’un système décisionnel
Le système décisionnel regroupe quatre grands éléments ou
activités comme le montre la figure ci-dessous.

38/50
7. Business Intelligence (Informatique Décisionnel)
Architecture d’un système décisionnel

Outils d’alimentation ETL


Les outils ETL (Extraction, Transformation and Loading) utilisés
pour la constitution des entrepôts de données et leur alimentation
régulière en informations récentes, servent à :
I Extraire les informations des différentes bases de production
de l’entreprise
I Donner une présentation homogène et fiable pour l’analyse
(nettoyage, alignement, suppression des doublons, etc.)
I Les charger dans l’entrepôt de données

39/50
7. Business Intelligence (Informatique Décisionnel)
Architecture d’un système décisionnel

Entrepôt de données (Data Warehouse)


Un entrepôt de données, ou data Warehouse, est une vision centralisée et
universelle de toutes les informations de l’entreprise.
C’est une structure (comme une base de données) qui à pour but,
contrairement aux bases de données, de regrouper les données de
l’entreprise pour des fins analytiques et pour aider à la décision
stratégique.
La décision stratégique est une action entreprise par les décideurs de
l’entreprise et qui vise à améliorer, quantitativement ou qualitativement,
la performance de l’entreprise.
C’est un gigantesque tas d’informations épurées, organisées, historiées et
provenant de plusieurs sources de données, servant aux analyses et à
l’aide à la décision.
L’entrepôt de données est l’élément central de l’informatique
décisionnelle.
40/50
7. Business Intelligence (Informatique Décisionnel)
Architecture d’un système décisionnel

Datamart
Le datamart est une base de données moins coûteuse que le
dataWarehouse et plus légère puisque destinée à quelques
utilisateurs d’un département.
Il séduit plus que le data Warehouse les candidats au décisionnel
puisque il minimise la complexité informatique et facilite leur
concentrations sur leurs besoins.
Il a la même vocation que le data Warehouse (fournir une
architecture décisionnelle), mais vise une problématique précise
avec un nombre d’utilisateurs plus restreint.

41/50
7. Business Intelligence (Informatique Décisionnel)
Architecture d’un système décisionnel

Outils d’analyse et de restitution


Pour chaque question stratégique, l’outil d’analyse recueille la
requête et produit les indicateurs voulus.
Egalement appelée reporting, cette étape se charge de diffuser et
de présenter les informations de la façon la plus opérationnelle
possible pour les différentes populations d’utilisateurs.

42/50
7. Business Intelligence (Informatique Décisionnel)
Architecture d’un système décisionnel

Outils d’analyse et de restitution


Il existe trois types de besoins en restitution :
I La diffusion d’information en masse : il s’agit d’informations pré
structurées sous la forme de tableaux de bord ou d’états prédéfinis.
Nous parlons de reporting d’entreprise.
I L’analyse : l’utilisateur travaille dans un cadre fonctionnel délimité à
partir d’indicateurs recherche de facteurs susceptibles d’améliorer les
résultats, simulation, mesure de l’impact de décisions, etc. Nous
parlons d’analyse ad hoc.
I L’accès aux données en libre-service. L’utilisateur sélectionne les
données en fonction de ses objectifs du moment. Dans le cas de
certains besoins d’analyse, nous utilisons des outils offrant des
fonctions statistiques, ou outils de datamining.

43/50
Orientations de la profession

44/50
8. Orientations de la profession

45/50
8. Orientations de la profession

Atouts des métiers des sciences des données :


I Data scientist, le métier le plus sexy du 21e siècle [Havard
Business Review en 2012] (épanouissement)
I Possibilité de travailler dans quasiment tous les domaines
I Les data scientists sont rares et les opportunités d’emploi sont
de plus en plus nombreuses
I Postes de cadre et salaires importants, ex : une moyenne de
100K USD/an aux USA, 45K EURO/an débutant en France

46/50
8. Orientations de la profession

Quelques contraintes d’accès à la profession :


I Avoir au moins un Master en mathématique/informatique ;
analyse des données ou mathématiques appliquées
I Une maitrise des technologies ; Environnement R, Python,
Hadoop, SQL ...
I Comprendre le monde de l’entreprise et l’industrie à laquelle
on est affilié (comprendre les problèmes à résoudre et les
nouvelles possibilités que les données peuvent offrir)

47/50
8. Orientations de la profession

48/50
8. Orientations de la profession

49/50
Merci de votre attention
Question ? !

50/50

Vous aimerez peut-être aussi