Académique Documents
Professionnel Documents
Culture Documents
Concevez des architectures Big Data, Oracle Database 19c Overview for Transformation Digitale
Administrateur BD, BI, Créez un Data Lake, Maîtrisez les Sales, Oracle Big Data and Data des entreprises
Big Data, Data Scientist bases de données NoSQL Science Overview
& Avant-Vente
Dans quel univers serions nous plongez?
BIG DATA :
Données massives (Volume, Variété, Vélocité, Véracité et Valeur) ou 5 V;
Plateforme de données de tout type centralisées (Data Lake);
Ecosystème (un ensemble de matérielles et logicielles : par exemple Hadoop).
DATA SCIENCE :
Combinaison de techniques avec des méthodes scientifiques pour résoudre des problèmes business;
Analyses Mathématiques + Capacités informatiques avancées + Métiers
ANALYTICS :
Processus d'identification de modèles dans les données. Elle utilise la statistique, la recherche
opérationnelle et d'autres outils mathématiques pour donner un sens aux informations générées ou
collectées par les organisations
Prérequis au cours
Algèbre linéaire
Matrices
Valeurs et vecteurs propres
Métriques (distance entre deux points de l’espace vectoriel, produit scalaire).
Statistique descriptive
Population
Recensement
Variables
Travaux Pratiques 0
Algèbre linéaire
𝑓 𝑥 = 𝑏 ⟺ 𝑥 = 𝑓 −1 𝑓 𝑥 = 𝑓 −1 𝑏 ⟺ 𝐼𝑑𝐸 𝑥 = 𝑥 = 𝑓 −1 (𝑏)
2 −1 1 𝑎11 = 2 𝑎12 = −1 𝑥 𝑏1 = 1
Résoudre 𝑋= autrement 𝑦 = 𝑏2 = 0
0 1 0 𝑎21 = 0 𝑎22 = 1
𝑥
Que vaut X ? Autrement 𝑦 ?
Travaux Pratiques 0
Algèbre linéaire
𝑓 𝑥 = 𝑏 ⟺ 𝑥 = 𝑓 −1 𝑓 𝑥 = 𝑓 −1 𝑏 ⟺ 𝐼𝑑𝐸 𝑥 = 𝑥 = 𝑓 −1 (𝑏)
2 −1 1 𝑎11 = 2 𝑎12 = −1 𝑥 𝑏1 = 1
Résoudre 𝑋= autrement 𝑦 =
0 1 0 𝑎21 = 0 𝑎22 = 1 𝑏2 = 0
𝑥
Que vaut X ? Autrement 𝑦 ?
A <- matrix(c(2, 0, -1, 1), 2, 2) : enregistrement de la matrice A de format 2,2
b <- c(1, 0) : enregistrement du second membre de l’équation
solve(A, b) : fonction de résolution de l’équation qui donne X
Travaux Pratiques 0
Statistique descriptive
Plan du cours (12H : 4 séances de 3H)
Analyse de données
Données (ou Data)
Analyse de données et rôle d’un analyste de données (Data Analyst)
Impact de l’analyse de données sur les entreprises
Défis et opportunités
Techniques et outils d’analyse de données
Analyse factorielle
ACP
AFC
ACM
Visualisation
…
Analyse de données
Selon Webster, les données sont définies comme un ensemble de faits, d’observations
ou d’autres informations liées à une question ou un problème particulier. Les données
peuvent être structurées ou non structurées.
Les données structurées
Ce sont des informations avec un haut degré d’organisation qui pourraient être
incluses dans des bases de données ou des feuilles de calcul et sont facilement
consultables par de simples algorithmes de moteur de recherche.
Exemples de données structurées : les réponses d’un questionnaire d’enquêtes
(Google Forms), les données dans les bases de données relationnelles.
Analyse de données
Les organisations devront utiliser les données et l’analyse pour rester compétitives.
Rappelons que les organisations ont toujours utilisé les données sous une forme ou
une autre pour éclairer leurs décisions.
Aujourd’hui le volume, la variété et la vitesse à laquelle les données arrivent
présentent d’énormes défis.
Analyse de données
o quantitatives : nombres sur lesquels les opérations usuelles (somme, moyenne, …) ont un sens; elles
peuvent être discrètes (ex: nombre d’éléments dans un ensemble) ou continues (ex: prix, taille);
o qualitatives : appartenance à une catégorie donné; elles peuvent être nominales (ex: sexe, CSP) ou
ordinales quand les catégories sont ordonnées (ex : très résistant, assez résistant, peu résistant).
Analyse factorielle
:
But : Il s’agit ici de projeter le nuage de points sur un espace 𝐸 𝑘 de dimension 𝑘 < 𝑝.
Autrement la projection sur un sous espace de 𝐸 𝑝 ou encore définir de nouvelles
variables combinaisons linéaires des variables initiales qui feront perdre le moins
d’information possible.
Les variables x1 et x2
indépendantes.
Ce critère consiste à calculer la distance moyenne entre tous les objets du cluster
𝐶1 et tous les éléments de 𝐶2 .
Classification non supervisée ou clustering
: les différents critères d’agrégation ou du lien
Le critère de Ward, le plus utilisé
𝐶1 ∗ 𝐶2 2
𝐷 𝐶1 , 𝐶2 = 𝑑 𝑔𝑐1 , 𝑔𝑐2 ;
𝐶1 + 𝐶2
Avec 𝑔𝑐1 le centre de gravité du cluster 𝐶1 et 𝑔𝑐2 le centre de gravité du cluster 𝐶2 .
Le critère de Ward consiste à choisir à chaque étape le regroupement de clusters tel
que l’augmentation de l’inertie intra clusters soit minimale. Il ne s’applique que dans
un espace Euclidien.
Classification non supervisée ou clustering
: Classification Ascendant Hiérarchique(CAH)
Inertie inter
0≤ ≤1
Inertie totale
Lorsque le rapport tend vers 0, les classes ont mêmes moyennes (Ne permet pas de classifier).
Lorsque le rapport tend vers 1, les individus d’une même classe sont identiques (Idéal pour classifier).
Notons que ce critère est dépendant du nombre d’individus et de classes.
Classification non supervisée ou clustering
: Classification Ascendant Hiérarchique(CAH)