Académique Documents
Professionnel Documents
Culture Documents
DATA
WAREHOUSE
01 Introduction
02 Specifications Fonctionnelles
03 Specifications Operationnelles
04 Technologies Utilisees
05 Methodologies
06 Realisation
07 Conclusion
INTRODUCTION
Objectif
Le projet a pour objectif de fournir à ABC Industries une
compréhension approfondie du paysage de l'industrie
technologique en analysant les données des médias sociaux,
principalement à partir de la plateforme Twitter. Les
spécifications fonctionnelles et opérationnelles détaillées ci-
dessous guideront le développement du système pour
atteindre cet objectif.
SPÉCIFICATIONS
FONCTIONNELLES
Pré-Processing de Données :
Utiliser Python pour implémenter des scripts pour le
pré-traitement des données.
Les scripts doivent inclure des étapes de nettoyage
des données, de transformation et de gestion des
valeurs manquantes.
Analyse et Visualisation :
Utiliser Power BI pour créer des visualisations
interactives et des tableaux de bord dynamiques.
Les visualisations doivent couvrir les dimensions
spécifiques.
SPÉCIFICATIONS
OPERATIONNELLES
Planification :
Création du Backlog Produit :
1.1 Collecte de données Twitter
1.2 Stockage dans la base de données
1.3 Création de rapports visuels
User Stories :
En tant qu'utilisateur, je veux pouvoir visualiser les
tendances générales dans les rapports
En tant qu'utilisateur, je veux avoir accès à des
analyses approfondies pour chaque métrique
METHODOLOGIE
TECHNOLOGIES
UTILISEES
METHODOLOGIE
TECHNOLOGIES
UTILISEES
Sprint1
METHODOLOGIE
TECHNOLOGIES
UTILISEES
Sprint2
METHODOLOGIE
TECHNOLOGIES
UTILISEES
Sprint3
METHODOLOGIE
TECHNOLOGIES
UTILISEES
Sprint4
INTÉGRATION DE
TECHNOLOGIES
L'API TWITTER
UTILISEES
Resultat :
TRANSFORMATION
TECHNOLOGIES
ETL AVEC TALEND
UTILISEES
Objectif :
TRANSFORMATION
TECHNOLOGIES
ETL AVEC TALEND
UTILISEES
Resultat :
TRANSFORMATION
TECHNOLOGIES
ETL AVEC TALEND
UTILISEES
test
TRANSFORMATION
TECHNOLOGIES
ETL AVEC TALEND
UTILISEES
TRANSFORMATION
TECHNOLOGIES
ETL AVEC TALEND
UTILISEES
Explication :
On veut déterminer l'activité de l'utilisateur en fonction de la
différence entre la date de création de l'utilisateur (created_at dans
le profil de l'utilisateur) et la date de création du tweet (created_at
dans les données du tweet). La logique générale est la suivante :
1. Convertir les dates de création en objets datetime.
2. Calculer la différence en jours entre la date de création de
l'utilisateur et la date de création du tweet.
3. Basé sur la différence en jours, catégoriser l'activité de
l'utilisateur comme "old" (ancien) s'il existe depuis un certain
temps ou "new" (nouveau) sinon.
4. En fonction du ratio entre le nombre de statuts de l'utilisateur et
le temps depuis sa création, déterminer si l'activité est "active"
ou "passive".
La catégorie d'activité résultante est ensuite concaténée pour
former une étiquette complète, par exemple, "old-active", "old-
passive", "new-active", "new-passive".
TRANSFORMATION
TECHNOLOGIES
ETL AVEC TALEND
UTILISEES
TRANSFORMATION
ETL AVEC TALEND
TRANSFORMATION
ETL AVEC TALEND
TRANSFORMATION
ETL AVEC TALEND
Datawarehouse schema :
INTÉGRATION AVEC
TECHNOLOGIES
MICROSOFT SQL
UTILISEES
SERVER
Sentiment Analysis :
Nous avons pris la décision d'enrichir la table des faits tweet
en y intégrant des analyses de sentiments. Les colonnes
telles que sentiment_score, magnitude_score, et
sentiment_tag ont été ajoutées pour fournir des
informations supplémentaires sur le sentiment associé à
chaque tweet. Cela permettra une analyse plus approfondie
des données dans le contexte de l'opinion et du ton des
tweets.
INTÉGRATION AVEC
TECHNOLOGIES
MICROSOFT SQL
UTILISEES
SERVER
INTÉGRATION AVEC
TECHNOLOGIES
MICROSOFT SQL
UTILISEES
SERVER
Bilan et Apprentissages :
Acquis :
Défis Relevés :