Vous êtes sur la page 1sur 15

Atelier 1

BELTAIEF FERIEL & GRIOUI HAITHEM


La définition du concept de données massives

Des données plus variées, arrivant dans des volumes croissants et à une
vitesse plus élevée. C’est ce que l’on appelle les trois « V ».
En d’autres termes, le Big Data est composé de jeux de données complexes,
provenant essentiellement de nouvelles sources. Ces ensembles de données
sont si volumineux qu’un logiciel de traitement de données traditionnel ne
peut tout simplement pas les gérer. Mais ces énormes volumes de données
peuvent être utilisés pour résoudre des problèmes que vous n’auriez jamais
pu résoudre auparavant.
Le contexte d’utilisation de ces données

• Comment YouTube peut il utiliser les historiques des recherches et des vidéos re
gardées de l'utilisateur?
YouTube utilise les historiques des recherches et des vidéos regardées pour
améliorer l'expérience de l'utilisateur, en lui permettant de retrouver plus
facilement les dernières vidéos qu'il a visionnées ou d'obtenir des recommandations
plus ciblées. Ces historiques peuvent aussi aider Youtube à lui proposer des
annonces pertinentes et utiles.
Le contexte d’utilisation de ces données

• Comment YouTube peut-il utiliser les informations personnelles de l'utilsateur ?


Les informations personnelles incluent, entre autres, le nom et la photo de
l'utilisateur. Certaines annonces peuvent comporter des formulaires pour lui
permettre de fournir des informations supplémentaires, telles que son adresse e-
mail et son numéro de téléphone. Toutefois, il n'est pas obligatoire de les remplir
pour continuer à utiliser YouTube.
Le contexte d’utilisation de ces données

• Comment YouTube peut-il utiliser les contenus (vidéos ou photos, par


exemple) mis en ligne ?
• Seuls les contenus que l'utilsateur a mis en ligne sont stockés par la plate-
forme .Il choisit les utilisateurs autorisés à voir vos vidéos en configurant
leurs paramètres de confidentialité. En fonction de ces paramètres, son
contenus peuvent être visibles par d'autres utilisateurs ou leur être
recommandés.
Les types de données recensées dans cette étude

• Les données structurées ont un format fixe et


sont souvent numériques. Dans la plupart des cas, Les données Les données
elles sont traitées par des machines plutôt que par
des humains. Ce type de données est constitué structurées non
d’informations déjà organisées en bases de structurées
données et feuilles de calcul stockées dans des
bases SQL, des data lakes et des data warehouses.
Nombre de j'aime transcription audio
• Les données non structurées sont des Durée du video vidéos
informations qui ne sont pas organisées et qui n’ont Pseudo
pas de format prédéterminé, car il peut s’agir de
quasiment n’importe quoi. Les données recueillies à
partir des réseaux sociaux, par exemple, sont des
données non structurées. Elles peuvent être placées
dans des fichiers texte conservés dans des clusters
de type Hadoop ou des systèmes NoSQL.
Estimation de volume

• Malgré l'essor récent de nouveaux réseaux sociaux basés sur la vidéo,


YouTube conserve la première place en 2021. L'application détenue par
Google représente un peu plus de 20 % du volume de données
consommées par les smartphones dans le monde.
Les principaux types et niveaux de difficultés rencontrés pour gérer ces
données

Ces données sont non seulement volumineuses mais aussi continu, en streaming, en temps
réel, dynamique et volatile. Les données ont augmenté de façon exponentielle dans
"volume", variété' et "vitesse" .
LES PROBLÈMES RENCONTRÉS PAR YOUTUBE AVANT LES TECHNOLOGIES DE GESTION DU
BIG DATA :
-Des coûts élevés doivent être dépensés pour la partie stockage.
-Très difficile à gérer
-L'efficacité est très inférieure
-Des données de mauvaise qualité et parfois inexactes
-L'accessibilité est moindre
Solution big data retenue

• YOUTUBE utilise le cluster de stockage distribué et Hadoop :


Un cluster signifie essentiellement qu'il s'agit d'une collection. Un cluster informatique est
également un ensemble d'ordinateurs interconnectés qui sont suffisamment capables de
communiquer entre eux et de travailler sur une tâche donnée comme une seule unité.
De même, le cluster Hadoop est un type spécial de cluster informatique conçu pour
effectuer des analyses de données volumineuses ainsi que pour stocker et gérer d'énormes
quantités de données. Il s'agit d'un ensemble de matériel de base interconnecté les uns aux
autres et fonctionnant ensemble comme une seule unité.
Il a essentiellement un maître et un grand nombre d'esclaves. Le maître assigne les tâches
aux esclaves et guide les esclaves pour effectuer une tâche particulière.
Les avantages de la solution

• Réduction des coûts


• Meilleure prise de décision
• Détection de fraude
• Contrôlez la réputation en ligne
Les solutions NoSQL utilisés

• À l'origine, YouTube utilisait largement MySQL comme base de données


pour stocker la plupart des données,Apres que youtube était acquis par
google ils ont recherché a implementé Google File System : est un système
de fichiers distribué développé par Google pour gérer des données à
grande échelle dans un environnement distribué après 13/11/2006.
Base de données orientée graphe

Dans la base de données orientée graphe les données stockées sont : les noeuds et les
liens et des propriétés sur ces noeuds et ces liens.
Base de données orientée colonne

Vous aimerez peut-être aussi