Vous êtes sur la page 1sur 4

1.

Definition: Les données non structurées sont des ensembles de données qui ne sont
pas organisées selon un format ou une structure prédéfinie. Elles peuvent inclure
divers formats tels que du texte, des images, de l'audio et de la vidéo, et peuvent
provenir de sources humaines ou générées par des machines. Contrairement aux
données structurées, les données non structurées ne suivent pas de modèle de données
et n'ont pas de structure clairement définie, ce qui les rend plus difficiles à analyser.
Les données non structurées sont souvent gérées et analysées à l'aide de systèmes de
fichiers, de lacs de données et de cadres de traitement de Big Data tels que Hadoop et
Spark.

2. Les types:
Les données non structurées comprennent différents formats et sources, tels que
des documents juridiques, des fichiers audios, des conversations, des vidéos, des photos, du
texte sur un site web, et bien d’autres encore. Parmi les données non structurées on trouve :

Courriels : Chaque jour, l'envoi massif de courriels génère une quantité considérable de
données non structurées que les outils d'analyse traditionnels peinent à traiter. Néanmoins, la
présence de métadonnées dans un courriel lui confère une forme de structure, et certains
algorithmes d'analyse de texte peuvent extraire des informations cruciales à partir de milliers
de courriels en quelques secondes.

Médias sociaux : Les données collectées sur les plateformes de réseaux sociaux ne sont pas
structurées. Mais comme les courriels, ces données peuvent être configurées de manière
spécifique comme les hashtags qui sont un excellent exemple. Les utilisateurs peuvent utiliser
les hashtags pour trouver des sujets qui les intéressent. Cependant, les messages des hashtags
ne sont pas structurés.
Réponses à l’enquête : Les études de marché, l’engagement des employés et les
questionnaires sur l’expérience des clients comportent souvent des questions à choix multiples
et des questions ouvertes. Ces questions nécessitent des réponses textuelles non structurées.

Publications : Les données non structurées sont publiées sous de nombreuses formes par des
publications, des annuaires et des portails. Les exemples de contenu comprennent les articles
d’actualité, les offres d’emploi, les critiques de films, les annonces immobilières, les critiques
de restaurants, les bases de données de CV, les appels d’offres, etc. Les données sous forme
de texte ou d’images sont incluses dans chacun d’entre eux.

Données sur les communications : De nos jours, il existe de nombreuses façons d’avoir des
conversations intéressantes avec les autres, tant sur le plan professionnel que personnel.
Imaginez une entreprise dont les employés discutent fréquemment avec des clients et des
fournisseurs sur différents canaux, générant ainsi des données audios, image et texte non
structurées.

Fichiers multimédias : Les fichiers multimédias ne sont toujours pas structurés, car nous ne
savons pas exactement ce que l’image, la musique ou la vidéo représente réellement, même
s’ils peuvent être étiquetés avec des titres ou des sujets et enregistrés dans des bases de
données telles que MP3, JPG, PNG, GIF, etc.

Documents : Les évaluations, les documents juridiques et les diaporamas pour les entreprises
sont souvent rédigés à la main, publiés sur l’internet ou enregistrés au format PDF. Ces
fichiers peuvent également inclure des feuilles de calcul, des images ou des fichiers XML.
Même si les fichiers texte sont rédigés de manière standard, les données ne sont pas
organisées de manière à permettre une analyse sans technologies d’intelligence artificielle
sophistiquées.
Pages web : Les données non structurées sont produites à un rythme exponentiel sur
l’internet. Les pages web contiennent du texte, des photos, des fichiers audio et vidéo, ainsi
que d’autres types de matériel.

3. Les défis :
Les données non structurées présentent plusieurs défis liés à leur gestion, analyse
et exploitation. Voici quelques-uns des principaux défis associés à ces types de données :

 Hétérogénéité des formats : Les données non structurées peuvent prendre une
multitude de formats tels que le texte, les images, l'audio, la vidéo, ce qui rend difficile
leur intégration cohérente dans un seul système.
 Volume massif : Les données non structurées sont souvent générées en grandes
quantités, ce qui rend leur stockage, leur traitement et leur analyse plus complexes que
celles des données structurées.
 Difficulté d'analyse : L'absence de structure formelle rend l'analyse des données non
structurées plus difficile que celle des données structurées. Les méthodes
traditionnelles d'analyse de données peuvent ne pas être directement applicables,
nécessitant l'utilisation d'approches spécifiques.
 Extraction d'informations : Extraire des informations significatives à partir de
données non structurées peut être délicat. L'identification de modèles, de tendances, et
d'informations utiles nécessite des techniques avancées d'analyse de texte, de vision
par ordinateur, et d'analyse d'audio et de vidéo.
 Coût de stockage : En raison de leur volume important, le stockage des données non
structurées peut être coûteux. Les organisations doivent investir dans des solutions de
stockage évolutives pour gérer efficacement ces données massives.
 Confidentialité et sécurité : Les données non structurées peuvent contenir des
informations sensibles, et leur gestion soulève des préoccupations en matière de
confidentialité et de sécurité. Il est essentiel de mettre en place des mesures de
protection appropriées.
 Intégration avec des systèmes existants : L'intégration de données non structurées
avec des systèmes existants peut être complexe. Les entreprises doivent développer
des stratégies pour tirer parti de ces données sans perturber leurs infrastructures
existantes.
 Évolution rapide des technologies : Les technologies évoluent rapidement, et il peut
être difficile de suivre les outils et les méthodes les plus récents pour gérer et analyser
efficacement les données non structurées.
4. Exemple:
Données sismiques Données de la surveillance de satellite
Ou bien une Images satellites

Ces données sont générées par des capteurs Ces données visuelles, capturées par des
sismiques répartis sur des zones géographiques satellites en orbite autour de la Terre, offrent
étendues pour surveiller l'activité sismique de la une perspective unique et globale de notre
Terre. En raison de leur nature complexe, les planète. Les images satellites peuvent
données sismiques sont souvent non structurées contenir une variété d'informations, allant des
et peuvent inclure des enregistrements conditions météorologiques à la surveillance
temporels, des fréquences, des amplitudes, des environnementale, en passant par la
localisations géographiques, etc. cartographie des changements géographiques
au fil du temps.

Vous aimerez peut-être aussi