Etat Art

Etat de l’art sur la génération de données synthétiques
• DataGen : Permets aux ingénieurs de générer des données synthétiques de pointe

centrées sur l'homme pour la vision par ordinateur (computer vision).
Trusted by Google
Lien du site web : https://datagen.tech/
• K2VIEW : se concentre sur la transformation du désordre des données ("data chaos")

en produits de données réutilisables.
Lien du site web : https://www.k2view.com/
• Mostly AI : Solution de génération de données tabulaires synthétiques no code basée

sur l’IA. Revendique être les premiers à développer et à déployer la génération de
données synthétiques en entreprise. Ils revendiquent aussi avoir la plus grande
précision en termes de génération données synthétiques.
Lien du site web : https://mostly.ai/
• Gretel AI : Génère des ensembles de données artificielles présentant les mêmes

caractéristiques que les données réelles, afin de pouvoir développer et tester des
modèles d'IA sans compromettre la confidentialité. Ils sont spécialisés dans la finance,
la santé et secteur public.
Trusted by Google
Lien du site web : https://gretel.ai/
• Tonic AI : Accélère la vitesse d'ingénierie et assure la conformité avec la génération

de données de test réalistes et sécurisées grâce à l’IA. Génère des données
synthétiques sécurisées et évolutives, quand vous en avez besoin, où vous en avez
besoin.
Lien du site web : https://www.tonic.ai/
• Synthesis AI : Une plateforme de génération de données hautement évolutive qui

fournit des millions d'images parfaitement étiquetées. Les données synthétiques à la
demande pour la vision par ordinateur offrent un nouveau paradigme pour le
développement de modèles plus performants.
Page 1 sur 8
Lien du site web : https://synthesis.ai/
• Syntho AI: All Synthetic Data Generation approaches in one platform.

Imite les modèles statistiques des données originales dans des données synthétiques
grâce à la puissance de l'intelligence artificielle, protège les informations sensibles en
supprimant ou en modifiant les informations personnelles identifiables (IPI), et sert à
créer, maintenir et contrôler des données de test représentatives pour les
environnements de non-production.
Lien du site web : https://www.syntho.ai/
• YDATA : Profilage automatisé de la qualité des données et génération de données

synthétiques
Lien du site web : https://ydata.ai/
• GenRocket : Permet d'automatiser la conception de données synthétiques.

La seule plateforme de données synthétiques qui combine : une évolutivité de niveau
entreprise, une génération dynamique de données, une intégration à tout
environnement de test et un bon rapport qualité-prix.
Lien du site web : https://www.genrocket.com/
• Dsynth : DSynth est un générateur de données piloté par des modèles. DSynth
accepte des modèles de divers formats, génère des données basées sur ces modèles et
sort les données générées vers un ou plusieurs emplacements de destination
configurés.
Développé par Microsoft Research
Repo github : https://github.com/microsoft/DSynth
• Hazy : Hazy est un partenaire reconnu pour sa capacité à fournir des technologies
innovantes en matière de données synthétiques dans les environnements d'entreprise
les plus complexes. Revendique être Pionniers dans la génération de données
synthétiques.
"Hazy a été la première société à commercialiser les données synthétiques en tant que
produit d'entreprise viable."
Page 2 sur 8
Lien du site web : https://hazy.com/
• Edgecase AI : Entreprise d'étiquetage et de reconnaissance d'images et d'IA, leader

mondial dans le développement de données d'entraînement de haute qualité, annotées
par l'homme, et dans la génération synthétique de données.
Trusted by Microsoft
Lien du site web : https://www.edgecase.ai/
• Statice : Génération de données synthétiques en quatre étapes simples : installation

sécurisée et flexible, génération autonome de données, évaluations de la qualité et de la
sécurité des données, utilisation et partage des données synthétiques sans aucun risque.
La technologie de données synthétiques de Statice fait désormais partie d'Anonos Data
Embassy, la solution primée de sécurité des données et de protection de la vie privée.
Lien vers le site web : https://www.statice.ai/product/synthetic-data-software
• Microsoft Synthetic Data Showcase : Génère des données synthétiques et des

interfaces utilisateur pour le partage et l'analyse de données dans le respect de la vie
privée.
Le projet qui vise à partager des ensembles de données sensibles de manière sécurisée,
en utilisant ce qu'ils appellent une "vitrine de données" (data showcase). Au lieu de
partager les données sensibles directement, ils proposent de partager des interfaces
utilisateur vers des ensembles de données dérivés qui sont anonymes par nature. Ce
projet offre un ensemble d'outils automatisés pour générer trois éléments principaux :
1. Données Synthétiques : Elles reproduisent la structure globale et les statistiques des

données d'entrée sans décrire des individus identifiables.
2. Données Agrégées : Elles rapportent le nombre d'individus ayant différentes

combinaisons d'attributs sans divulguer les comptages exacts.
3. Tableaux de Bord de Données (Data Dashboards) : Ils permettent une analyse

visuelle exploratoire des ensembles de données sans nécessiter de développement
spécialisé en science des données ou en création d'interfaces.
Pour créer ces éléments anonymes et sécurisés, l'outil utilise deux approches :
Page 3 sur 8
(i) La confidentialité différentielle : Elle ajoute du bruit statistique aux données pour
masquer l'information sur les individus.
(ii) La k-anonymité : Elle modifie les ensembles de données de sorte que chaque
individu est indiscernable d'au moins k-1 autres individus dans les données.
Repo github : https://github.com/microsoft/synthetic-data-showcase
Application gratuite pour tester la solution : https://microsoft.github.io/synthetic-

data-showcase/
• Microsoft DPSDA : une bibliothèque Python pour générer des données synthétiques
différentiellement privées (DP) sans avoir besoin d'entraîner un modèle ML. Il est
basé sur les articles suivants qui ont proposé un nouveau cadre de données
synthétiques DP qui utilise uniquement les API d'inférence de la boîte noire des
modèles de base (Stable Diffusion, improved diffusion, DALLE2). Leur approche est
basée principalement sur le « Private Evolution » (PE) inspiré des « Evolutionary
Algorithms (EAs) » introduit par Davis en 1987, qui imitent les processus d'évolution
naturelle tels que la sélection, la reproduction et la mutation pour résoudre les
problèmes d'optimisation et de recherche.
D’après les auteurs, on cite « Foundation models have a broad and general model of
our world from their extensive training data. Therefore, we expect that foundation
models can generate samples close to private data with non- negligible probability.
The challenge is that by naively calling the APIs, the probability of drawing such
samples is quite low. We need a way to guide the generation towards private
samples ».
Voici les points clés du Private Evolution (PE) :
Differential Privacy, DP (Confidentialité différentielle) : L'algorithme utilise des

principes de confidentialité différentielle pour garantir que les données synthétiques ne
révèlent pas d'informations sensibles sur les individus dans les échantillons privés. Le
Page 4 sur 8
bruit ajouté à l'histogramme des plus proches voisins (Differential Privacy Nearest
Neighbors Histogram) permet de masquer l'influence d'un seul échantillon.
Itération et Évolution : L'algorithme fait évoluer les données synthétiques au fil des
itérations, en affinant leur qualité et leur ressemblance aux données réelles tout en
maintenant la confidentialité (en suivant les mêmes principes que les « evolutionary
algorithms »).
Articles : Differentially Private Synthetic Data via Foundation Model APIs 1: Images
[paper (ICLR 2024)] [paper (arxiv)]
Authors: [Zinan Lin], [Sivakanth Gopi], [Janardhan Kulkarni], [Harsha Nori], [Sergey
Yekhanin]
Documentation : https://openreview.net/pdf?id=YEhQs8POIo
Bien que l’étude soit focalisée sur la génération d’images synthétiques, les auteurs ont
démontré comment appliquer le DSPDA pour générer des données tabulaires
synthétiques (texte) notamment en utilisant GPT-2.
Page 5 sur 8
Pour la génération de données synthétiques tabulaires, la qualité des données synthétiques
obtenues dépend fortement des prompts mit en entrée, il serait intéressant de rajouter d’autres
techniques de Data augmentation (synonymisation, Back-Translation, perturbation des mots et
autres) ou d’implémenter ces techniques à l’aide de LLMs pour améliorer la qualité des données
synthétiques en sortie.
• Genalog : un package python open source et multiplateforme pour générer des images
de documents avec un bruit synthétique qui imite les documents analogiques scannés.
Documentation : https://microsoft.github.io/genalog/index.html
• Syntheticus : Se base une méthode de génération de données synthétiques qui intègre à la fois l'IA
générative et la confidentialité différentielle :
IA Générative (Generative AI) : Utilise les réseaux antagonistes génératifs (GANs), où un
générateur crée des données synthétiques à partir de bruit aléatoire et un discriminateur essaie de
distinguer les données générées des données réelles. Le processus d'entraînement améliore la
qualité des données synthétiques jusqu'à ce qu'elles soient similaires aux données réelles.
Page 6 sur 8
Confidentialité Différentielle (Differential Privacy) : Ajoute du bruit statistique aux données
pour préserver la confidentialité des individus dans le jeu de données d'origine. Cela assure que les
données synthétiques ne permettent pas de remonter aux données réelles spécifiques d'un individu.
Documentation : https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RW1hZel
Page 7 sur 8
Sources :
- Google
- https://learn.microsoft.com/en-
us/ai/playbook/capabilities/experimentation/synthetic-data-generation
- https://openreview.net/forum?id=YEhQs8POIo
- [2305.15560] Differentially Private Synthetic Data via Foundation Model APIs 1:
Images (arxiv.org)
- Documentation DSPDA https://openreview.net/pdf?id=YEhQs8POIo
- Documentation Syntheticus
https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RW1hZel
- Documentation Genalog https://microsoft.github.io/genalog/index.html
Page 8 sur 8

Etat Art

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Etat Art

Transféré par

Droits d'auteur :

Formats disponibles

Etat de l’art sur la génération de données synthétiques

• DataGen : Permets aux ingénieurs de générer des données synthétiques de pointe

• K2VIEW : se concentre sur la transformation du désordre des données ("data chaos")

• Mostly AI : Solution de génération de données tabulaires synthétiques no code basée

• Gretel AI : Génère des ensembles de données artificielles présentant les mêmes

• Tonic AI : Accélère la vitesse d'ingénierie et assure la conformité avec la génération

• Synthesis AI : Une plateforme de génération de données hautement évolutive qui

• Syntho AI: All Synthetic Data Generation approaches in one platform.

• YDATA : Profilage automatisé de la qualité des données et génération de données

• GenRocket : Permet d'automatiser la conception de données synthétiques.

• Edgecase AI : Entreprise d'étiquetage et de reconnaissance d'images et d'IA, leader

• Statice : Génération de données synthétiques en quatre étapes simples : installation

• Microsoft Synthetic Data Showcase : Génère des données synthétiques et des

1. Données Synthétiques : Elles reproduisent la structure globale et les statistiques des

2. Données Agrégées : Elles rapportent le nombre d'individus ayant différentes

3. Tableaux de Bord de Données (Data Dashboards) : Ils permettent une analyse

Repo github : https://github.com/microsoft/synthetic-data-showcase

Application gratuite pour tester la solution : https://microsoft.github.io/synthetic-

Voici les points clés du Private Evolution (PE) :

Differential Privacy, DP (Confidentialité différentielle) : L'algorithme utilise des

Vous aimerez peut-être aussi