Académique Documents
Professionnel Documents
Culture Documents
Page 1 sur 8
Lien du site web : https://synthesis.ai/
• Dsynth : DSynth est un générateur de données piloté par des modèles. DSynth
accepte des modèles de divers formats, génère des données basées sur ces modèles et
sort les données générées vers un ou plusieurs emplacements de destination
configurés.
Développé par Microsoft Research
Repo github : https://github.com/microsoft/DSynth
• Hazy : Hazy est un partenaire reconnu pour sa capacité à fournir des technologies
innovantes en matière de données synthétiques dans les environnements d'entreprise
les plus complexes. Revendique être Pionniers dans la génération de données
synthétiques.
"Hazy a été la première société à commercialiser les données synthétiques en tant que
produit d'entreprise viable."
Page 2 sur 8
Lien du site web : https://hazy.com/
Pour créer ces éléments anonymes et sécurisés, l'outil utilise deux approches :
Page 3 sur 8
(i) La confidentialité différentielle : Elle ajoute du bruit statistique aux données pour
masquer l'information sur les individus.
(ii) La k-anonymité : Elle modifie les ensembles de données de sorte que chaque
individu est indiscernable d'au moins k-1 autres individus dans les données.
• Microsoft DPSDA : une bibliothèque Python pour générer des données synthétiques
différentiellement privées (DP) sans avoir besoin d'entraîner un modèle ML. Il est
basé sur les articles suivants qui ont proposé un nouveau cadre de données
synthétiques DP qui utilise uniquement les API d'inférence de la boîte noire des
modèles de base (Stable Diffusion, improved diffusion, DALLE2). Leur approche est
basée principalement sur le « Private Evolution » (PE) inspiré des « Evolutionary
Algorithms (EAs) » introduit par Davis en 1987, qui imitent les processus d'évolution
naturelle tels que la sélection, la reproduction et la mutation pour résoudre les
problèmes d'optimisation et de recherche.
D’après les auteurs, on cite « Foundation models have a broad and general model of
our world from their extensive training data. Therefore, we expect that foundation
models can generate samples close to private data with non- negligible probability.
The challenge is that by naively calling the APIs, the probability of drawing such
samples is quite low. We need a way to guide the generation towards private
samples ».
Page 4 sur 8
bruit ajouté à l'histogramme des plus proches voisins (Differential Privacy Nearest
Neighbors Histogram) permet de masquer l'influence d'un seul échantillon.
Itération et Évolution : L'algorithme fait évoluer les données synthétiques au fil des
itérations, en affinant leur qualité et leur ressemblance aux données réelles tout en
maintenant la confidentialité (en suivant les mêmes principes que les « evolutionary
algorithms »).
Articles : Differentially Private Synthetic Data via Foundation Model APIs 1: Images
[paper (ICLR 2024)] [paper (arxiv)]
Authors: [Zinan Lin], [Sivakanth Gopi], [Janardhan Kulkarni], [Harsha Nori], [Sergey
Yekhanin]
Documentation : https://openreview.net/pdf?id=YEhQs8POIo
Bien que l’étude soit focalisée sur la génération d’images synthétiques, les auteurs ont
démontré comment appliquer le DSPDA pour générer des données tabulaires
synthétiques (texte) notamment en utilisant GPT-2.
Page 5 sur 8
Pour la génération de données synthétiques tabulaires, la qualité des données synthétiques
obtenues dépend fortement des prompts mit en entrée, il serait intéressant de rajouter d’autres
techniques de Data augmentation (synonymisation, Back-Translation, perturbation des mots et
autres) ou d’implémenter ces techniques à l’aide de LLMs pour améliorer la qualité des données
synthétiques en sortie.
• Genalog : un package python open source et multiplateforme pour générer des images
de documents avec un bruit synthétique qui imite les documents analogiques scannés.
Documentation : https://microsoft.github.io/genalog/index.html
• Syntheticus : Se base une méthode de génération de données synthétiques qui intègre à la fois l'IA
générative et la confidentialité différentielle :
IA Générative (Generative AI) : Utilise les réseaux antagonistes génératifs (GANs), où un
générateur crée des données synthétiques à partir de bruit aléatoire et un discriminateur essaie de
distinguer les données générées des données réelles. Le processus d'entraînement améliore la
qualité des données synthétiques jusqu'à ce qu'elles soient similaires aux données réelles.
Page 6 sur 8
Confidentialité Différentielle (Differential Privacy) : Ajoute du bruit statistique aux données
pour préserver la confidentialité des individus dans le jeu de données d'origine. Cela assure que les
données synthétiques ne permettent pas de remonter aux données réelles spécifiques d'un individu.
Documentation : https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RW1hZel
Page 7 sur 8
Sources :
- Google
- https://learn.microsoft.com/en-
us/ai/playbook/capabilities/experimentation/synthetic-data-generation
- https://openreview.net/forum?id=YEhQs8POIo
- [2305.15560] Differentially Private Synthetic Data via Foundation Model APIs 1:
Images (arxiv.org)
- Documentation DSPDA https://openreview.net/pdf?id=YEhQs8POIo
- Documentation Syntheticus
https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RW1hZel
- Documentation Genalog https://microsoft.github.io/genalog/index.html
Page 8 sur 8