Vous êtes sur la page 1sur 24

BigText, compréhension et inférence avancées sur

les textes

Dr. Patrick LAFFITTE Dr. Raja HADDAD Dr. Yassin CHABEB

Big Data Mining and Visualisation - 7ème édition


Plan
PALO IT- PALO IT Labs
1 Contexte et problématiques
2 Expérimentations : BigText
2.1. Mise en place
2.2. Tests et validation
2.3. Amélioration
2.4. Tests sur la RGPD
3 Ajout de l’inférence
4 Conclusion et perspectives
● PALO IT Labs est une société de services spécialisée dans les
activités de recherche scientifique et technique.

Cabinet de conseil & de réalisation spécialisé en : ● Grâce à leurs qualifications académiques et leur savoir-faire, les
employés de PALO IT Labs ciblent deux types d’opérations :
● Design centré sur l’Humain,
● Développement agile de logiciels,
1. RECHERCHE APPLIQUÉE qui visent à :
● Transformation des entreprises qui innovent.
a. Discerner les applications possibles des résultats d'une
recherche fondamentale.
b. Trouver des solutions nouvelles permettant à une entreprise
d'atteindre un objectif déterminé choisi à l'avance.

2. OPÉRATIONS DE DÉVELOPPEMENT EXPÉRIMENTAL


effectuées, au moyen de prototypes ou d'installations pilotes pour :
a. Réunir informations & éléments techniques des décisions,
b. Produire des nouveaux procédés, systèmes, services,
c. Les améliorer substantiellement (pas une simple utilisation de
l'état des techniques existantes).
1 Contexte et problématiques
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives

Contexte

Question
ouverte Liste des réponses :
- Extrait de la base de textes
- Evaluation de la réponse
Machine entraînée
(Modèle de deep Réponses
Base de textes
learning)

5
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives

SQuAD (Stanford Question Answering Dataset)

● Un jeu de données composé par des questions/réponses


posées sur un ensemble d’article de Wikipédia.
● La réponse à chaque question (si elle existe) est un segment
de texte.
● Une compétition a été organisée par l’université de Stanford
pour trouver le meilleur modèle capable de battre l’humain
dans la réponse à des questions ouvertes.

6
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives

Modèles
Humain

7
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives

Problématiques

● Choisir un modèle, le comprendre, le mettre en place et valider


le résultat de SQuAD.
● Améliorer le modèle choisi.
● Tester le modèle sur des données autres que celles de
Wikipédia.
● Trouver une solution pour traiter les textes en français.

8
2 Expérimentations : BigText
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives

R-NET (Mars 2017)

10
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives

Pourquoi R-NET ? (il y a 6 mois)

● La documentation est indispensable pas uniquement le papier


universitaire.
● Des exemples de code permettant de mieux comprendre la
préparation de données et des metadatas.
● Une plateforme technique pas trop ésotérique. Dans ce cas,
TensorFlow et Python ne semblent pas trop ésotériques.
● La meilleure performance à l'époque, pour un réseau simple (pas un
ensemble de modèles) avec une architecture classique (GRU) qui
annonce dans le papier d’origine un EM à 71.1%
11
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives

Test et validation de R-NET (Mars 2017)


● Merci à Karim Ould Aklouche

12
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives

Amélioration de R-NET
● Enrichir l’ensemble d'apprentissage par le type de la question.

13
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives

Résultats (amélioration de R-NET)

14
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives

Utilisation de R-NET sur 700 articles de la RGPD (1/2)

What is personal
data ?
1. vulnerable natural
persons
2. data subjects and the
700 articles Machine entraînée controller
RGPD (R-NET)
3. any information relating
to an identified or
identifiable natural
person

15
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives

Utilisation de R-NET sur 700 articles de la RGPD (2/2)

Question avec “should” Question avec “could”


Question : who should infringe the Question : who could infringe the
regulation? regulation?
Réponses: Réponses:
1. Namely Directive (EU) 2016/680 1. Third countries and international
of the European Parliament and organisations
of the Council 2. A natural person
2. The Board 3. A legal obligation
3. Member States
16
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives

À vous de tester

gdpr.palo-it.com
1. Créer un compte avec une vraie adresse mail.
2. Tester l’outil.
3. Vos feedbacks nous intéressent.
(test.rgpd.paloit@gmail.com)

17
3 Ajout de l’inférence
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives

Inférence?

D'après Wikipédia: “C’est un mécanisme cognitif par lequel le

récepteur d'un message interprète une signification

supérieure à la somme de ce qui a été simplement énoncé”.

19
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives

SQuAD 2.0

● Nouveau jeu de données disponible depuis début juin 2018.


● 100 000 questions (SQuAD 1) + 50 000 nouvelles questions qui
nécessitent plus de réflexion donc une capacité d’inférence

Voir https://arxiv.org/abs/1806.03822v1
20
4 Conclusion et perspectives
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives

Et le Français?
● Le traitement des données textuelles anglais a évolué (et évolue) considérablement

principalement grâce aux efforts de groupe de travail issue d’université comme Stanford

ou Georgia Institute of Technology Atlanta et la participation active des centres de

recherche privée comme celui de Microsoft Asia.

● Ces jeux de données ont été créés à la main (par plein de mains), en utilisant des

étudiants payés à l’heure qui imaginent les questions et leur réponses.

● Cela présuppose l’existence d’un site internet capable de mémoriser le travail de chaque

étudiant et de récompenser leur travail s’il est bien fait.

● Et vous ?

22
Merci
Références

Microsoft Research Asia (2017): R-NET: Machine reading comprehension with self-matching networks.
(https://www.microsoft.com/en-us/research/wp-content/uploads/2017/05/r-net.pdf )

Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, Percy Liang (2016): SQuAD: 100,000+
Questions for Machine Comprehension of Text (https://arxiv.org/pdf/1606.05250.pdf )

Pranav Rajpurkar, Robin Jia, Percy Liang (2018): Know What You Don't Know: Unanswerable
Questions for SQuAD (https://arxiv.org/pdf/1806.03822.pdf)

Vous aimerez peut-être aussi