Académique Documents
Professionnel Documents
Culture Documents
retour d’expérience
Rabia Azzi, Sylvie Despres, Jérôme Nobécourt
Résumé :
Les modèles statistiques sont couramment représentés sous forme textuelle, tabulaire et graphique dans des
documents (rapports, articles, affiches et présentations) qui sont le plus souvent en format PDF. Même si ce
format rend l’accès à l’information plus difficile, il est intéressant de traiter directement le fichier PDF. Dans
cet article nous proposons une approche permettant le passage d’un modèle statistique de connaissances
à un modèle de connaissances qui soit visualisable afin d’en permettre une exploitation plus aisée. Notre
approche consiste à : (i) extraire les informations pertinentes sous forme de triplets RDF ; (ii) organiser les
triplets pour construire un modèle conceptuel ; (iii) visualiser dynamiquement le modèle obtenu. Nous nous
focalisons sur les deux premières étapes de la méthodologie.
Mots-clés : Modèle statistique, Tableau statistique, Modèle conceptuel, Extraction sémantique d’informa-
tion, RDF
1 Introduction
105
IC 2018
qu’il contient. Nous utilisons les techniques d’extraction d’information à partir de documents
PDF et le modèle de triplets RDF 1 afin de structurer les informations extraites. Cette ap-
proche permet en effet d’explorer la manière de représenter des informations sans identifier
initialement un vocabulaire source pour les prédicats (Powell, 2015). D’un point de vue ap-
plicatif, RDF utilise des identifiants uniques pour les ressources et chaque triplet correspond
à la déclaration d’un fait.
Cet article est organisé comme suit : dans la section 2, nous introduisons la démarche de
présentation des résultats en statistique. Dans la section 3, nous présentons l’approche géné-
rale et nous nous focalisons sur les deux premières étapes de la méthodologie (extraction des
connaissances sous forme de triplets RDF et construction d’un modèle conceptuel). Dans la
section 4 et 5, nous décrivons l’expérimentation, les résultats obtenus et leur évaluation. Dans
la section 6, nous concluons et présentons des perspectives d’investigations complémentaires.
1. https ://www.w3.org/RDF/
2. http ://www.larousse.fr/dictionnaires/francais/statistique/74516
106
D’un modèle statistique à un modèle de connaissance
Les méthodes visuelles sont largement utilisées en statistique pour présenter les résultats
de manière claire et concise. Il existe plusieurs formes possibles de présentation visuelle
des résultats : tableaux, graphiques, histogrammes, diagrammes, etc. Parmi ces formats, les
tableaux sont les plus utilisés, car l’information est disposée de manière à mettre en évidence
les relations entre les données.
Il existe trois types de tableaux : (i) les tableaux de données (les premiers construits) qui
sont généralement « de grande taille » puisqu’ils comptent autant de lignes que de sujets
étudiés ; (ii) les tableaux de distribution de variables (les plus connus) sont obtenus par re-
groupement des cases identiques figurant dans les colonnes et décrivent la distribution d’une
variable ; (iii) les tableaux de contingence sont constitués par croisement de deux variables
renseignées.
Les tableaux statistiques permettent d’organiser et de présenter les données ou les résultats
en regroupant des informations de même nature. Cependant pour les exploiter, une démarche
rigoureuse doit être suivie. Le grand principe d’analyse d’un tableau en statistique (voir Fi-
gure 1) est d’adopter une démarche allant du général au particulier. Cette démarche comporte
les étapes suivantes :
— identifier les éléments : consiste à identifier le titre, la source de l’étude, la nature du
tableau, etc. Chacun de ces éléments est porteur d’information (par exemple, le titre
peut renseigner sur l’idée, la variable expliquée, etc.) ;
— identifier les termes : consiste à identifier les termes figurant dans le titre, les colonnes
et les lignes du tableau, etc. ;
— qualifier les types de données : consiste à qualifier le type de données contenu dans le
tableau en prenant en compte les unités (par exemple, des pourcentages, des probabi-
lités, etc.) ;
— réaliser une lecture du tableau : consiste à appliquer deux règles communes de lecture
à tous les tableaux. La première règle consiste à construire une paraphrase en débutant
la lecture en se plaçant sur une ligne et en poursuivant par celle des colonnes utiles
à l’analyse. La seconde consiste à répéter la première règle sur plusieurs lignes du
tableau pour vérifier la pertinence des relations ;
— observer : consiste à tirer des conclusions à partir du tableau. Par exemple, identifier
des relations entre variables (cause/effet), des valeurs extrêmes, des tendances, etc.
107
IC 2018
3 Approche proposée
Nous avons conçu une application qui repose sur l’approche décrite en Figure 3. Le trai-
tement prend en entrée un modèle statistique au format PDF, et se décompose en 3 étapes :
E1 : extraction de connaissances sous forme de triplets RDF.
E2 : construction d’un modèle conceptuel.
E3 : visualisation dynamique du modèle conceptuel.
Dans cet article, nous présentons l’approche permettant la traduction du modèle statistique
vers le modèle conceptuel (E1 et E2).
108
D’un modèle statistique à un modèle de connaissance
D’autres format sont également utilisés pour coder des tables, le format PDF est le plus
répandu. Pour extraire et exploiter ces contenus, il est nécessaire de mettre en place des ap-
proches appropriées (Ronzano & Saggion, 2016). Les approches mises en place sont person-
nalisées et sont fondées sur des éléments structurels tels que le titre, les sections, les figures,
les tableaux, etc. (Riaz et al., 2016), (Wu et al., 2015). Cependant, pour exploiter les docu-
ments au format PDF, il est nécessaire de les convertir vers un format exploitable (XML,
Textuel, HTML, etc.).
Dans cet article, nous nous concentrons sur l’extraction de triplets RDF à partir d’études
statistiques publiées au format PDF. Le document PDF est converti dans un format exploi-
table. Puis, à l’aide d’un vocabulaire contrôlé, les triplets RDF sont extraits à partir des tables
HTML.
3.1.2 Conversion du fichier PDF
Le format PDF est devenu une norme du support de lecture numérique (ordinateurs, li-
seuses, tablettes, smartphones, PDA, etc.). L’objectif initial du PDF était de préserver et
protéger le contenu et la mise en page d’un document, quels que soient la plate forme ou
le programme informatique dans lequel il est visualisé. C’est pourquoi, les fichiers PDF sont
difficiles à modifier et parfois même, l’extraction d’information à partir de ces fichiers consti-
tue un véritable défi.
En outre, la forme des fichiers PDF varie, ce qui conduit à la mise en place de méthodes de
traitements adaptées à chacune d’entre elles. Dans tous les cas, pour automatiser l’extraction
d’information, il convient de convertir ces fichiers dans un format exploitable par la machine.
Plusieurs outils ont été développés pour aider ce processus de conversion. Pour justifier le
choix de l’outil que nous avons utilisé, nous proposons une analyse de ceux souvent cités
comme référence :
— pdftohtmlEX 3 convertit les fichiers PDF au format HTML en conservant le texte et la
mise en forme des tableaux ;
— pdftohtml 4 convertit les fichiers PDF au format HTML et XML ;
— PDFX 5 utilise des règles pour reconstruire la structure logique d’articles scientifiques
au format PDF, quels que soient leur style de formatage ;
— Tabula 6 extrait semi-automatiquement des tableaux de données à partir de fichiers
PDF ;
— PDFMiner 7 extrait des informations à partir de documents PDF. Contrairement à d’autres
3. http ://coolwanglu.github.io/pdf2htmlEX/
4. http ://pdftohtml.sourceforge.net/
5. http ://pdfx.cs.man.ac.uk/
6. http ://tabula.technology/
7. http ://www.unixuser.org/ euske/python/pdfminer/
109
IC 2018
110
D’un modèle statistique à un modèle de connaissance
111
IC 2018
112
D’un modèle statistique à un modèle de connaissance
4 Expérimentation
Chaque ligne i du tableau (Figure 7) comporte un titre. Ce titre est écrit sur deux colonnes
fusionnées. Le titre de la première ligne du tableau est composé de « Body mass index »
et « Optimal ». Dans ce cas, la première colonne sera décrite par deux triplets de la forme
(_ :xi , p, o), où :
— « _ :xi » correspond à la valeur du nœud blanc ;
— « p » correspond respectivement à « Class » et « Label » pour la première colonne ;
— « o » correspond à la valeur de l’intersection entre la ligne i et la colonne k du tableau
T . Les contenus des colonnes « P » (décrivant la probabilité) et « No. of cases »
(décrivant le nombre d’individus pour chaque Class) sont traités comme des chaînes
de caractères.
Chaque ligne du tableau est décrite par un triplet suivant le modèle décrit dans la Figure 8-
A . Par exemple, le résultat obtenu pour la troisième ligne du tableau (A) est présenté Figure 8-
B.
113
IC 2018
114
D’un modèle statistique à un modèle de connaissance
— Extraction des tableaux pertinents : une fois le tableau (A) déclaré pertinent, il est
extrait sous forme d’un tableau associatif (voir Figure 11) « numero_de_page =>
titre => contenu ».
— Extraction des colonnes pertinentes : l’extraction des colonnes a été réalisée à l’aide
du vocabulaire contrôlé et du modèle de triplet. Les colonnes extraites à partir du
tableau (A) sont : (1) la probabilité décrite par l’en-tête portant l’étiquette « P » ; (2) le
nombre de cas décrit par l’en-tête portant l’étiquette « No.of cases ».
— Nettoyage et mise en forme du tableau : les résultats obtenus pour le tableau (A) sont
présentés dans la Figure 12. Nous avons constaté que certains champs de la colonne «
115
IC 2018
A l’issue de l’extraction des triplets, chaque facteur de risque est décrit selon le modèle
conceptuel présenté dans la Figure 9-(2). Ce processus est réalisé en deux étapes : (1) analyser
les triplets extraits ; (2) associer à chaque facteur de risque un ensemble de triplets.
Le résultat est stocké dans un Triple Store. Ainsi, le langage de requête SPARQL peut
être utilisé directement pour interroger ce graphe. Outre son interrogation, le modèle obtenu
est destiné à être utilisé dans une nouvelle approche d’évaluation du risque cardiovasculaire
fondée sur la visualisation dynamique des interactions entre les facteurs de risque.
5 Evaluation
Nous avons montré dans la section précédente comment extraire et transformer des connais-
sances à partir des tableaux statistiques au format PDF. L’approche développée est adaptable
à d’autres formats et à usage général. Elle est réalisée en deux étapes : (1) localisation et
extraction de l’information dans les tables ; (2) élaboration du modèle conceptuel. Ces deux
étapes sont fondées sur l’utilisation d’un vocabulaire contrôlé.
Afin de valider notre approche, nous avons conduit une expérimentation fondée sur l’inter-
prétation par un expert de la sélection de tableaux statistiques correspondant à un sujet d’étude
dans un document PDF. Pour évaluer l’approche d’extraction des tableaux, nous avons tra-
vaillé sur deux jeux de données disponibles au format PDF : le premier (D1) concerne le
modèle statistique à l’origine de ce travail dans le domaine des maladies cardiovasculaires, la
116
D’un modèle statistique à un modèle de connaissance
démarche et les résultats obtenus sont présentés dans la section 4 ; le second (D2) concerne
l’enquête internationale sur les transactions de change et de produits dérivés 11 dans le do-
maine financier. La Figure 14 présente l’exemple d’un tableau extrait du document et le ré-
sultat obtenu après extraction des triplets est présenté dans la Figure 15.
Nous avons utilisé trois métriques pour évaluer les résultats de l’extraction sur (D1) et
(D2) : la précision, le rappel et la F-mesure. Soit Tf ac le nombre de tableaux identifié comme
traitant des interactions entre les facteurs de risque cardiovasculaire (D1) et au volume d’ac-
tivité de transactions (D2) ; la précision est le rapport entre Tf ac et le nombre total de tableaux
apparaissant dans chaque jeu de données ; le rappel est le rapport entre Tf ac et les tableaux
décrivant réellement les interactions entre les facteurs de risque cardiovasculaire (D1) et le
volume d’activité de transactions (D2) ; la F-mesure est la moyenne quadratique combinant
la précision et le rappel. Pour chaque jeu de données, nous avons exécuté une extraction avec
et sans vocabulaire contrôlé. Une fois l’extraction réalisée, nous avons calculé la précision,
le rappel et la F-mesure.
La Table 1 présente les résultats de l’extraction des tableaux avec les mesures de précision,
rappel et F-mesure pour les jeux de données (D1) et (D2). Nous constatons que la précision
11. https ://www.banque-france.fr/sites/default/files/media/2016/11/24/
enquete-triennale-principaux-resultats.pdf
117
IC 2018
de l’extraction donne de faibles résultats sur les deux jeux de données lorsqu’elle est réalisée
sans le recours à un vocabulaire. Cette faible valeur de la précision est due au nombre élevé
de tableaux extraits. La précision et la F-mesure sur (D1) augmentent lorsqu’un vocabulaire
contrôlé est utilisé. Pour le jeu de données (D2), la précision et le rappel augmentent au fur et
à mesure où le nombre de termes augmente dans le vocabulaire. Ces résultats indiquent que
l’utilisation d’un vocabulaire adapté est déterminant pour optimiser l’extraction.
L’évaluation de cette approche sur le jeux de données (D1) fournit une performance presque
parfaite pour le jeu de données (D1). Ce résultat s’explique principalement par : (1) l’ap-
proche développée sur le jeu de données (D1) ; (2) les tableaux décrivant les interactions entre
les facteurs de risque cardiovasculaires dans le document HTML ont tous la même structure ;
(3) le vocabulaire utilisé pour l’extraction est adapté au domaine. Sur le jeu de données (D2),
la performance reste très satisfaisante. Nous prévoyons de tester l’approche d’extraction sur
un volume plus important de jeux de données pour mieux évaluer l’approche et identifier des
pistes d’amélioration.
Le cadre proposé dans cet article n’est pas limité à l’extraction de connaissances à partir
d’études statistiques au format PDF, mais peut être appliqué à toutes ressources structurées
sous forme de tableaux. L’originalité de cette approche est d’associer un modèle conceptuel
aux tableaux figurant dans un document PDF.
Une autre expérimentation, en cours avec les chercheurs en statistiques, montre la diffi-
culté de l’interprétation des connaissances représentées dans le modèle statistique. Les pre-
miers résultats sont encourageants, ils démontrent outre un gain de temps, l’apport du lan-
gage SPARQL qui facilite l’accès aux connaissances (par exemple, filtrage sur la probabilité,
le nom de facteur de risque, etc.).
6 Conclusion et perspectives
Dans cet article, nous avons décrit une méthode permettant la traduction d’un modèle sta-
tistique présenté sous forme de tableau et publié au format PDF, vers un modèle conceptuel
représenté sous la forme d’un graphe. Nous avons apporté des solutions à deux problèmes
dans le domaine de l’extraction de connaissances : (i) comment déterminer la pertinence des
informations contenues dans des tableaux et sous quel format les extraire ; (ii) comment pas-
ser d’un format PDF non structuré à un format exploitable pour le traitement sémantique de
l’information. Une réponse au second problème est constituée de la conversion d’un docu-
ment PDF vers un format HTML respectant la structure des tableaux, puis l’extraction des
informations pertinentes sous forme de triplets RDF. L’intérêt de cette approche est qu’elle
permet d’extraire des connaissances implicites représentées dans des tableaux statistiques
dans différents domaines.
Les résultats de nos premières expérimentations sur des ensembles de données de nature
différentes sont encourageants, même s’ils doivent encore être améliorés. Plusieurs perspec-
tives émergent comme l’ajout de l’exploitation du contenu complet du document (texte, fi-
gure, etc.). Le résultat obtenu est déjà intégré dans un système de visualisation 12 dynamique
de connaissances appliqué aux interactions entre les facteurs de risque des maladies cardio-
vasculaires. En outre, l’approche est actuellement utilisée sur des études statistiques dans
12. http ://www-limics.smbh.univ-paris13.fr/MCVGraphViz/
118
D’un modèle statistique à un modèle de connaissance
Références
C LARK C. A. & D IVVALA S. K. (2015). Looking beyond text : Extracting figures, tables and captions
from computer science papers. In Scholarly Big Data : AI Perspectives, Challenges, and Ideas,
Papers from the 2015 AAAI Workshop, Austin, Texas, USA, January, 2015.
C RESTAN E. & PANTEL P. (2010). Web-scale knowledge extraction from semi-structured tables. In
Proceedings of the 19th International Conference on World Wide Web, WWW ’10, p. 1081–1082,
New York, NY, USA : ACM.
E RMILOV I., AUER S. & S TADLER C. (2013). User-driven semantic mapping of tabular data. In
Proceedings of the 9th International Conference on Semantic Systems, I-SEMANTICS ’13, p. 105–
112, New York, NY, USA : ACM.
J UNYONG I. & S ANGSEOK L. (2017). Statistical data presentation. Korean Journal of Anesthesiology,
70, 267.
K LAMPFL S. & K ERN R. (2015). Machine learning techniques for automatically extracting contextual
information from scientific publications. In Semantic Web Evaluation Challenges, p. 105–116.
Springer International Publishing.
L U W., Z HANG Z., L OU R., DAI H., YANG S. & W EI B. (2015). Mining rdf from tables in chi-
nese encyclopedias. In Proceedings of the 4th CCF Conference on Natural Language Processing
and Chinese Computing - Volume 9362, NLPCC 2015, p. 285–298, Berlin, Heidelberg : Springer-
Verlag.
M ENETON P., L EMOGNE C., H ERQUELOT E., B ONENFANT S., L ARSON M.-G., VASAN R.-S.,
M ÉNARD J., G OLDBERG M. & Z INS M. (2016). A global view of the relationships between the
main behavioural and clinical cardiovascular risk factors in the gazel prospective cohort. PLOS
ONE, 11(9), 1–20.
M UÑOZ E., H OGAN A. & M ILEO A. (2014). Using linked data to mine rdf from wikipedia’s tables.
In Proceedings of the 7th ACM International Conference on Web Search and Data Mining, WSDM
’14, p. 533–542, New York, NY, USA : ACM.
P IVK A., C IMIANO P., S URE Y., G AMS M., R AJKOVI Č V. & S TUDER R. (2007). Transforming
arbitrary tables into logical form with tartar. Data Knowl. Eng., 60(3), 567–595.
P OWELL J. (2015). A librarian’s guide to graphs, data and the semantic web. Chandos Information
Professional Series, p. 268. Elsevier Science.
R IAZ A., TANVIRAND A. M. & M UHAMMAD A. Q. (2016). Information extraction from PDF
sources based on rule-based system using integrated formats. In Semantic Web Challenges, p. 293–
308. Springer International Publishing.
RONZANO F. & S AGGION H. (2016). Knowledge extraction and modeling from scientific publi-
cations. In A. G ONZÁLEZ -B ELTRÁN , F. O SBORNE & S. P ERONI, Eds., Semantics, Analytics,
Visualization. Enhancing Scholarly Data, p. 11–25, Cham : Springer International Publishing.
S APORTA G. (2011). Probabilités, analyse des données et statistique. p. 622. 3ème édition révisée.
S HIGAROV A. O. (2015). Table understanding using a rule engine. Expert Systems with Applications,
42(2), 929–937.
U NBEHAUEN J., H ELLMANN S., AUER S. & S TADLER C. (2012). Knowledge Extraction from
Structured Sources, In S. C ERI & M. B RAMBILLA, Eds., Search Computing : Broadening Web
Search, p. 34–52. Springer Berlin Heidelberg : Berlin, Heidelberg.
WHO (2017). World Health Statistics 2017 :Monitoring Health for the SDGs Sustainable Develop-
ment Goals. World Health Statistics Annual. World Health Organization.
W U J., K ILLIAN J., YANG H., W ILLIAMS K., C HOUDHURY S. R., T UAROB S., C ARAGEA C.
& G ILES C. L. (2015). Pdfmef : A multi-entity knowledge extraction framework for scholarly
documents and semantic search. In Proceedings of the 8th International Conference on Knowledge
Capture, K-CAP 2015, p. 13 :1–13 :8, New York, NY, USA : ACM.
Y EON -S EOK K. & K YONG -H O L. (2008). Extracting logical structures from HTML tables. Compu-
ter Standards & Interfaces, 30(5), 296–308.
119