Vous êtes sur la page 1sur 27

Ecole Technique Transformation de donnes documentaires

Poitiers, 14-16 mars 2011

Atelier 1: Sphinx
import, conversion, export de donnes

Introduction la Recherche d'IST via le Web


INRA Grignon, 03/2011

Plan de latelier 1 - Sphinx


Sphinx: contexte gnral dutilisation du logiciel
Import de donnes:
corpus Wos tabul
corpus Wos balis (plain text)
corpus Pubmed/Medline balis (tags)

Traitements des donnes importes (recodage de


nouvelles variables):
analyses lexicale: exples mc thmatiques et pays
agrgation de donnes
tableaux croiss

Export de donnes
format fiche
format tabul

Sphinx contexte gnral dutilisation (1/2)


import de donnes libres ou structures de
diffrentes natures : textuelles, numriques, codes,..
production danalyses quantitatives (nombres
occurrences) et qualitatives (analyses lexicales), des
bilans statistiques, des analyses multivaries (An.
factorielles multiples)

contexte dutilisation (inra): analyse de contenus,


(bibliomtrie) pas de gestion bibliographique

Sphinx - contexte gnral dutilisation


(2/2)

Chane type de traitement des donnes


SPHINX

Bdd bibliographiques
(Wos, Medline, ProdInra,
rfrences aux formats:
tabul, balis, annot

Import:
analyse format donnes
typage donnes
Cration de la base Sphinx
(questionnaire)
Analyse des donnes
(variables)
production de rsultats

Exploitation / diffusion des


rsultats :
rapport
export

Cartographie
(atelier 5)

Sphinx: import corpus Wos tabul


- tape 1/4: slection du fichier

slection type fichier


de donnes

contrle rapide de la structure

Sphinx: import corpus Wos tabul


- tape 2/4: gestion des sparateurs

gestion des sparateurs entre champs / notices

reprage des intituls de champs

Sphinx: import corpus Wos tabul


- tape 3/4: typage des variables

TI = type texte pour analyses lexicales

attribution des types : texte / numrique / cod / ferm /


aux diffrentes variables: dtermine les traitements possibles

Sphinx: import corpus Wos tabul


- tape 4/4: dtection / rectification derreurs
BP / EP = lettres dans une variable numrique

Enregistrement
base Sphinx
= questionnaire

dtection automatique de contenus non-conformes aux types


de variables
rectification par lutilisateur

Sphinx: import corpus Wos balis


- tape 1/5: prparation du corpus (pr-import
Sphinx)

lancer la macro word partir de Sphinx pour baliser le


corpus

Sphinx: import corpus Wos balis


- tape 2/5: prparation du corpus
(xcution de la macro word)

<balises>

Sphinx: import corpus Wos balis


- tape 3/5: validation des balises
corpus balis ou annot?

comment sont crites les balises?

Sphinx: import corpus Wos balis


- tape 4/5: fonction des intituls baliss
analyse Sphinx par dfaut

correction utilisateur

FN et VR: ne pas considrer comme balis


PT identifie une nouvelle notice

confirmer / modifier le choix automatique des balises

Sphinx: import corpus Wos balis


- tape 5/5: typage des variables

confirmer / modifier le choix automatique des balises


Procdure commune au diffrents formats dimports

Sphinx: import Pubmed / Medline


- tape 1/2: pubmed > endnote

Sphinx: import Pubmed / Medline


- tape 2/2: EndNote > Sphinx

Import de donnes externes :


Idem format tabul Wos (diapo 5)

Sphinx: analyse lexicale


- dmarche gnrale (dictionnaires thmatiques)
Index du lexique
Classs par occurrences
Ordre alphabtique
Racine
------------------------------- MCa
- MCb
- MCc
- MCd
-
-
-
-
- MCn

Slection de
mots-cls
(thmes, pays, ...)
MC thmatique 1
MC thmatique 2
MC thmatique 3

Enregistrement dans
des dictionnaires
Dictionnaire 1
Dictionnaire 2
Dictionnaire 3

Cration (recodage) de
nouvelles variables

Sphinx: analyse lexicale TI-AB-DE


- tape 1/3: fusion des variables TI+AB+DE
TI

AB

DE
Analyse lexicale

Recodage dune nouvelle variable

TI / AB / DE

intrt: analyse lexicale globale sur les contenus de TI, AB et


DE

Sphinx: fusionner des variables


- tape 1/3: fusion des variables TI+AB+DE (imp. cran)

Sphinx: analyse lexicale TI-AB-DE


- tape 2/3: recherche de termes dans lindex

Sphinx: analyse lexicale TI-AB-DE


- tape 3/3: regroupement des mots dans 1 dictionnaire
1re mthode: les termes appartenant une thmatique sont identifis
dans une liste thmatique mais restent slectionnables sparment.
Exple: tous les mots contenant water sont lists plat dans le dictionnaire water
Syntaxe du dictionnaire de regroupement:
Intrt: regrouper dans un mme tableau tous les termes dfinissant un sujet

Sphinx: analyse lexicale TI-AB-DE


- tape 3/3: ajout des mots dans 1 dictionnaire
2me mthode: tous les termes apparents sont regroups automatiquement
sous un terme gnrique.
Exple: tous les mots contenant water sont regroups sous water
Syntaxe du dictionnaire de regroupement:
#water=water*=Freshwater=groundwater=groundwaters=wastewater=water
=waterlogging=watermarks=waters=watershed=watersheds

Intrt:
Synthtiser plusieurs environnements thmatiques dans un mme tableau,
chaque domaine tant tiquet par un terme gnrique.

Sphinx: analyse lexicale C1


- reprage des noms de pays (1/2)
Index des termes de C1

Ajout des
pays

Marquage
des pays

Dictionnaire des noms de pays

Sphinx: analyse lexicale C1


- tableau des noms de pays (2/2)
Index des termes de C1

Recodage

Tableau deffectifs de
la variable pays

Sphinx: analyse lexicale C1


- agrgation des pays par zones gographiques (2/2)
Index des termes de C1

Pays par zones go.

Sphinx: tableaux croiss deffectifs


quipes

mc

ou

Cartographie
gephi
(voir atelier 5)

Sphinx: formats dexport


- (1/2) choix du format: tabul ou fiche

Sphinx: formats dexport


- (2/2) filtrer les donnes exportes

un profil est construit par slection et combinaison de modalits choisies


dans les variables