Vous êtes sur la page 1sur 13
Cahier d’exercices Classification – Niveau 1

Cahier d’exercices Classification – Niveau 1

ITESOFT - Confidentiel

ITESOFT.FreeMind Enterprise V2.5.4

Page de Référence

Référence

Nom du manuel : Cahier d’exercices Classification – Niveau 1 .

Nom du fichier : FME_N1_Classif_Exercices_FR

Description

Ce manuel contient les exercices de la formation de transfert de compétences de la classification niveau 1 de ITESOFT.FreeMind Enterprise. Il est constitué d'une série d'exercices, suivis de leurs corrections. Ces dernières pouvant être masquées selon les options d'impression.

Contexte

Produit : ITESOFT.FreeMind Enterprise, version 2.5.4.

Documentation associée

Plan de formation du transfert de compétences (FME_Training_Plans_FR.doc)

Diaporama du support de cours (FME_N1_Classif_Presentation_FR.pptm)

Manuel utilisateur de production (ManUti

Manuel d'optimisation FME (ManUtiFMEOptim_FR.pdf)

Toolkit FreeMind (Itesoft FreeMind Toolkit.chm)

Toolkit FME (FME.chm)

Manuel utilisateur FreeLearn (ManUtiFreeLearn_FR.pdf)

Auteur

Frédéric Allin, ITESOFT

ITESOFT - Confidentiel

ITESOFT.FreeMind Enterprise V2.5.4

ITESOFT - Confidentiel

Table des matières

ITESOFT.FreeMind Enterprise V2.5.4

1. Terminologie

5

2. Exercices

6

2.1. Analyse préalable du projet

6

2.2. Importer les échantillons d'exemple fournis

6

2.3. Apprendre les échantillons d'apprentissage

8

2.4. Simuler la classification du jeu d'apprentissage

8

2.5. Paramétrer la troisième technologie de classification : FreeText

9

2.6. Valider l'apprentissage sur des échantillons "non appris"

11

2.7. Mettre la base de connaissance en production

11

2.8. Tester un lot de recette dans le flux de production

12

2.9. Mettre à jour la base de connaissance

13

2.10. (Optionnel) utiliser FreeText pour améliorer la reconnaissance des certificats de scolarité

13

ITESOFT - Confidentiel

1. Terminologie

ITESOFT.FreeMind Enterprise V2.5.4

Lecture Automatique de Document (LAD) : technologie traditionnelle d'extraction de champs (index) par modèle.

Modèle, Modèle de lecture, Modèle LAD : masque d'extraction des champs (index) par positions géographique fixes (zones rectangles).

(Lecture) Full-Text : Extraction (par OCR) brute de la totalité des mots d'un document.

(Extraction) Full-Text : Technologie d'extraction non contrainte des champs (index). Le moteur Full-Text recherche, dans un résultat de lecture Full-Text, des mots ou expressions remplissant des critères pré-définis (distance et direction par rapport à un ou plusieurs mot- clés, format).

Video-codage : action utilisateur de validation et correction des champs (types de document ou index).

Masque de video-codage, masque de validation : interface de saisie des champs, composée généralement d'une fenêtre image, d'un arbre de composition de l'entité en cours, d'un formulaire de saisie des champs.

ITESOFT - Confidentiel

2. Exercices

ITESOFT.FreeMind Enterprise V2.5.4

Pré-requis stagiaire : formation "Présentation Fonctionnelle"

Pré-requis technique : La plate-forme FME installée, sans base de connaissance.

2.1. Analyse préalable du projet

1. Analysez les spécifications et les images d'exemple fournis.

5 formulaires (seuls les 2 premiers seront traités dans le module de formation N1. Les autres seront traités dans le module N2), suivis de 1 à 2 PJ.

Type Lot

Type Pli

Doc maître

PJ1

PJ2

Demandes

DA Energie

Imprimé Aide (IA) Energie

Avis Impôt (AI)

Justif frais

d'aide

(facture GDF

 

ou EDF)

 

DA Scolarité

IA Scolarité

Certif. Scolarité

 
 

     

2. Questions à se poser :

- "Vaut-il mieux une seule classe de doc IA ou une par type d'IA ?"

- "Vaut-il mieux une seule classe de pli DA ou une par type de DA ?"

Une seule classe :

Avantages : 1 seul pli à déclarer, possibilité de factoriser

Inconvénients : règle de construction de pli, affichage indifférencié

Un pli par type d'aide :

Avantages : permet des règles de composition plus stricte (ex : formulaire obligatoire en 1 er position, Avis d'Impôt en 2 e …)

Inconvénients : répéter le paramétrage pour chaque type d'aide

>> Décision dépend du besoin client ! (fichier à fournir en sortie, habitudes de travail …)

2.2. Importer les échantillons d'exemple fournis

Préparation des échantillons (fournis).1.

1.

Lancez Studio depuis ClassManage.2.

2.

Créez un catalogue (par exemple : "FMECatalog").

Explorez/Découvrez les différents écrans.

ITESOFT - Confidentiel

ITESOFT.FreeMind Enterprise V2.5.4

3. Dans l'étape Traitement, désactivez la binarisation et créez un nouveau profil de traitement ("FMEClassif -no binarize").

profil de traitement ("FMEClassif -no binarize"). Partir du profil FME Classification pour créer le nouveau

Partir du profil FME Classification pour créer le nouveau profil.

4. Importez les échantillons depuis les répertoires fournis :

Ajoutez le répertoire source "N1 Classif\1-Apprentissage". Il contient un sous-répertoire par famille.

Les images ont été scannées recto/verso.

Chaque document est constitué de 2 pages (paramètre Nombre fixe de fichiers = 2).

Source : %NomFamille%\%NomEchantillon%

Renommage : %NomFamille%_%NomEchantillon%_%Sequence%

Appliquez le profil de traitement créé précédemment.

Sélectionnez toutes les images (CTRL+A)

Lancez l'import (178 fichiers/89 documents ; environ 5mn).

l'import (178 fichiers/89 documents ; environ 5mn). 5. Dans l'étape Organisation , vérifiez les

5. Dans l'étape Organisation, vérifiez les échantillons importés.

Utilisez l'explorateur de métadonnées pour créer des regroupements par famille et vérifiez sur quelques échantillons que l'étiquetage (nom de la famille) et le contenu (2 pages) sont corrects.

Explorez les autres fonctionnalités de cet onglet (filtre, tri, grille, affichage du résultat de lecture, "fil d'Ariane"…).

6. Créez les classes de documents à partir des étiquettes de familles.

Menu Outils :

à partir des étiquettes de familles.  Menu Outils :    Vérifiez la création des
   Vérifiez la création des classes de documents dans ClassManage .
 

Vérifiez la création des classes de documents dans ClassManage.

Définissez les IA comme séparateurs de plis (propriétés des classes de documents).

7. Etape Traitement : les traitements ont déjà été appliqués à l'import en utilisant le

7.

Etape Traitement : les traitements ont déjà été appliqués à l'import en utilisant le profil.

ITESOFT - Confidentiel

ITESOFT.FreeMind Enterprise V2.5.4

ITESOFT - Confidentiel ITESOFT.FreeMind Enterprise V2.5.4 Pas d'historique des traitements : il n'est pas

Pas d'historique des traitements : il n'est pas possible de savoir a posteriori quels traitements ont été appliqués sur un échantillon. Le 2 e bouton permet de les appliquer seulement sur les échantillons de la sélection sur lesquels ils n'ont pas encore été appliqués.

8. Lancez le contrôle qualité sur tous les échantillons .

Classes IAEnergie et IAScolarité semblables (ok, seront séparées par FreeText).

Un échantillon (Avis Impôt) était dans le mauvais répertoire (Fac-Energie) : corrigez son étiquetage (Type d’analyse "Diagnostic", Panneau "Outils", l’avertissement peut ensuite être effacé).

l’avertissement peut ensuite être effacé). Différence entre "contrôle qualité" et

Différence entre "contrôle qualité" et "FreeText Mining" :

Contrôle qualité : faire une qualification du référentiel d’échantillons. Le système va proposer une organisation (sans tenir compte des familles d'appartenance) qui sera comparée avec l’organisation des familles initiales. Objectif : détecter des erreurs d'étiquetage, détecter des familles semblables.

Text mining : rechercher une "signature" caractérisant chaque famille. Le système va tenir compte des familles d’appartenance pour l’analyse statistique. Objectif : être capable d'identifier un nouveau document en comparant sa signature aux signatures connues.

9. Etape Export : permet d'exporter des échantillons (sauvegarde, transfert…).

d'exporter des échantillons (sauvegarde, transfert…). 2.3. Apprendre les échantillons d'apprentissage 1.

2.3. Apprendre les échantillons d'apprentissage

1. Classification|Librairie

Alimentez le jeu d'apprentissage des librairies FreeShape et FreeText Mining avec les échantillons importés. (98 échantillons importés, en fait 2 x 49 dont 80 partiellement=ils avaient une page blanche qui n'a pas été importée.)

Apprenez les librairies Shape+TMI.

2. Classification|Stratégie

Etudiez la stratégie standard, sans la modifier.

Utilisez la stratégie standard pour mettre à jour la stratégie de la classe de lots : "Lot par défaut".

2.4. Simuler la classification du jeu d'apprentissage

1. Lancez la simulation sur tous les échantillons avec la stratégie standard .

ITESOFT - Confidentiel

ITESOFT - Confidentiel ITESOFT.FreeMind Enterprise V2.5.4 2. Analysez les résultats et retrouvez la raison des

ITESOFT.FreeMind Enterprise V2.5.4

2. Analysez les résultats et retrouvez la raison des hésitations (Onglet "Détails", regroupement par statut).

Vue de synthèse globale

Score par famille : Nombreuses hésitations et confusions sur les IAEnergie et IAScol (normal, ils sont identiques !).

Alertes : les objectifs sont définis dans les propriétés de chaque classe (onglet Apprentissage).

Niveau de vote : "Pourcentage de réponses" (répartition des candidats trouvés selon les 3 niveaux de la stratégie : Shape, Text et Text Mining)

les 3 niveaux de la stratégie : Shape, Text et Text Mining) Aucun résultat de classification

Aucun résultat de classification de page car les pages des échantillons ne sont pas étiquetées.

Vue "Classification des documents" (Filtre par famille possible)

Graphique

Détail : regroupez ou filtrez par ét confusion)

at (4 possibles :réussite, hésitation, inconnu,

Hésitations entre les IA Energie et les IA Scolarité (ces hésitations avaient été détectées par le contrôle qualité). Les deux types de formulaires ne pourront être distingués qu'en utilisant la troisième technologie qui recherche des groupes de mots dans des zones géographiques restreintes : FreeText.

2.5. Paramétrer la troisième technologie de classification : FreeText

la troisième technologie de classification : FreeText 1. Alimentez la librairie FreeText avec les échantillons

1. Alimentez la librairie FreeText avec les échantillons d'apprentissage.

2. Ouvrez la librairie.

3. Dans l'outil FreeLearn, supprimez les classes techniques autres que IAEnergie et IAScol (les échantillons sont déplacés dans la corbeille. Si vous les supprimez de la corbeille, une boite de dialogue vous demande si vous souhaitez les supprimer également du catalogue).

Vous auriez également pu filtrer le jeu d'apprentissage pour n'alimenter la librairie qu'avec les échantillons IAEnergie et IAScol.si vous souhaitez les supprimer également du catalogue). 4. Configurez les classes IAEnergie et IAScol. 

4. Configurez les classes IAEnergie et IAScol.

Sur les premières pages, ajoutez une zone de recherche du titre du document.

Parcourez les échantillons pour vérifier que le titre est toujours dans la zone de recherche.

que le titre est toujours dans la zone de recherche. Il est possible de ne définir

Il est possible de ne définir qu'une seule fois la zone de recherche et d'y faire référence avec une expression booléenne. Néanmoins, il est recommandé de re-créer la zone pour chaque classe car cela facilite la compréhension visuelle du paramétrage.

ITESOFT - Confidentiel

ITESOFT.FreeMind Enterprise V2.5.4

ITESOFT - Confidentiel ITESOFT.FreeMind Enterprise V2.5.4 Si vous parcourez les images de l'élément, vous

Si vous parcourez les images de l'élément, vous constatez, dans le volet de visualisation, que le mot recherché s'affiche en surbrillance sur l'image. C'est une recherche simplifiée qui n'est pas l'exact reflet du résultat complet d'extraction. Par exemple cette recherche simplifiée ne retient que les mots qui correspondent à 100%, sans tenir compte du taux de confiance. Cette recherche simplifiée ne doit être utilisée que comme une indication. Seule l'exécution d'un test fera appel au réel moteur d'extraction.

Fusionnez les deuxièmes pages car elles ne peuvent pas être distinguées.

pages car elles ne peuvent pas être distinguées. Bien que les deuxièmes pages ne contiennent pas

Bien que les deuxièmes pages ne contiennent pas d'informations utiles à l'exploitation, paramétrer leur classification a deux avantages :

- Renforcer la classification du document en "s'ajoutant" à la classification des premières pages.

- Faciliter la structuration en délimitant la fin du document.

Sur les deuxièmes pages, ajoutez une zone de recherche sur le texte "Comment remplir votre demande".

Apprenez la librairie puis testez le jeu d'apprentissage dans FreeLearn (Diagramme|Taux de réussite par classe ou Détail|Regrouper par classe = 100% de réussite pour les IA).

Dans Studio, re-lancez une simulation sur le jeu d'apprentissage complet .par classe = 100% de réussite pour les IA). 5. 6.  Il reste des hésitations

5.

6.

Il reste des hésitations et des confusions . Pourquoi ? Analysez les résultats. Les IA Energie et les IA Scolarité ne peuvent pas être séparées par les technologies FreeShape et FreeText Mining

Pour ces deux librairies, fusionnez les classes et renommez-les.

Dans FreeLearn Shape, sélectionnez la 1 è r e page IAScol, puis choisissez Fusionner avec… dans le menu contextuel. ère page IAScol, puis choisissez Fusionner avec… dans le menu contextuel.

Dans la liste affichée, choisissez la 1 ère page IAEnergie et fusionnez.

Renommez en IAide_R dans les propriétés de la classe.

Répétez ces opérations pour les 2 ièmes pages et renommez en IAide_V.

Refaites l’apprentissage et lancez le test.

Dans FreeLearn TextMining, fusionnez les classes techniques IAEnergie et IAScol et renommez la classe qui en résulte en IAide.en IAide_V. Refaites l’apprentissage et lancez le test.   Refaites également l’apprentissage et lancez le

Refaites également l’apprentissage et lancez le test.

 Refaites également l’apprentissage et lancez le test. Dans FreeText Mining, vous pouvez séparer les factures

Dans FreeText Mining, vous pouvez séparer les factures EDF et GDF en deux éléments distincts. Cela permet de rendre l'apprentissage plus spécifique donc plus robuste. (Dans FreeShape cela est fait automatiquement par l'apprentissage.)

Par contre, elles ne doivent pas être scindées en deux familles (ni dans FreeText Mining, ni dans FreeShape), sauf si un traitement d'extraction spécifique à chacune était requis.

ITESOFT - Confidentiel

ITESOFT.FreeMind Enterprise V2.5.4

2.6. Valider l'apprentissage sur des échantillons "non appris"

1. Créez une collection "Apprentissage" qui regroupe tous les échantillons utilisés pour l'apprentissage.

Vous pouvez aussi utiliser les couleurs pour distinguer certains échantillons (exemple : utilisez le vert pour marquer les échantillons d'apprentissage).tous les échantillons utilisés pour l'apprentissage. Il n'existe pas de lien formel entre la collection

Il n'existe pas de lien formel entre la collection "Apprentissage" et "jeu d'apprentissage"

dans les librairies FreeLearn. Il n'est pas possible de synchroniser un jeu d'apprentissage FreeLearn avec une collection Studio."Apprentissage" et "jeu d'apprentissage" 2. Importez les échantillons depuis les répertoires

2. Importez les échantillons depuis les répertoires fournis :

Ajoutez le répertoire source "Classif N1\2-Validation". Il contient un sous-répertoire par famille (184 échantillons recto/verso de 2 pages).

3. Créez une collection appelée "Validation" qui regroupe tous les échantillons "non appris".

4. Lancez la simulation sur les échantillons de validation .

Lancez la simulation sur les échantillons de validation .  Hésitations. L'un des échantillons IAScol avait

Hésitations. L'un des échantillons IAScol avait été mal étiqueté. Corrigez son nom de famille (clic droit "Aller à l'échantillon" => il est sélectionné dans l'étape Organisation).

Inconnus. Documents trop différents de ceux appris.

Constatez la robustesse de l'apprentissage FreeText Mining : malgré la forte variabilité, presque tous les avis d'impôt sont reconnus.

2.7. Mettre la base de connaissance en production

reconnus. 2.7. Mettre la base de connaissance en production 1. Dans ClassManage, créez deux classes de

1. Dans ClassManage, créez deux classes de plis : DAEnergie et DAScol (cochez "répertoire de sortie").

2. Liez ces classes de plis à leurs classes de documents correspondantes. Reliez-les également à la classe "Pièce jointes" (sans contrainte).

à la classe "Pièce jointes" (sans contrainte). Cahier d’exercices Classification – Niveau 1 - v.

ITESOFT - Confidentiel

ITESOFT.FreeMind Enterprise V2.5.4

ITESOFT - Confidentiel ITESOFT.FreeMind Enterprise V2.5.4 3. Liez ces classes de plis à la classe de

3. Liez ces classes de plis à la classe de lots par défaut (sans contrainte, multi-selection possible). Retirez la classe de pli par défaut de la classe de lots par défaut.

4. Mettre en production toutes les classes + les librairies FreeLearn (Menu contextuel de la classe de lot-> Envoyer en production…).

de la classe de lot-> Envoyer en production…). 2.8. Tester un lot de recette dans le

2.8. Tester un lot de recette dans le flux de production

1. Placez les images dans le répertoire E.CAPF (\N1 Classif\3-Recette).

2. Capturez le lot depuis le module Launch (Capture Scanner, options par défaut).

3. Analysez les résultats en videocodage (WebCheck-Classification manuelle).

Comparer les images présentées avec les images d'origine (pages blanches supprimées, rotation des images, Avis d'impôt A3 réduit en A4 reconnu, AI 2010 reconnu bien que non appris).

Un avis d'imposition non requis dans un pli DAscol : supprimez ou classifiez comme pièce jointe.

Deux document "Certificat de scolarité" non reconnu : non conforme avec le jeu d'apprentissage des nouveaux échantillons d'apprentissage sont nécessaires.

Après avoir corrigé les erreurs, vérifiez les fichiers d'export produits par défaut dans le répertoire \sle\exchange\Output\Export\SI (1 multi-tif/doc + 1 XML/pli).

ITESOFT - Confidentiel

2.9. Mettre à jour la base de connaissance

ITESOFT.FreeMind Enterprise V2.5.4

1. Importez les nouveaux échantillons (Classif N1\4-Complément d'apprentissage ; 49 échantillons d'1 page = recto seul).

; 49 échantillons d' 1 page = recto seul ). 2. Quelle technologie est la plus
; 49 échantillons d' 1 page = recto seul ). 2. Quelle technologie est la plus

2. Quelle technologie est la plus pertinente sur ce type de documents ?

3. Dupliquez la librairie déjà en production ("Enregistrer sous").

4. Alimentez la nouvelle librairie avec le jeu d'apprentissage qui contient les nouveaux échantillons CS.

5. Faites l'apprentissage. Depuis FreeLearn, lancez un test sur le jeu d'apprentissage. Un échantillon non reconnu, pourquoi ? (Utilisez la vue "Détail". Comparez avec les propriétés de la librairie).

Exclure l'échantillon.

de la librairie).  Exclure l'échantillon. Différence entre "échantillons exclus" et "jeu

Différence entre "échantillons exclus" et "jeu d'exclusion" :

- les échantillons exclus appartiennent à une famille à classifier mais ne sont pas pertinents pour l'apprentissage (trop différents, trop singuliers)

- les échantillons du jeu d'exclusion représentent des documents qui peuvent se rencontrer

dans le flux, mais que l’on ne souhaite pas classifier automatiquement car ce sont des familles très peu fréquentes (faible pourcentage du flux entrant).

6. Dans Studio, créez une nouvelle stratégie de classification basée sur l'existante. Dans cette nouvelle stratégie, au niveau Pages et Documents, remplacez la librairie FTM.

7. Lancez une simulation en utilisant cette nouvelle stratégie sur tous les nouveaux Certificats de scolarité (49 échantillons - 30s). Il y a plus d'échantillons "inconnus" que lors du test dans FreeLearn, pourquoi ?

8. Mettez en production la nouvelle librairie et mettez à jour la classe de lots avec la nouvelle stratégie.

9. Refaites un test sur le lot de recette.

2.10. (Optionnel) utiliser FreeText pour améliorer la reconnaissance des certificats de scolarité