Académique Documents
Professionnel Documents
Culture Documents
Smart CV Parser
Sujet
Traitement Automatique des CVs
et extraction des données structurés a la base des fichiers non structurés
En utilisant des algorithmes de IA
Réalisé par
BENZAOUI Ayoub
Au sein de
AFRIKAWORK
fournisseur de services de recrutement spécialisé dans la recherche des compétences et
talents en Afrique
Commencé le :
18Août2019
SMART CV PARSE – AFRICAWORK [ 2019 ]
Sommaire
Sommaire...................................................................................................................................................... 2
Liste de figures ............................................................................................................................................. 3
Introduction générale .................................................................................................................................... 4
Présentation générale duprojet...................................................................................................................... 5
Historique ..................................................................................................................................................... 6
Limitations.................................................................................................................................................... 6
1) Extraction de texte ........................................................................................................................ 6
2) Extraction d'information ............................................................................................................... 9
Solutions ..................................................................................................................................................... 10
1) Extraction de texte ...................................................................................................................... 10
2) Extraction de l'information ......................................................................................................... 10
Liste de figures
Introduction générale
Le nombre des inscriptions sur le site emploi.ma augmente jour après jour, pour pouvoir
garder cette courbe croissante, le site doit être à la hauteur des expectations et doit suivre les
dernières solutions techniques.
Dans ce cadre, et pour faciliter le processus d’inscription des
candidats le Parsing de CV est une solutions inévitable.
Il s’agit pas d’un problème simple de l’extraction de données à l’aide des règles à
appliquer l’ors de parcours des CV , c'est vraiment trop loin de ca . Et on verra en détails par la
suite pourquoi .
Une mauvaise nouvelle c’est que l’un des problèmes «difficiles à résoudre» dans tout le
domaine de e-recrutement est celui de l’analyse de CV, qui, s’il est résolu avec précision, va
permettrait aux recruteurs de gagner beaucoup de temps en exécutant la tâche répétitive et
fastidieuse de filtrage manuel des CV . La bonne nouvelle c’est qu’on est pas les seules ,en effet
peut de société qui arrive à développer leur propremécanisme de traitement des CV, après on
peut même vendre le service de Smart Parsing au autres concurrents et profiter aussi de ces
donnés pour renforcer nos algorithmes.
L'intelligence artificielle nous a aidés à résoudre des problèmes qui étaient auparavant
considérés comme insolubles ou trop coûteux en calcul dans notre cas l’utilisation de plusieurs
aspects de l’intelligence artificielle est inévitable ,d’ailleurs c’est la seule solutions qu’on a pour
un vrai Smart Parseur, et on verra quelques autres solutions et ses limitations dans des
prochaines chapitres.
===
CHAPITRE I
Historique
D’ailleurs après ces limitation l’idée est changé vers python pour faire le même
traitement en utilisant des expressions régulières mais en profitant cette fois ci de ses biblio-
thèques .
Limitations
1) Extraction de texte
J’ai exploré plusieurs bibliothèques pour extraire du texte à partir de documents de type
pdf, doc, docx, etc. comme le fameux Apache Tika, mais aucune d’entre elles n’a pu fournir la
qualité des résultats que nous voulions atteindre. Il est devenu évident que l'extraction de texte ne
pouvait être résolue par un seul type d'algorithme.
CV Simple CV Complexe
PDF,doc,docx
TXT -----------------------------------------------
2) Extraction d'information
Suivre le vocabulaire utilisé dans les CV est un grand défi . Un CV est composé de noms
de sociétés, d’institutions, de diplômes, etc. pouvant être écrits de différentes manières.
Pour par exemple. Africawork -- Afrikawork.com -- Africawork Maroc - Ces mots font
référence à la même entreprise mais seront traités comme des mots différents par une
machine. De plus, chaque jour de nouvelles entreprises et de nouveaux noms d’instituts
apparaissent, il est donc pratiquement impossible de maintenir le vocabulaire du logiciel à jour.
Même si, d'une manière ou d'une autre, nous parvenons à maintenir le vocabulaire, il est
impossible d'expliquer différentes significations du même mot.
Ex :
Travaille actuellement en tant que Data Scientist chez Africawork
AFRICAWORK MAROC est une société leader dans le domaine du recrutement en ligne
Dans la première , «Africawork» sera considéré comme une entreprise car il s'agit de
travailler là-bas.
Mais ce dernier ne nous parle pas de l'expérience d'une personne, donc «Africawork»
devrait être considéré comme un mot normal et non comme une entreprise. Il est évident que le
même mot peut avoir différentes significations, en fonction de son utilisation .
Solutions
1) Extraction de texte
Les CVs qui peuvent sembler indiscernables à l'œil humain sont traités différemment par
l'ordinateur. Cela crée la possibilité de centaines de milliers de modèles dans lesquels les CV
sont écrits dans le monde entier. Tous les modèles ne sont pas faciles à lire.
par exemple. On peut trouver des tableaux, des graphiques, des colonnes dans un CV, et
chacune de ces entités doit être lue de manière différente. Par conséquent, il est facile de
conclure que les analyseurs basés sur des règles (RegEX ou matching avec notre base
d'organisations et entreprises ...) n'ont aucune chance de donner des bons résultats et qu'un
algorithme intelligent est nécessaire pour extraire le texte de manière significative à partir de
documents bruts (pdf, doc, docx, etc.).
Mon idée c'est de développer un système de classification des CVs basé sur leur template
Et traiter chaque modèle différemment des autres ,certains types sont simples, mais la plupart
d’entre eux (comme le cas de cv en haut.) nécessitaient une intelligence vraiment de haut niveau.
NB : par rapport a ces deux technologies (OCR et NLP)je cherche encore pour bien
comprendre comment les utiliser ,et si l'open source propose des solutions qu'on peux profiter ...
2) Extraction de l'information