Vous êtes sur la page 1sur 1

La tokenization

La tokenization est une tâche très courante en linguistique, celle-ci consiste à segmenter des
textes en unités plus petites. Par exemple une phrase est "tokenizée" en mots ou un
paragraphe est tokenizé en phrase. Le découpage le plus courant est celui dans lequel les
unités de base sont des tokens (mots, chiffres ou ponctuations) et pour un même texte il existe
plusieurs tokenizations possibles.

Une tokenisation possible de la phrase suivante : "La science des données est l'extraction de
connaissances." sera alors : ['la', 'science', 'des', 'données', 'est', 'l'extraction', 'de',
'connaissances'].

Le package Scikit-learn et la boîte-à-outil : Natural Language Toolkit (NLTK) sont deux


bibliothèques qui vont permettre de créer des programmes pour l'analyse de texte.

 Assigner à la variable txt le célèbre couplet de Molière suivant :

Vous aimerez peut-être aussi