Académique Documents
Professionnel Documents
Culture Documents
La tokenization est une tâche très courante en linguistique, celle-ci consiste à segmenter des
textes en unités plus petites. Par exemple une phrase est "tokenizée" en mots ou un
paragraphe est tokenizé en phrase. Le découpage le plus courant est celui dans lequel les
unités de base sont des tokens (mots, chiffres ou ponctuations) et pour un même texte il existe
plusieurs tokenizations possibles.
Une tokenisation possible de la phrase suivante : "La science des données est l'extraction de
connaissances." sera alors : ['la', 'science', 'des', 'données', 'est', 'l'extraction', 'de',
'connaissances'].