La Tokenization

Transféré par

0% ont trouvé ce document utile (0 vote)

2 vues1 page

Titre original

Untitled

Copyright

Formats disponibles

DOCX, PDF, TXT ou lisez en ligne sur Scribd

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Signaler ce document

Droits d'auteur :

Formats disponibles

Téléchargez comme DOCX, PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

0% ont trouvé ce document utile (0 vote)

2 vues1 page

La Tokenization

Transféré par

Droits d'auteur :

Formats disponibles

Téléchargez comme DOCX, PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

Passer à la page

Vous êtes sur la page 1sur 1

Rechercher à l'intérieur du document

La tokenization

La tokenization est une tâche très courante en linguistique, celle-ci consiste à segmenter des
textes en unités plus petites. Par exemple une phrase est "tokenizée" en mots ou un
paragraphe est tokenizé en phrase. Le découpage le plus courant est celui dans lequel les
unités de base sont des tokens (mots, chiffres ou ponctuations) et pour un même texte il existe
plusieurs tokenizations possibles.

Une tokenisation possible de la phrase suivante : "La science des données est l'extraction de
connaissances." sera alors : ['la', 'science', 'des', 'données', 'est', 'l'extraction', 'de',
'connaissances'].

Le package Scikit-learn et la boîte-à-outil : Natural Language Toolkit (NLTK) sont deux

bibliothèques qui vont permettre de créer des programmes pour l'analyse de texte.

 Assigner à la variable txt le célèbre couplet de Molière suivant :

Vous aimerez peut-être aussi

Cours Du Langage XML
Document40 pages
Cours Du Langage XML
Yacine Beggar
Pas encore d'évaluation
LE TEXTE INFORMATIF (Mode de Compatibilité)
Document15 pages
LE TEXTE INFORMATIF (Mode de Compatibilité)
Mohamed Ben taleb
Pas encore d'évaluation
Chapitre 1
Document39 pages
Chapitre 1
saad
Pas encore d'évaluation
2005-I-Pierra Base de Donnee À Base Ontologique PDF
Document26 pages
2005-I-Pierra Base de Donnee À Base Ontologique PDF
kouaho n'guessan narcisse TEHIA
Pas encore d'évaluation
TP - Latex - PDF Version 1
Document28 pages
TP - Latex - PDF Version 1
jdjjdj
Pas encore d'évaluation
Digital Huamnities Synthesis
Document3 pages
Digital Huamnities Synthesis
SALAH DIN EL HASNAOUI
Pas encore d'évaluation
TP 01
Document2 pages
TP 01
amal fathi
Pas encore d'évaluation
Cours 2
Document46 pages
Cours 2
j4tw7bnzdc
Pas encore d'évaluation
Programmation XML-FR
Document47 pages
Programmation XML-FR
eric toure
Pas encore d'évaluation
Cours de BD ESIS 2008-2009 PDF
Document70 pages
Cours de BD ESIS 2008-2009 PDF
Josué Képhas
100% (1)
Localisation Et TAL2
Document51 pages
Localisation Et TAL2
MohammedBelkacem
Pas encore d'évaluation
DITACampus XML
Document51 pages
DITACampus XML
Patrick Peccatte
Pas encore d'évaluation
Cours 2 MSP Notes de Cours
Document9 pages
Cours 2 MSP Notes de Cours
f
Pas encore d'évaluation
Memoire M2 TALN
Document129 pages
Memoire M2 TALN
WU
Pas encore d'évaluation
CRS Rech-Doc 2020 SMP6
Document110 pages
CRS Rech-Doc 2020 SMP6
Hamza Hachim
Pas encore d'évaluation
B.Meles-Methode Commentaire Texte
Document9 pages
B.Meles-Methode Commentaire Texte
Anjaranomenjanahary Sombiniaina Jasara Andry
Pas encore d'évaluation
Presentation Atelier 2020
Document108 pages
Presentation Atelier 2020
محمد ه
Pas encore d'évaluation
Efs - S1 - Poo - 2018-2019
Document1 page
Efs - S1 - Poo - 2018-2019
Fifi Fifita
Pas encore d'évaluation
Tour D'horizon Avec C++
Document99 pages
Tour D'horizon Avec C++
AMINA
Pas encore d'évaluation
Chapitre VIII-NLP
Document24 pages
Chapitre VIII-NLP
hela ben hnia
Pas encore d'évaluation
Capacité de Stockage Sur Un DVD
Document64 pages
Capacité de Stockage Sur Un DVD
Anonymous Wpl47Bwu4
Pas encore d'évaluation
Tal Messiant
Document33 pages
Tal Messiant
Tarek daymi
Pas encore d'évaluation
Document A Afficher1
Document4 pages
Document A Afficher1
Dig-info Book
Pas encore d'évaluation
Chap 1
Document4 pages
Chap 1
melyssa
Pas encore d'évaluation
Ontologieetrdf 161128174841
Document23 pages
Ontologieetrdf 161128174841
Boumaaza Farid
Pas encore d'évaluation
Série 1-RI-ISIL
Document4 pages
Série 1-RI-ISIL
jaik Duhamel
100% (1)
Chapitre 10 SGBD Réseau - Codasyl: Useword 6.0C or Later T O
Document25 pages
Chapitre 10 SGBD Réseau - Codasyl: Useword 6.0C or Later T O
Roi du Silence
Pas encore d'évaluation
Les Flux D'entrée-Sortie
Document33 pages
Les Flux D'entrée-Sortie
Anonymous CZVjyUz
Pas encore d'évaluation
Download
Document11 pages
Download
loulou katty
Pas encore d'évaluation
TP 1
Document6 pages
TP 1
KENFACK MARC
100% (1)
Fiche-Outil Texte-Exemple Traitement de Linfo
Document3 pages
Fiche-Outil Texte-Exemple Traitement de Linfo
Najlae ÉžegHari
Pas encore d'évaluation
Python Pour La Data Science - Les Bases Du Langage - Le Data Scientist
Document12 pages
Python Pour La Data Science - Les Bases Du Langage - Le Data Scientist
Olfa Souki Ep Chebil
Pas encore d'évaluation
FR Tanagra Text Mining
Document28 pages
FR Tanagra Text Mining
hadrouga bchr
Pas encore d'évaluation
Introduction XML
Document9 pages
Introduction XML
ayoubkh
Pas encore d'évaluation
Newsletter #02
Document2 pages
Newsletter #02
benoi
Pas encore d'évaluation
Cours Fouille de Données Textuelle
Document5 pages
Cours Fouille de Données Textuelle
mustapha
Pas encore d'évaluation
Fichier Et Dossiers
Document2 pages
Fichier Et Dossiers
abderrahim zouheir
Pas encore d'évaluation
Recherche Documentaire
Document8 pages
Recherche Documentaire
Mostafa Bounab
Pas encore d'évaluation
XML Deye2019
Document158 pages
XML Deye2019
Lamine Dieng
Pas encore d'évaluation
Corela 560
Document28 pages
Corela 560
Emmanuel Roche-Pitard
Pas encore d'évaluation
Cours XML Srt4
Document26 pages
Cours XML Srt4
Guy Fandio
Pas encore d'évaluation
Linginfo Panckhurst Mela
Document9 pages
Linginfo Panckhurst Mela
majda.tifoura
Pas encore d'évaluation
Modélisation de Base NoSQL
Document31 pages
Modélisation de Base NoSQL
Karl Becker
Pas encore d'évaluation
TP1 Latex
Document7 pages
TP1 Latex
Abdou
Pas encore d'évaluation
Cours Structuration D'un Document XML
Document10 pages
Cours Structuration D'un Document XML
Nogaye Seck
Pas encore d'évaluation
Intranet Extranet
Document7 pages
Intranet Extranet
billmika
Pas encore d'évaluation
1 R Doc 2024 SMP 6
Document108 pages
1 R Doc 2024 SMP 6
ikramtamim27
Pas encore d'évaluation
TP 2, C: F: Ichiers
Document1 page
TP 2, C: F: Ichiers
Yassmina
Pas encore d'évaluation
Introduction À La Gestion de Fichiers
Document13 pages
Introduction À La Gestion de Fichiers
Fathi CH
100% (1)
s1 XML td1 Cor
Document2 pages
s1 XML td1 Cor
Sadik Youssouf
Pas encore d'évaluation
Traitement Automatique Des Langages Naturels: March 2015
Document19 pages
Traitement Automatique Des Langages Naturels: March 2015
Samer Zaouam
Pas encore d'évaluation
Moteur Recherche
Document78 pages
Moteur Recherche
Albert Malang
Pas encore d'évaluation
Formation Logos Guide Dutilisation
Document37 pages
Formation Logos Guide Dutilisation
Cristóbal Álvarez Rodríguez
Pas encore d'évaluation
Recherche D'information - L'indexation - Bases de Données Documentaires Et Distribuées V - Release - Cours CNAM NFE204
Document11 pages
Recherche D'information - L'indexation - Bases de Données Documentaires Et Distribuées V - Release - Cours CNAM NFE204
Ferdaws BNasr BSalah
Pas encore d'évaluation
Guillot Al Rsl11 v3
Document23 pages
Guillot Al Rsl11 v3
brahimi amina
Pas encore d'évaluation
Et Édition
Document27 pages
Et Édition
Julie Demeyer
Pas encore d'évaluation
Gestion Du Corpus
Document8 pages
Gestion Du Corpus
Roxana Roxanne
Pas encore d'évaluation
Ao 1
Document34 pages
Ao 1
Amdias Ayibroubou
Pas encore d'évaluation
Lecture Et Écriture Dans Un Fichier XML Avec XPath
Document14 pages
Lecture Et Écriture Dans Un Fichier XML Avec XPath
samihchreif
Pas encore d'évaluation
Indexation: Les Grands Articles d'Universalis
D'Everand
Indexation: Les Grands Articles d'Universalis
Encyclopaedia Universalis
Pas encore d'évaluation