Vous êtes sur la page 1sur 4

Ressources pour l’analyse de données textuelles – Frédéric Pierron https://www.fredericpierron.com/ressources-pour-lanalyse-de-donnees-te...

Frédéric Pierron
(https://www.fredericpierron.com/)
Innovations & créations digitales

Ressources ▾
Podcast Chatbot-Stratégie (https://www.diolag.ai/podcast-chabot-
strategie/)

Blog ▾
Contact (https://www.fredericpierron.com/pour-me-contacter/)

Ressources pour l’analyse


de données textuelles
Cette page recense des ressources pour l’analyse de données
textuelles, des informations sur le big data, des études menées en ce
sens, sur des marques, des VIP ou des institutions.

Outils logiciels
R.TeMiS [R Text Mining Solution] est un environnement graphique de
travail sous R permettant de créer, manipuler et analyser des corpus
de textes. Il a été conçu pour limiter les effets de « boîte noire »,
souvent inhérents aux logiciels de statistique lexicale, et favoriser la
réflexivité dans l’usage sociologique des données
textuelles. http://rtemis.hypotheses.org (http://rtemis.hypotheses.org)

Hyperbase [10.0-2015]
Hyperbase permet de réaliser des bases hypertextuelles et des
traitements statistiques à partir des textes qui lui sont fournis – bruts,
lemmatisés ou étiquetés : navigation plein texte, index sélectifs ou
systématiques, dictionnaires fréquentiels, concordances, sélection de
contextes élargis, calcul de spécificités, richesse lexicale,
cooccurrences, distances intertextuelles, … http://logometrie.unice.fr

1 sur 5 06/01/2022, 17:25


Ressources pour l’analyse de données textuelles – Frédéric Pierron https://www.fredericpierron.com/ressources-pour-lanalyse-de-donnees-te...

/pages/logiciels/ (http://logometrie.unice.fr/pages/logiciels/)

Lexico3 est réalisé par l’équipe universitaire SYLED-CLA2T. Ce logiciel


fait l’objet d’une diffusion commerciale. Si vous êtes un chercheur
isolé, vous pouvez vous en servir momentanément, pour vos travaux
personnels. Si par contre votre laboratoire, votre entreprise, peut
acquérir ce logiciel, cela nous aidera à le développer. A votre
demande, nous vous enverrons une facture émise par l’agent
comptable de l’université Paris3, en commençant par une facture « pro
forma » si vous le souhaitez (précisez à qui elle doit être
adressée). Contacts : http://www.tal.univ-paris3.fr/lexico/
(http://www.tal.univ-paris3.fr/lexico/) et salem@msh-paris.fr
(mailto:salem@msh-paris.fr) et téléchargement : http://www.tal.univ-
paris3.fr/lexico/download.htm (http://www.tal.univ-paris3.fr/lexico
/download.htm)

Iramuteq est un ensemble logiciel d’analyse de corpus basé sur R


(http://www.r-project.org/) et des librairies du langage Python. Il
permet les analyses classiques de la lexicométrie et des tableaux
individus / caractères. Le Laboratoire d’Études et de Recherches
Appliquées en Sciences Sociales est un laboratoire pluridisciplinaire de
l’Université de Toulouse 3 – Paul Sabatier, créé en 1983 et équipe
d’accueil depuis 1990 (EA 827). Il est dirigé par Pascal Marchand
(http://www.lerass.com/?profile_cct=pascal-marchand), Isabelle
Bouchardy (http://www.lerass.com/?profile_cct=isabelle-bouchardy), et
Pierre Molinier (http://www.lerass.com/?profile_cct=pierre-
molinier). http://www.iramuteq.org/ (http://www.iramuteq.org/)

Logiciel R (https://cran.r-project.org/) est un logiciel de calculs


statistiques et de fonctionnalités d’affichage graphique très puissant. Il
est notamment alimenté par des modules d’analyse textuelle très
intéressants.

NRC Emoticon Lexicon (http://saifmohammad.com/WebPages/NRC-


Emotion-Lexicon.htm) est un corpus de mots associés à huit
sentiments « universels ». L’auteur propose une version française, bâtie
sur la base d’une traduction réalisée avec Google Traduction. Un
corpus à vérifier donc.

Adaptation R (https://cran.r-project.org/web/packages/tidytext
/vignettes/tidytext.html) de Tidy Text (nettoyage des textes).

2 sur 5 06/01/2022, 17:25


Ressources pour l’analyse de données textuelles – Frédéric Pierron https://www.fredericpierron.com/ressources-pour-lanalyse-de-donnees-te...

UDPipe (http://ufal.mff.cuni.cz/udpipe) est un logiciel multiplateforme


pour le traitement logiciel de la langue. Selon ce blog (https://www.r-
bloggers.com/a-comparison-between-spacy-and-udpipe-for-natural-
language-processing-for-r-users/), il serait plus performant pour le
français que Spacy.

Le projet Textométrie (http://textometrie.ens-lyon.fr/) fédère les


développements logiciels open-source du domaine pour mettre en
place une plateforme modulaire appelée TXM (http://textometrie.ens-
lyon.fr/spip.php?article60). Il s’agit à la fois d’une opération
patrimoniale au rayonnement international et du lancement d’une
nouvelle génération de recherche textométrique, en synergie avec les
technologies de corpus actuelles (Unicode, XML, TEI, outils de TAL,
CQP, R). La plateforme TXM est diffusée gratuitement sous licence
open-source. Le logiciel portail web de TXM permet de donner accès à
des corpus en ligne par navigateurs web. Il permet des contrôles
d’accès paramétrables par comptes utilisateurs.

Library python
Python est un excellent langage de programmation pour traiter les
textes en langage naturel.

Spacy (https://spacy.io) est un outil de traitement du langage naturel


pour Python. Il tendrait à remplacer NLTK un peu vieillissant. Son
usage est très ouvert et il peut aisément s’interfacer avec des outils
plus spécifiques comme les machines learning.

SciKit-Learn (http://scikit-learn.org/stable/) : Librairie Python,


massivement utilisée dans l’analyse de données.

Liste des projets (https://github.com/topics/natural-language-


processing?l=python) Python NLP sur GitHub.

Articles, documents
Les Journées internationales d’Analyse statistique des Données
Textuelles (JADT) réunissent tous les deux ans, depuis 1990, des
chercheurs travaillant dans les différents domaines concernés par les
traitements automatiques et statistiques de données textuelles. Elles
permettent aux participants de présenter leurs résultats, de confronter
leurs outils et leurs expériences. http://www.aftal.fr/jadt2014

3 sur 5 06/01/2022, 17:25


Ressources pour l’analyse de données textuelles – Frédéric Pierron https://www.fredericpierron.com/ressources-pour-lanalyse-de-donnees-te...

/?page_id=140 (http://www.aftal.fr/jadt2014/?page_id=140)

Revue Texto! est une revue de sémantique des textes tissant son
contenu sur la toile depuis 1996. On y trouve plus de 500 articles
scientifiques et plusieurs archives de revues de linguistiques
éteintes. http://www.revue-texto.net (http://www.revue-texto.net)

16 livres gratuits sur les Data Sciences


Recensés par William Chen, 16 livres sur différents sujets techniques
liés à l’analyse de données : http://www.wzchen.com/data-science-
books (http://www.wzchen.com/data-science-books)

Ressources du cours donné par l’université d’Oxford, département


des sciences informatiques, sur le « Deep Natural Language
Processing ». PDF, vidéos, et slides. https://github.com/oxford-cs-
deepnlp-2017/lectures (https://github.com/oxford-cs-deepnlp-
2017/lectures)

Enseignement de Damien Nouvel (http://damien.nouvels.net


/fr/enseignement) à l’Inalco sur le TAL.

Analyses textuelles
Analyse des tweets de campagne de Donald Trump
(http://varianceexplained.org/r/trump-tweets
/?utm_campaign=Data%2BElixir&utm_medium=email&
utm_source=Data_Elixir_92) via les outils proposés par R. Où il est
démontré que Trump tweete sur son Samsung Android des messages
emotionnels et négatifs et son staff tweete sur iPhone les messages
conventionnels.

Newsletters
• Vidhya Analytics http://feedburner.google.com
/fb/a/mailverify?uri=analyticsvidhya
(http://feedburner.google.com
/fb/a/mailverify?uri=analyticsvidhya)
• Data Science Weekly http://www.datascienceweekly.org
/newsletters (http://www.datascienceweekly.org/newsletters)
• O’Reilly Data Newsletter http://www.oreilly.com
/data/newsletter.html (http://www.oreilly.com
/data/newsletter.html)

4 sur 5 06/01/2022, 17:25

Vous aimerez peut-être aussi