Les données textuelles sont une forme principale de données. On en rencontre au quotidien sous de nombreuses formes. Cela peut se trouver sur des sites comme ce que vous lisez actuellement, sur des réseaux sociaux, des forums, des articles d’actualité, des papiers de recherche, etc.
Le traitement du langage naturel, NLP (Natural Language Processing) en anglais, est une discipline qui a bénéficié d’un souffle nouveau en 2017 avec le papier Attention Is All You Need qui a ouvert la voie aux transformers. Puis, l’explosion des LLMs (Large Language Models) à partir de 2022 a complètement mis la lumière sur la thématique, bénéficiant de nombreuses contributions industrielles et académiques.
Voyons des ressources en lien avec les données de texte.
