Le CNRTL (Centre National de Ressources Textuelles et Lexicales) a été fondé en 2005 par le CNRS (Centre National de la Recherche Scientifique), en s’appuyant sur les travaux de l’UMR ATILF (Analyse et Traitement Informatique de la Langue Française) de Nancy Université. Ce portail fédère des ressources linguistiques informatisées et des outils de traitement du français dans un accès unique. Il s’intègre au projet d’excellence ORTOLANG et au réseau européen CLARIN (Common Language Resources and Technology Infrastructure). Concrètement, c’est la référence essentielle pour quiconque cherche une définition précise, une étymologie fiable ou un synonyme rare.

Ce que contient le portail lexical du CNRTL

La ressource phare reste le Trésor de la Langue Française Informatisé (TLFi), version électronique du Trésor de la Langue Française — un dictionnaire monumental en 16 volumes, publié de 1971 à 1994, qui recense pas moins de 270 000 définitions. Autant dire que pour la définition d’un terme médical comme l’asepsie, c’est vers ce type de source que les chercheurs se tournent en priorité. Le portail intègre également plusieurs éditions du Dictionnaire de l’Académie française, de la première édition de 1694 jusqu’à la neuvième de 1992, en passant par celles de 1762, 1798, 1835 et 1932-1935. Le Dictionnaire du Moyen Français (DMF) couvre lui la période 1330-1500.

Le portail propose aussi plusieurs corpus écrits et oraux :

  • Frantext — textes littéraires français du XVIIIe au XXe siècle
  • Corpus journalistique de l’Est Républicain : deux années d’éditions intégrales
  • Corpus DEDE — 4 910 descriptions définies et 48 360 mots annotés, issus du journal Le Monde
  • TCOF : corpus du français parlé annoté en morphosyntaxe
  • Le Pèlerinage de Vie humaine de Guillaume de Digulleville, poème rédigé entre 1330 et 1331

Côté dictionnaires anciens, le CNRTL donne accès à des pièces rares : le Dictionarium latinogallicum de Robert Estienne (édition de 1552), le Thresor de la langue françoyse de Jean Nicot (1606), le Dictionnaire Oeconomique de Chomel (1741) ou encore le Dictionnaire critique de Jean-François Féraud (1787-1788). L’Encyclopédie de Diderot et d’Alembert figure également dans ce fonds.

Les outils de traitement automatique à connaître

Pour les praticiens du traitement automatique des langues, le CNRTL met à disposition des instruments solides. Flemm v3.1 analyse la flexion du français pour des corpus étiquetés via Brill ou TreeTagger. Dérif (Dérivation en Français) s’attaque aux néologismes construits par dérivation. FastKwic produit des concordanciers automatiquement. Pompamo détecte des candidats à la néologie en comparant chaque unité au lexique Morphalou — ce dernier comptant 540 000 formes fléchies issues de 68 000 lemmes. Jean-Marie Pierrel et Étienne Petitjean ont présenté ces travaux lors de la 14ème conférence TALN à Toulouse, du 5 au 8 juin 2007. Pour accéder au portail facilement, tapez votre mot suivi de « CNRTL » dans la barre de recherche — des extensions existent pour Firefox et Chrome.

Julien