Le Centre National de Ressources Textuelles et Lexicales a été créé en 2005 à l’initiative du Centre National de la Recherche Scientifique (CNRS) et plus précisément par le laboratoire ATILF (Analyse et traitement informatique de la langue française). Il propose un portail qui permet d’accéder à un riche éventail de ressources linguistique (corpus, dictionnaires, etc.) et d’outils de traitement, destinés à l’étude et à l’analyse de la langue française. Il s’agit essentiellement des documents électroniques ou de données textuelles et lexicales informatisées.
Qu’est ce que le CNRTL ?
Le CNTRL ou Centre National de Ressources Textuelles et Lexicales est un organisme ou un portail du Centre National de Recherche Scientifique (CNRS), un établissement public français à caractère scientifique et technologiques. Il s’agit plus précisément d’un centre de ressource numérique mis en place au sein d’une unité mixte de recherche du CRNS, dénommée ATILF (Analyse et Traitement Informatique de la Langue Française). Il compile plusieurs ressources linguistiques et constitue une plate-forme pour l’accès à divers documents électroniques destinés à l’étude et à l’analyse de la langue française. Des outils de traitement de la langue française et des ressources linguistiques informatisés sont disponibles au sein du portail lexical du CNRTL. Ce portail donne accès à des lexiques, des dictionnaires anciens et modernes, des logiciels libres et bien d’autres ressources ainsi que des outils pour l’étude et la connaissance de la langue française.
Des objectifs du Centre National de Ressources Textuelles et Lexicales (CNRTL)
L’exploitation des diverses ressources informatisées et l’étude de la langue française sont des objectifs du CNRTL. Ce centre œuvre pour la valorisation du français et le partage des connaissances relatives à cette langue. Pour ce faire, ce centre de ressources numériques, met à la disposition des utilisateurs, travers un portail unique, des ressources et des outils qui sont trop souvent dispersés. Ces utilisateurs peuvent, de ce fait accéder, à un ensemble de ressources et d’outils au sein d’un portail. Dans cette perspective, le CNRTL diffuse des données lexicales, documente des corpus librement accessibles et des outils logiciels libres d’accès. Au-delà de la diffusion des données consacrées à la langue française, il vise à :
- structurer et à normaliser les connaissances lexicales ;
- recenser, à archiver et à enrichir des ressources linguistiques ;
- à réunir des outils de consultation pour mieux étudier et connaître la langue française.
Présentation du site du CNRTL
Le portail lexical
Le CNRTL met à la disposition du grand public et de la communauté scientifique, un site qui comporte plusieurs sections au nombre desquelles figure le portail lexical. Ce portail lexical regroupe plusieurs ressources qui permettent d’effectuer des recherches de vocabulaire. Il permet également de naviguer dans divers onglets contenant des ressources qui contribuent à l’amélioration du vocabulaire. Ces ressources linguistiques sont notamment :
- la morphologie ou l’étude de la formation des mots et des variations de ceux-ci ;
- l’antonymie ou l’opposition des mots de sens contraire ;
- la lexicographie ou l’étude des mots ;
- l’étymologie ou l’origine du mot ;
- la synonymie ou le caractère des mots qui ont le même sens ;
- la proxémie ou la proximité sémantique des mots ;
Le portail lexical intègre également un onglet ‘’concordance’’ qui nous permet de comprendre le mode d’utilisation d’un mot grâce à une série d’exemples issus de la littérature classique. Il met à notre disposition des exemples d’utilisation d’un mot.
Ainsi, le portail lexical est constitué de plusieurs onglets et d’une interface visuelle. Après la saisie d’un mot ou d’une requête dans l’interface, un clic sur l’un des onglets permet de faire apparaître la morphologie, la lexicographie, l’étymologie, les synonymes, les antonymes, la proxémie et les concordances du mot choisi. Ainsi, le contenu du mot est rapidement identifié dans une catégorie linguistique ou dans l’onglet sélectionné. Il est également possible d’effectuer une recherche lexicale dans plusieurs dictionnaires anciens et modernes.
Le portail lexical est intégré aux navigateurs Firefox et Chrome sous forme d’une extension. Ainsi, la barre du portail lexical du CNRTL peut été ajoutée au navigateur Firefox.
Les autres sections du site du CNRTL
Le site du Centre National de Ressources Textuelles et Lexicales comprend d’autres sections qui sont :
- la section ‘’corpus’’ ;
- la section ‘’Lexiques’’ ;
- la section ‘’Dictionnaires’’ qui comprend 3 dictionnaires modernes et 10 dictionnaires anciens.
- la section ‘’Métalexicographie’’.
Le site du CNRTL est accessible à l’adresse suivante : www. cnrtl.fr.
Quelles sont les ressources accessibles par le biais du CNRTL ?
Le portail lexical est un exemple d’intégration de ressources qui permettent une exploitation aisée d’une diversité de documents numériques. Il nous permet d’avoir accès à plusieurs types d’informations (étymologiques, lexicographiques, etc.) à partir d’une requête. Il rend ainsi disponible des informations lexicales relatives à un mot. Le CNRTL nous permet également d’accéder à d’autres ressources, notamment plusieurs corpus de textes, des dictionnaires et des lexiques.
Les corpus
Un corpus est un ensemble de documents utilisés pour une analyse linguistique. C’est un ensemble homogène de données linguistiques réunies selon un critère bien spécifique. Ainsi, les corpus constituent des ressources linguistiques exploitables par un traitement automatique. Ils sont, donc, très utiles pour l’étude relative à la langue, l’analyse et le traitement de celle-ci. Il y a au total 7 corpus écrits et oraux libres de droit.
- Frantext
C’est un outil qui nous permet de consulter des ressources informatisées concernant la langue française. Cette base de données textuelles réunit plusieurs centaines de textes français littéraires du XVIIIe au XXe siècle. Il s’agit des versions numériques des textes libres de droit. Il est possible de les télécharger en effectuant une sélection par auteur, titres, dates ou genres.
- Corpus journalistique de l’Est Républicain
Ce corpus journalistique est composé de données textuelles. Il est constitué d’articles parus dans le quotidien l’Est Républicain. Ce corpus informatisé est une ressource linguistique. Il correspond à deux années des éditions intégrales du quotidien régional, l’Est Républicain.
- Projet d’Etiqueteur Robuste pour l’Ecrit et pour l’Oral (PERCEO)
C’est un système d’étiquetage ou d’annotation automatique des données écrites et orales. Ce projet permet de rendre disponible un étiqueteur en morphosyntaxe (parties du discours et lemmes). Il s’agit d’un corpus d’apprentissage d’étiqueteur pour l’écrit et pour l’oral.
- Traitement de Corpus Oraux en Français (TCOF)
Ce sont des corpus du français parlé annoté en morphosyntaxe. Diffusés librement, ces corpus oraux transcrits sont susceptibles de servir au niveau des recherches en linguistique ou d’un apprentissage du français parlé.
- Corpus d’articles de linguistiques issus de la revue « Sciences Humaines »
Ce corpus nous permet d’avoir accès à divers articles de la revue ‘’Sciences Humaines’’.
- Le Pèlerinage de Vie humaine de Guillaume de Digulleville
Ce corpus est une transcription électronique d’un poème écrit entre 1330 et 1331 par un poète du moyen-âge, Guillaume de Digulleville.
- DEDE :
C’est un corpus annoté pour le traitement des Descriptions Définies. Il est constitué d’une annotation de 4 910 descriptions définies. Il comprend 48 360 mots annotés au niveau morphosyntaxique ainsi que des articles issus de toutes les rubriques (politique, économie, sport culture et loisirs) du journal Le Monde de septembre 1987.
Les dictionnaires
Le CNRTL nous propose un accès libre d’une série de dictionnaires informatisés. Il est possible de lancer une recherche dans les différents dictionnaires anciens :
- le dictionnaire Oeconomique de Chomel (1741) ;
- le Dictionnaire du Moyen Français (1330-1500) ;
- le Dictionnaire Électronique de Chrétien de Troyes ;
- la troisième édition (1552) du Dictionarium latinogallicum de Robert Estienne ;
- le Thresor de la langue françoyse, tant ancienne que moderne de Jean Nicot (Paris, David Douceur, 1606) ;
- le Dictionnaire historique et critique de Bayle (fac-similé de la version de 1740) ;
- le Dictionnaire de Trévoux (imprimé à Nancy en 1740 chez Pierre Antoine) ;
- le Dictionnaire critique de la langue française Jean-François Féraud (1787-1788) ;
- la 1e édition (1694), la 4e édition (1762), la 5e édition (1798), la 6e édition (1835) du Dictionnaire de l’Académie française ;
- l’Encyclopédie de Diderot et d’Alembert.
Le site du CNRTL rend également visibles plusieurs dictionnaires modernes, notamment :
- de la 8ème édition (1932-1935) et de la 9ème édition (1992-…) du dictionnaire de l’académie française. Cette version numérisée et mise en ligne a été réalisée par l’Institut National de la Langue Française (INALF) ;
- du dictionnaire électronique d’expressions idiomatiques français‐portugais / portugais‐français. Organisé en système d’hypertexte, il contient 3918 expressions idiomatiques usuelles dont 2459 en français de France et 1459 en portugais brésilien ;
- le Trésor de la Langue Française Informatisé (TLFI). Il s’agit de la version électronique du Trésor de la Langue Française, un dictionnaire en 16 volumes, publiés de 1971 à 1994 et comprenant 270 000 définitions. Le Trésor de la Langue est un dictionnaire de référence des XIXe et XXe siècles. Il est désormais disponible sur support numérique. Cette version électronique, dénommée TLFI est entièrement interrogeable en ligne avec la possibilité de consulter la définition d’un mot.
Les lexiques
L’informatique offre la possibilité de partager les résultats des recherches consacrés au lexique de la langue française. Il permet d’étudier le lexique à travers diverses ressources informatisées.
- Morphalou
Constitué par le CNRTL, le lexique Morpalou est disponible en accès libre. Il s’agit d’un lexique ouvert de forme fléchie du français. Il est constitué de 540.000 formes fléchies issues de 68 000 lemmes. Le CNRTL nous offre également la possibilité de télécharger le lexique MORPHALOU, une version XML de TLFnome, un lexique de forme fléchie créé à partir de la nomenclature du dictionnaire Trésor de la Langue Française (TLF).·
- Prolex
Prolex est un projet de recherche universitaire consacré au traitement automatique des connaissances sur les noms propres. Il est coordonné à partir du Laboratoire d’Informatique (LI) de l’Université François-Rabelais de Tours.
Ce projet comprend une plateforme qui intègre un dictionnaire électronique relationnel multilingue de noms propres du français (Prolexbase), des systèmes d’identification des noms propres et de leurs dérivés.
- Base de civilisation romaine (XIIe-XVe s.)
La Base de civilisation romaine (XIIe-XVe s.) interrogeable à travers le Centre National de Ressources Textuelles et Lexicales (CNRTL), permet d’effectuer des recherches lexicales. Elle rassemble des textes, notamment des traductions, qui s’avèrent essentielles à l’histoire de la formation du lexique de la civilisation romaine en français moyenâgeux.
Les outils disponibles
Le CNRTL propose des outils qui peuvent être intégrés sous la forme d’une barre dans le navigateur Firefox. Aussi, une extension développée au niveau du navigateur Chrome permet d’accéder en un clic aux outils du CNRTL (Centre National de Ressources Textuelles et Lexicales). Plusieurs de ces outils sont téléchargeables.
Flemm v3.1
Téléchargeable à partir du site du CNRTL, Flemm v3.1 est un analyseur flexionnel du français pour des corpus étiquetés au moyen des catégoriseurs, Brill ou TreeTagger. Il offre la possibilité de proposer une analyse morphologique à partir d’une forme et sa catégorie syntaxique. Il permet également de générer des inflexions pour un texte français. Il calcule, à partir de la racine de la terminaison, le nombre de lemme de chaque mot fléchi et des informations morphologiques Nous pouvons également installer cet outil gratuit.
Derif
Dérif ou Dérivation en Français est un analyseur morphologique ou un outil d’analyse morpho-sémantique du français. Il est interrogeable en ligne à partir du site du Centre National de Ressources Textuelles et Lexicales (CNRTL). Il effectue une analyse morphosémantique des néologismes. Cet outil s’applique également à des entrées lexicales ou des unités du lexique construites par dérivation ou issues d’un dictionnaire de la langue générale.
FastKwic
FastKwic est un outil d’indexation automatique. Téléchargeable, il offre la possibilité d’indexer un texte et de produire un concordancier.
Pompamo
Pompano est un outil de détection automatique de candidats à la néologie (ensemble des unités lexicales nouvelles ou la création de nouveaux mots dans une langue donnée). Cet outil est utilisable en ligne. Basée sur l’utilisation de lexiques d’exclusion, cette plateforme de veille lexicale compare chaque unité lexicale au lexique Morphalou. Ainsi, cet outil exploite des ressources lexicales, notamment Morphalou, pour détecter des candidats à la néologie catégorielle et formelle. A la fin de l’exécution de l’outil Pompamo, des fichiers HTML et XML sont créés par types de candidats.