Au cours du projet Visa TM dont l’objectif principal était de décrire une infrastructure capable de rendre la fouille de texte accessible à tous, une liste de trois cents outils spécialisés dans le traitement automatique du langage et la fouille de textes avait été établie. Elle présentait un premier panorama des applications disponibles.
Cependant, l’équipe chargée du projet a décidé d’aller plus loin en transformant cette liste en ontologie avec l’objectif de proposer une représentation enrichie, formelle, explicite et manipulable par une machine de ces outils.
La naissance d’OntoTM
Pour construire OntoTM (Ontology of Text Mining), la liste d’outils a été transformée en fichier OWL (Web Ontology Language). Le langage OWL permet de représenter les connaissances dans les ontologies informatiques. Dans un deuxième temps, un ensemble de classes et de propriétés provenant d’ontologies existantes ont été sélectionnés afin d’aider à la modélisation du domaine.
La liste d’outils OWL et les ontologies externes ont ensuite été fusionnées au sein d’une même ontologie : OntoTM. https://skosmos.loterre.fr/LTK/fr/
Passage par Lodex
Produit par l’Inist, l’outil Lodex (Linked Open Data EXperiment) permet de publier des jeux de données (.csv, .tsv, .xml, .json, etc.) dans des formats du web sémantique (JSON-LD, N-Quads) et d’exposer ces données dans un rapport web dynamique sous la forme d’un tableau de bord avec des graphiques.
Aussi, un jeu de données a été extrait d’OntoTM en .csv. Avant son versement dans Lodex, il a bénéficié d’enrichissements :
- un alignement des outils avec ceux répertoriés dans Wikidata afin d’enrichir le fichier avec les liens vers les notices Wikidata trouvées ;
- une recherche automatisée de références bibliographiques liées aux outils à la fois dans la base ISTEX et dans la base Conditor.
Une vue des facettes dans TM Tools Explorer
Ensuite, le chargement du fichier .csv dans Lodex en vue de son exploitation a mis en avant un certain nombre de facettes dans TM Tools Explorer : tâche(s) effectuée(s) par l’outil, pays de production, langue(s) traitée(s), langage(s) de programmation, format(s) d’entrée, système(s) d’exploitation, interface(s) utilisateurs. Les croisements de différentes facettes sont susceptibles de constituer une aide à la recherche pour des outils spécifiques.
Une optique collaborative
Les données étant renseignées majoritairement en anglais, et afin de proposer plus rapidement une version utilisable, l’équipe a fait le choix de produire cette version bêta en anglais. Une version en français devrait suivre assez rapidement néanmoins.
Afin d’enrichir la base de données, l’équipe compte sur une appropriation de l’outil par les utilisateurs et les communautés de recherche impliquées dans des travaux sur le Traitement Automatique des Langues ainsi que la fouille de textes.
C’est donc clairement dans une optique collaborative et ouverte que cette première proposition a été construite au service d’une facilitation d’appropriation par tous des outils de fouille de textes, la plus simple possible.
Toutes les propositions d’amélioration sont les bienvenues.
https://objectif-tdm.inist.fr/contact/
Fabienne KETTANI (Équipe Text and Data Mining, Inist-CNRS)
Frank ARNOULD (Équipe Ingénierie terminologique, Inist-CNRS)