L’Inist présente ses avancées aux 29e rencontres de la Société francophone de classification (SFC) qui se tiennent du 11 au 13 septembre 2024 à Marseille.
Abordant divers sujets tels que les modèles de classifications, l’analyse de données topologiques ou symboliques et les applications dans différents domaines, cette manifestation a pour objectif de présenter des résultats récents et des applications originales en classification.
À ce titre, Léo Gaillard et Lucas Anki du service Text & Data Mining feront une intervention accompagnée d’un article et d’un poster intitulés « Classification de résumés d’articles scientifiques à partir de la classification des revues ».
En effet, certaines classifications thématiques sont attribuées à des titres de revues et non aux articles scientifiques (c’est le cas par exemple dans le WoS, Scopus…).
Leurs travaux ont ainsi permis de développer un modèle capable d’attribuer directement une thématique scientifique à un article donné de façon plus précise, même si la source de l’article n’est pas classée dans la classification d’origine.
Un nouveau web-service de TDM
Dans ces travaux, l’illustration montre que le modèle est capable de classer des résumés d’articles scientifiques selon la classification canadienne Science-Metrix, en s’appuyant sur un corpus de 2,5 millions de documents. Après les avoir vectorisés, en utilisant BERT, l’utilisation d’un algorithme de KPPV optimisé (avec la bibliothèque Faiss) permet d’écarter les erreurs de classement.
Cette réussite a abouti à la mise en production d’un nouveau web-service de TDM « sciencemetrixClass – Classification en domaines scientifiques Science-Metrix » dont l’objectif est de classer des documents en anglais dans les trois niveaux de la classification Science-Metrix.
38 web-services
Ce web-service s’ajoute aux quelque 38 web-services disponibles sur le site Istex TDM dédié aux services Istex pour la fouille de textes. A travers cette plateforme, l’Inist développe et met à disposition des outils de TDM faciles à mettre en œuvre, couplés à un outil de création de tableaux de bord dynamiques.
Classification, indexation, extraction d’entités nommées, homogénéisation, traitement automatique du langage… trouvez le web-service correspondant à vos besoins sur Istex TDM.
voir aussi :