Un Corpus Gold Standard sur data.istex

image actualité
08.02.2021

L’Inist, associé au Laboratoire d’informatique fondamentale et appliquée de Tours (LIFAT), vient de mettre à disposition sur data.istex un corpus permettant d’évaluer les outils de TDM : un corpus annoté à la main pour entraîner les outils de reconnaissance d’entités nommées.

Définition, usage et caractéristiques du corpus

Un corpus gold standard est destiné aux chercheurs désirant tester ou entraîner leur outil de reconnaissance d’entités nommées ; corpus qui pourra également être utilisé comme corpus d’apprentissage pour ces mêmes outils.

Il est annoté manuellement par un groupe de personnes ayant une culture commune d’annotation.

Il comporte 200 documents ISTEX, en anglais. Ce corpus est le plus représentatif possible des deux corpus les plus importants du fonds ISTEX. Chaque document comporte au moins 10 entités nommées.

Entités nommées annotées

L’annotation manuelle utilise les huit balises suivantes :

  1. noms de personnes <persName>
  2. noms de lieux administratifs <placeName>
  3. noms de lieux géographiques <geogName>
  4. noms d’organismes <orgName>
  5. noms d’organismes financeurs <orgName type= »funder »>
  6. noms d’organismes pourvoyeurs de ressources <orgName type= »provider »>
  7. dates <date>
  8. url <ref type= »url »>

Démarche de constitution du corpus Gold

Le corpus Entités Nommées ISTEX a été constitué au long de l’année 2020 à l’Inist, à la demande du LIFAT.

Les 8 annotateurs ont pris 10 % du corpus et les ont annotés en même temps. Ils ont ensuite comparé les résultats, discuté et construit une culture d’annotation commune.

Ils ont mis en place un guide annotateur comportant des règles d’annotation propres au corpus.

La fiabilité de l’annotation a été mesurée par un accord inter-annotateurs : mesure globale de 0,91 de Kappa (réalisé par le LIFAT).

Les 180 documents restants ont ensuite été répartis entre les annotateurs.

Le guide d’annotations, téléchargeable, comprend la présentation du projet, la méthodologie, les résultats, les calculs de l’accord inter-annotateurs et les règles mises en place avec des exemples.

Accès au corpus

Le Corpus Gold Standard est publié sur le site data.istex.fr en tant que jeu de données, sous le nom de Corpus Entités Nommées ISTEX, dans la collection Corpus annotés manuellement.

Le corpus au format XML-TEI et les offsets des entités nommées sont disponibles au téléchargement dans le champ « Application ».

Lien : https://gold-collection.corpus.istex.fr/ark:/67375/VH5-5W45R3J3-P

Une vue graphique du corpus et de ses entités nommées

La visualisation de la répartition des documents du corpus selon différents angles de vue bibliométriques est accessible sur le bouton « Graphiques ».

Les entités nommées du corpus font aussi l’objet de graphiques (bouton Graphiques) et sont visibles pour chaque article sur le bouton « Recherche ».

 

Voir aussi : https://blog.istex.fr/un-corpus-gold-standard-pour-le-tdm/

Data.Istex : une autre vision d’ISTEX

En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres