Paris… capitale de la France ? Ville du Texas ? Ville de l’Ontario ? Une personne ?
La désambiguïsation de termes peut être très utile, notamment dans les travaux liés au traitement automatique de la langue.
Dans le cadre du projet ISTEX, des actions d’enrichissement des données ont été menées en interne ou en collaboration avec des laboratoires ; des actions qui ont permis de procéder à une extraction d’entités nommées par le Laboratoire d’informatique fondamentale et appliquée de Tours (Lifat) et l’outil Unitex-Cassys.
Une méthode d‘apprentissage automatique
Il restait à relier une chaine de caractères extraite de son contexte avec une entité géographique précise.
Aussi, pour désambiguïser ces termes et les aligner automatiquement, l’équipe ISTEX a développé une méthode par apprentissage automatique non supervisé (sans ressource) ; une méthodologie utilisant l’algorithme Adagram. L’expérimentation a été réalisée sur 400 000 documents en texte intégral issus d’ISTEX, tous domaines confondus.
Désambiguïser pour aligner
Avec le projet Data-ISTEX, il était question de mettre en avant les données produites en les exposant avec les principes du web sémantique (Linked Open Data), donc de les interconnecter avec d’autres réservoirs de données (wikidata, data.bnf, dbpedia, viaf, etc.). Ici, le but était donc d’aligner les entités nommées avec la ressource GeoNames couramment utilisée pour ce type de données géographiques et ensuite de pouvoir faire le lien avec d’autres réservoirs (data.bnf, wikidata par exemple).
L’utilisation de LODEX a permis de publier ces données alignées, le triplestore permettant quant à lui des interrogations complexes du réservoir.
Une évaluation positive et un travail reconnu
La campagne SemEval 2019 (évaluation sémantique) a montré une belle réussite de ce projet puisque l’évaluation s’élève à 0,946 pour l’alignement « géographique » (la meilleure évaluation possible étant 1).
Ce travail a été présenté lors : d’une ANF APSEM à Toulouse en 2018 ; d’un séminaire invité à l’IRIT à Toulouse en mars 2019 ; d’une présentation invitée à Paris au laboratoire géographie-cités en juin 2019 ; des journées d’études GIS-URFIST à l’IMSIC (Institut méditerranéen des sciences de l’information) en juillet 2019 ; et récemment lors du colloque Isko France à Montpellier. La prochaine présentation aura lieu à Dalian (Chine) lors de la conférence Collnet en novembre prochain.
A lire – L’article publié au colloque Isko France est disponible sur HAL :
Pascal Cuxac, Alain Collignon, Stéphanie Gregorio, François Parmentier. Des bases de données massives au Web de données : désambiguïsation et alignement d’entités géographiques dans les textes scientifiques. 12ème Colloque international d’ISKO-France : Données et mégadonnées ouvertes en SHS : de nouveaux enjeux pour l’état et l’organisation des connaissances ?, Oct 2019, Montpellier, France. ⟨hal-02307577⟩