Lancé en décembre 2016 et clos début 2020, l’objectif du projet Conditor était de recenser l’ensemble des publications de la recherche française au sein d’un seul réservoir de métadonnées enrichies, homogénéisées et dédoublonnées, et offrir ainsi une vision complète de la production française.
Le recueil des publications sous forme de métadonnées a nécessité un important travail de programmation opéré à l’Inist ; une mise en œuvre parfois complexe en raison de la multiplicité des formats de données liées aux différentes sources collectées.
4 sources de données
Les bases en « open access » sont moissonnées, en identifiant les publications ayant au moins un auteur appartenant à une structure française de l’ESR. Actuellement, les métadonnées proviennent de HAL, Crossref, Pubmed et l’ABES qui fournit des données du SUDOC (ouvrages, thèses).
Ces métadonnées sont ensuite transformées au format TEI puis enrichies par des méthodes d’alignements automatiques et des méthodes de fouille de textes. Enfin, un algorithme de dédoublonnage identifie et marque les documents en doublons.
Des enrichissements
Les notices sont enrichies de plusieurs informations (quand cela est possible) :
- Lien vers le document en accès libre (après alignement avec Unpaywal et Core) ;
- Catégorie scientifique(apposée par le baromètre de la science ouverte – BSO) ;
- Identifiants auteurs IdRef, Orcid, IdHal;
- Domaines scientifiques des revues contenant l’article (classification Science-Metrix et Scopus) ;
- Code RNSR (Répertoire national des structures de recherche) associé aux affiliations françaises : cela se fait soit par récupération des informations dans d’autres bases (HAL par exemple), soit à partir de programmes informatiques développés à l’Inist.
Et maintenant une base
A ce jour, Conditor recense plus de 1 430 000 signalements, dont environ 1 108 000 publications distinctes, allant de 2014 à 2020. Fin décembre, la base comptait 66 % d’articles, 10 % de thèses et 14 % de conférences.
Elle est accessible à tout membre de l’ESR pour requêter et télécharger des corpus via une application.
Le résultat peut être déchargé sous forme de corpus en TEI ou JSON. De plus, le programme a une option permettant d’avoir une seule notice consolidée quand plusieurs références identiques sont détectées.
Le fruit d’un travail multipartenarial
Le projet Conditor a été mené grâce au soutien du ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation, en impliquant de nombreux partenaires :
- des organismes de recherche : CNRS, Inra, Inria, IRD, Irstea,
- des universités : Angers, Bordeaux, Grenoble, Lorraine, Montpellier, Nice Paris Dauphine, Paris Diderot, Sorbonne Université, Strasbourg,
- des opérateurs et entités de l’ESR : Abes, Amue, CCSD, Hcéres, Huma-Num, IAVFF Agreenium, Inist CNRS, MESRI RNSR-ScanR.
Vidéo
Découvrir la vidéo de présentation de la base Conditor : https://youtu.be/tFE0risRMoI