Ils vous présenteront, sous forme de travaux pratiques encadrés, les usages du réservoir ISTEX pour la fouille de texte (TDM).
La plateforme ISTEX
Elle offre l’accès à un corpus de plus de 22 millions d’articles de revues et de chapitres d’ebooks publiés entre 1473 et 2015 par 20 éditeurs internationaux et francophones, corpus qui couvre tous les champs disciplinaires. Les articles sont systématiquement disponibles en texte intégral.
À ce réservoir inégalé en ressources multidisciplinaires s’ajoutent des services aux utilisateurs qui permettent d’en optimiser l’exploitation grâce à des outils de fouille de contenus (TDM) et de valorisation interactive.
Les ateliers pratiques
Ces formations concernant les usages du réservoir ISTEX grâce aux services associés sont organisées par la Direction de l’information scientifique et technique du CNRS (DIST), l’Inist et le réseau des Urfist.
Les agents de l’Inist seront en charge d’animer les matinées de ces rendez-vous pratiques.
Le programme se décline en 2 demi-journées
Matin : construire et valoriser un corpus spécialisé à partir du réservoir ISTEX en 3 parties
Interroger ISTEX
- Création d’une requête étape par étape avec un niveau de complexité croissant
- Test de la requête sur le démonstrateur (https://demo.istex.fr/)
Télécharger un corpus
- Utilisation de l’application de téléchargement de corpus ISTEX-DL (https://dl.istex.fr/) et découverte des paramètres avancés du service.
Explorer et analyser son corpus téléchargé avec Lodex (https://lodex.inist.fr/)
- Import du corpus dans Lodex, un outil qui permet de transformer n’importe quel jeu de données en site web dynamique offrant différents angles de vue sur les données au travers de différents graphiques, de fiche ou de facette.
- Navigation dans le corpus pour se rendre compte de manière graphique des résultats de la requête
- Exposition du corpus pour faciliter sa réutilisation
Ce processus peut être reproduit plusieurs fois en boucle pour affiner la requête jusqu’à l’obtention du corpus souhaité
Après-midi : visualiser et analyser les métadonnées d’un corpus documentaire
Atelier : exploration d’un corpus documentaire ISTEX à l’aide de l’outil de cartographie Gargantext et/ou CILLEX
L’outil Gargantext est conçu pour produire des cartes interactives qui évoluent au fur et à mesure que vous travaillez avec. Ces cartes thématiques de mots peuvent être utilisées pour construire un état de l’art en cartographiant un ensemble de documents et en mettant en place une représentation collective d’un questionnement, etc.
L’outil Cillex est conçu pour produire des cartes dynamiques référençant les métadonnées d’une requête à l’API ISTEX. Cette cartographie permet de choisir les métadonnées d’intérêt en fonction du type de recherche (par thématique, par auteur, etc.)
Atelier pratique sur l’usage des ressources ISTEX : les dates
Pour aller plus loin
Les tutoriels
- Découvrir l’outil LODEX de manière pédagogique grâce aux nouveaux tutoriels LODEX mis en ligne sur le site Inist.
- Se familiariser avec ISTEX, comprendre les différents formats de documents, assimiler le vocabulaire et s’approprier les bases du langage d’interrogation de l’API : retrouvez les tutoriels de l’Inist :
Des corpus de démonstration à découvrir ou redécouvrir sur data ISTEX (http://data.istex.fr/)
https://corpus-specialises.corpus.istex.fr/
Ce jeu de données propose des collections de corpus spécialisés constituées par l’équipe ISTEX de l’Inist en vue d’une exploitation en traitement automatique des langues et en fouille de textes.
Ces corpus spécialisés sont composés de documents en texte intégral extraits de la plateforme ISTEX pour répondre à différents cas d’usage.
- https://unitex-collection.corpus.istex.fr/
Cette collection regroupe des corpus de documents ISTEX en texte intégral. Ces corpus ont été constitués pour l’évaluation de la détection d’entités nommées par l’outil Unitex-CasSys. - https://vieillissement-collection.corpus.istex.fr/
Cette collection regroupe des corpus de documents ISTEX en texte intégral appartenant à la thématique du vieillissement.