Istex, de la base au TDM

10.09.2024

Plus qu’une base documentaire, l’infrastructure Istex, opérée par l’Inist-CNRS, propose à la communauté de l’enseignement supérieur et de la recherche un ensemble d’outils autonomes et interopérables pour la fouille de textes ou TDM (Text and Data Mining).

Constituer ou explorer des corpus, manipuler des données, utiliser une terminologie, sont quelques exemples des services proposés par l’infrastructure Istex et mis à disposition de tous, experts ou non en TAL (traitement automatique du langage) ou TDM.

En effet, l’infrastructure Istex met à disposition ses données et ses outils informatiques pour explorer des documents. L’objectif est de fournir des services en ligne et des outils prêts à l’emploi afin de faciliter l’exploration et l’exploitation de corpus de textes, permettant ainsi à tous de bénéficier des techniques de Text and Data Mining.

Retrouvez toutes les informations sur cet écosystème sur le portail Istex : https://www.istex.fr/


Accéder à la base documentaire

Les outils s’appuient notamment sur la base documentaire Istex, le plus vaste réservoir d’archives scientifiques avec près de 28 millions de publications en texte intégral s’étendant sur 700 ans et couvrant toutes les disciplines. Sa particularité réside dans sa compatibilité unique, tant sur le plan technique que juridique, avec la fouille et l’analyse de textes.

Découvrez le contenu de la base Istex et ses différents services d’accès : https://www.istex.fr/base-documentaire/


Constituer un corpus

Rechercher et télécharger des documents

Dans un projet de fouille de textes, la création d’un corpus de qualité est une étape essentielle pour la réussite du projet. L’équipe Istex vous aide dans cette phase en fournissant des outils pour rechercher, télécharger et affiner votre corpus.

Istex-Search est un service conçu pour la constitution de corpus scientifiques à partir de la base Istex. Il facilite la recherche avec un assistant de construction de requêtes, offre des indicateurs synthétiques, des filtres prédéfinis, et permet l’accès aux documents en texte intégral avec leurs métadonnées et enrichissements dans différents formats. Ainsi, vous pourrez parcourir les résultats, définir les contours de votre corpus, sélectionner les documents pertinents pour votre corpus et le télécharger au format souhaité.

Utiliser des corpus prêts à l’emploi

À titre d’exemple, des corpus déjà constitués, issus de la base Istex, téléchargeables, réutilisables et partageables sont disponibles. Ces corpus traitent de sujets ou questions d’actualité (ex. Le rôle des abeilles comme insectes pollinisateurs ; changements climatiques & Risques naturels…) ou de problématiques scientifiques à explorer au moyen d’outils de fouille de textes (Machine Translation ; mémoire ; paléoclimatologie…)

Constituez votre corpus à l’aide des ressources et des outils Istex : https://www.istex.fr/constitution-de-corpus/


Explorer et enrichir des corpus

Istex propose des services et des ressources pour faciliter le TDM.

Fouiller des textes

Pour vos projets de fouille de textes, Istex met à votre disposition un catalogue d’outils sous forme de web-services.

Grâce à eux, il devient facile de réaliser des classements thématiques de documents (clustering), déduire des informations (laboratoires CNRS, auteurs français, etc..), d’indexer des documents ou encore d’extraire les entités nommées d’un corpus (espèces animales, lieux géographiques…)

Comment les utiliser ?

Vous pouvez faire appel à ces services de différentes manières, suivant vos besoins et vos compétences :

  • via Lodex, outil open source de visualisation et de traitement de données structurées développé à l’Inist, permettant d’importer vos données, de les traiter selon vos besoins, avec nos web services, de visualiser les résultats de façon dynamique et enfin de les publier sous forme de site web.
  • via une ligne de commandes (outils curl, wget, ou autres, pour des utilisateurs plus avancés)

Istex offre à la communauté scientifique française l’opportunité d’utiliser son infrastructure et ses outils informatiques sur des documents présents dans Istex mais également sur vos propres données.

Héberger des corpus Istex

Pour faciliter l’utilisation de ses services, l’infrastructure Istex offre à ses membres la possibilité de créer et d’héberger des instances Lodex dédiées à leurs corpus de documents.

À travers cet outil de traitement et de visualisation de données, vous pouvez déposer un corpus sur un espace dédié de l’infrastructure, le configurer, l’enrichir et enfin le transformer en un site web personnalisé, vous permettant d’analyser son contenu ou de le partager dans le cadre de vos projets.

Utiliser des ressources terminologiques

La constitution de requêtes complexes demande très souvent des ressources langagières comme des terminologies.

De même, dans le cadre de la fouille de textes, il est important de pouvoir annoter ou enrichir ses contenus textuels avec des concepts (issus de ces terminologies) afin de naviguer dans le corpus au moyen de filtres et de graphiques. Lors de cette exploration, le retour vers les informations contenues dans les terminologies peut faciliter la compréhension des documents par un accès au contenu définitoire des termes par exemple.

Le site Loterre vous permet de consulter, de télécharger et d’utiliser des terminologies multilingues et multidisciplinaires.

Découvrez les outils Istex au service de l’exploration et l’exploitation de corpus : https://www.istex.fr/exploration-enrichissement/


En conclusion, grâce à sa vaste base documentaire et à ses services associés, Istex est une véritable boite à outils pour les membres de l’enseignement supérieur et de la recherche, qu’ils soient experts ou novices en TDM.

De plus, tous ces outils sont autonomes, compatibles entre eux et interopérables avec d’autres plateformes de l’enseignement supérieur et de la recherche pour faciliter l’exploration et l’analyse de corpus textuels.

Accéder à l’ensemble des services de l’infrastructure Istex : https://www.istex.fr/


Webinaires découvrir Istex pour le TDM : dates et détails 

  • Lundi 16 septembre 2024 de 14h-15h
  • Mardi 17 septembre 2024 de 14h-15h
  • Mercredi 18 septembre 2024 de 11h- 12h

Découvrir Istex pour le TDM

En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres