Data-Istex propose désormais des collections de corpus d’actualités permettant d’expliquer ou de préciser le présent à partir des documents issus de l’archive ISTEX. Le premier corpus d’actualités concerne les Coronavirus SRAS MERS.
Constitués par l’équipe ISTEX de l’Inist-CNRS, ces corpus d’actualités se distinguent des corpus spécialisés par leur mode de constitution. En effet, leur requête cible des documents pertinents sur un sujet d’actualité sans prendre en considération de contraintes particulières liées à l’utilisation d’un outil de traitement automatique du langage ou de fouille de texte, comme c’est le cas pour les corpus spécialisés.
Des collections thématiques
Afin de permettre une meilleure exploration de ces corpus d’actualités, ceux-ci sont répartis en collections en fonction des domaines scientifiques correspondant à la classification Scopus :
- Sciences de la santé (Médecine; Biochimie médicale; Pharmacologie médicale; Génétique clinique, etc.)
- Sciences de la vie
- Sciences physiques (écologie, géologie, etc.)
- Sciences humaines et sociales (archéologie, la musique, etc.)
Actuellement, une seule collection est disponible (Sciences de la santé), mais le contenu de ce jeu de données est amené à s’enrichir progressivement.
Coronavirus : SRAS MERS
Recherche de ressources ISTEX concernant les 2 épidémies graves à coronavirus précédant la « covid-19 ou SRAS-CoV-2 » à savoir le « SRAS ou SRAS-CoV-1 » (2002) et le « MERS-CoV » (2012) : 2 531 documents
https://sras-mers.corpus.istex.fr/
Aller plus loin avec les corpus Istex
Formation : fouille de textes à travers l’exploitation des corpus ISTEX en octobre 2020
Formation : fouille de textes à travers l’exploitation des corpus ISTEX