Corpus EN-Istex : un corpus d'articles scientifiques annoté manuellement en entités nommées - Conférences TALN RECITAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2021

ISTEX-EN Corpus: a scientific paper corpus manually annotated in named entities

Corpus EN-Istex : un corpus d'articles scientifiques annoté manuellement en entités nommées

Résumé

We present here a new free resource: the EN-ISTEX Corpus, a corpus of two hundred scientific papers manually annotated in named entities. These papers have been extracted from the two more representative scientific publishers of ISTEX platform. All fields are concerned, even if the so-called hard sciences, in particular the life sciences and health, are predominant.
Nous présentons ici une nouvelle ressource libre : le corpus EN-ISTEX, un corpus de deux cents articles scientifiques annotés manuellement en entités nommées. Ces articles ont été extraits des deux éditeurs scientifiques les plus importants de la plateforme ISTEX. Tous les domaines sont concernés, même si les sciences dites dures, en particulier les sciences du vivant et de la santé, sont prépondérantes. Parmi ceux-ci vingt articles ont été multi-annotés afin de vérifier l'adéquation du guide d'annotation et la fiabilité de l’annotation. L'accord inter annotateurs sur ces vingt textes s'élève à 91 %.
Fichier principal
Vignette du fichier
67.pdf (394.25 Ko) Télécharger le fichier
Video_TALN_Corpus_Gold.mp4 (73.11 Mo) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte

Dates et versions

hal-03265916 , version 1 (23-06-2021)

Licence

Paternité

Identifiants

  • HAL Id : hal-03265916 , version 1

Citer

Enza Morale, Denis Maurel, Jeanne Villaneau, Jean-Yves Antoine. Corpus EN-Istex : un corpus d'articles scientifiques annoté manuellement en entités nommées. 28e Conférence sur le Traitement Automatique des Langues Naturelles, Jun 2021, Lille, France. pp.6-7. ⟨hal-03265916⟩
138 Consultations
48 Téléchargements

Partager

Gmail Facebook X LinkedIn More