Stratégies d'adaptation pour la reconnaissance d'entités médicales en français - Conférences TALN RECITAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2022

Adaptation strategies for biomedical named entity recognition in French

Stratégies d'adaptation pour la reconnaissance d'entités médicales en français

Résumé

In a context where few annotated corpora for medical entity extraction are available, we study in this paper a hybrid approach combining the use of specialized knowledge and language model adaptation ; furthermore, we study the effect of pretraining a general language model (CamemBERT) with different biomedical corpora. The methods are tested on the QUAERO corpus. We show that, even with a small corpus, pretrain a model with a specialized corpus can improve the results. The combination of several approaches allows to gain one to seven points on the F1-score depending on the test corpus and the method.
Dans un contexte où peu de corpus annotés pour l’extraction d’entités médicales sont disponibles, nous étudions dans cet article une approche hybride combinant utilisation de connaissances spécialisées et adaptation de modèles de langues en mettant l’accent sur l’effet du pré-entraînement d’un modèle de langue généraliste (CamemBERT) sur différents corpus. Les résultats sont obtenus sur le corpus QUAERO. Nous montrons que pré-entraîner un modèle avec un corpus spécialisé, même de taille réduite, permet d’observer une amélioration des résultats. La combinaison de plusieurs approches permet de gagner un à sept points de F1-mesure selon le corpus de test et la méthode.
Fichier principal
Vignette du fichier
4999.pdf (990.13 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte

Dates et versions

hal-03701500 , version 1 (24-06-2022)

Identifiants

  • HAL Id : hal-03701500 , version 1

Citer

Tiphaine Le Clercq de Lannoy, Romaric Besançon, Olivier Ferret, Julien Tourille, Frédérique Brin-Henry, et al.. Stratégies d'adaptation pour la reconnaissance d'entités médicales en français. Traitement Automatique des Langues Naturelles(TALN 2022), Jun 2022, Avignon, France. pp.215-225. ⟨hal-03701500⟩
193 Consultations
108 Téléchargements

Partager

Gmail Facebook X LinkedIn More