La génération de textes artificiels en substitution ou en complément de données d’apprentissage - Conférences TALN RECITAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2021

La génération de textes artificiels en substitution ou en complément de données d’apprentissage

Résumé

La qualité des textes générés artificiellement s’est considérablement améliorée avec l’apparition des transformers. La question d’utiliser ces modèles pour augmenter les données d’apprentissage pour des tâches d’apprentissage supervisé se pose naturellement. Dans cet article, cette question est explorée sous 3 aspects : (i) les données artificielles sont-elles un complément efficace ? (ii) peuvent-elles remplacer les données d’origines quand ces dernières ne peuvent pas être distribuées, par exemple pour des raisons de confidentialité ? (iii) peuvent-elles améliorer l’explicabilité des classifieurs ? Différentes expériences sont menées sur une tâche de classification en utilisant des données générées artificiellement en adaptant des modèles GPT-2. Les résultats montrent que les données artificielles ne sont pas encore suffisamment bonnes et nécessitent un pré-traitement pour améliorer significativement les performances. Nous montrons que les approches sac-de-mots bénéficient le plus de telles augmentations de données.
Fichier principal
Vignette du fichier
41.pdf (383.88 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte

Dates et versions

hal-03265896 , version 1 (23-06-2021)

Identifiants

  • HAL Id : hal-03265896 , version 1

Citer

Vincent Claveau, Antoine Chaffin, Ewa Kijak. La génération de textes artificiels en substitution ou en complément de données d’apprentissage. TALN 2021 - 28e Conférence sur le Traitement Automatique des Langues Naturelles, Jun 2021, Lille, France. pp.37-49. ⟨hal-03265896⟩
209 Consultations
221 Téléchargements

Partager

Gmail Facebook X LinkedIn More