Accéder directement au contenu Accéder directement à la navigation
Communication dans un congrès

Segmentation de texte non-supervisée pour la détection de thématiques à l'aide de plongements lexicaux

Résumé : Cet article présente les principales méthodes de segmentation automatique de documents textuels spécifiques. La tâche de segmentation thématique de texte consiste à analyser un document pour en extraire des sections cohérentes. Les méthodes de segmentation non supervisées cherchent à optimiser une fonction de probabilité de segmentation ou une fonction de similarité qui peut être calculée entre les blocs ou au sein des blocs. Elles sont réparties en trois catégories : les méthodes statistiques, les méthodes à base de graphes et les approches neuronales. Parmi les approches neuronales utilisées, nous nous intéressons tout particulièrement à celles qui utilisent des plongements lexicaux pour représenter des phrases et définir des segments thématiques. Tout d’abord, nous montrons que les plongements lexicaux permettent une amélioration nette des performances par rapport à des méthodes statistiques. Ensuite, nous évaluons l’impact du choix de la représentation vectorielle des phrases pour cette tâche de segmentation non supervisée.
Type de document :
Communication dans un congrès
Liste complète des métadonnées

Littérature citée [38 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-02786182
Contributeur : Sylvain Pogodalla <>
Soumis le : mardi 23 juin 2020 - 11:39:49
Dernière modification le : vendredi 9 octobre 2020 - 10:03:25

Fichier

177.pdf
Fichiers éditeurs autorisés sur une archive ouverte

Identifiants

  • HAL Id : hal-02786182, version 3

Citation

Alexandra Benamar. Segmentation de texte non-supervisée pour la détection de thématiques à l'aide de plongements lexicaux. 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL, Jun 2020, Nancy, France. pp.1-14. ⟨hal-02786182v3⟩

Partager

Métriques

Consultations de la notice

55

Téléchargements de fichiers

35