Apprendre à représenter et à générer du texte en utilisant des mesures d'information - Département Image, Données, Signal Accéder directement au contenu
Thèse Année : 2021

Apprendre à représenter et à générer du texte en utilisant des mesures d'information

Learning to represent and generate text using information measures

Résumé

Natural language processing (NLP) allows for the automatic understanding and generation of natural language. NLP has recently received growing interest from both industry and researchers as deep learning (DL) has leveraged the staggering amount of available text (e.g web, youtube, social media) and reached human-like performance in several tasks (e.g translation, text classification). Besides, Information theory (IT) and DL have developed a long-lasting partnership. Indeed, IT has fueled the adoption of deep neural networks with famous principles such as Minimum Description Length (MDL), Information Bottleneck (IB) or the celebrated InfoMax principle. In all these principles, different measures of information (e.g entropy, MI, divergences) are one of the core concepts. In this thesis, we address the interplay between NLP and measures of information. Our contributions focus on two types of NLP problems : natural language understanding (NLU) and natural language generation (NLG). NLU aims at automatically understand and extract semantic information from an input text where NLG aims at producing natural language that is both well-formed (i.e grammatically correct, coherent) and informative. Building spoken conversational agents is a challenging issue and dealing with spoken conversational data remains a difficult and overlooked problem. Thus, our first contributions, are turned towards NLU and we focus on learning transcript representations. Our contribution focuses on learning better transcript representations that include two important characteristics of spoken human conversations : namely the conversational and the multi-modal dimension. To do so, we rely on various measures of information and leverage the mutual information maximization principle. The second group of contributions addresses problems related to NLG. This thesis specifically focuses on two core problems. First, we propose a new upper bound on mutual information to tackle the problem of controlled generation via the learning of disentangled representation (i.e style transfer and conditional sentence generation). Secondly, we address the problem of automatic evaluation of generated texts by developing a new family of metrics using various measuresof information.
Le traitement du langage naturel (NLP) permet de traiter et de générer automatiquement du langage naturel. Le NLP a récemment fait l'objet d'un intérêt croissant de la part de l'industrie et des chercheurs, car l'apprentissage profond (AD) a permis d'exploiter la quantité stupéfiante de données textuelles disponibles (e.g web, youtube, médias sociaux) et d'atteindre des performances similaires à celles de l'homme dans plusieurs tâches (e.g traduction, classification de textes). La théorie de l'information (TI) et l'apprentissage profond constituent un partenariat de longue date. En effet, l'informatique a favorisé l'adoption des réseaux neuronaux profonds grâce à des principes célèbres tels que la longueur minimale de description (LMD), le goulot d'étranglement de l'information (GIO) ou le célèbre principe InfoMax. Dans tous ces principes, différentes mesures de l'information (e.g entropie, MI, divergences) sont l'un des concepts fondamentaux. Dans cette thèse, nous abordons l'interaction entre le NLP et les mesures d'information. Nos contributions se concentrent sur deux types de problèmes PNL : la compréhension du langage naturel (NLU) et la génération du langage naturel (NLG). L'objectif de la NLU est de comprendre et d'extraire automatiquement des informations sémantiques d'un texte d'entrée, tandis que la NLG vise à produire un langage naturel à la fois bien formé (c'est-à-dire grammaticalement correct, cohérent) et informatif. La construction d’agents conversationnels parlés est un défi et le traitement des données conversationnelles parlées reste un problème difficile et négligé. Ainsi, nos premières contributions sont tournées vers l’UAL et nous nous concentrons sur l’apprentissage de représentations de transcriptions. Notre contribution se concentre sur l’apprentissage de meilleures représentations de transcriptions qui incluent deux caractéristiques importantes des conversations humaines parlées : la dimension conversationnelle et la dimension multimodale. Pour ce faire, nous nous appuyons sur diverses mesures d’information et nous tirons parti du principe de maximisation de l’information mutuelle. Le deuxième groupe de contributions aborde les problèmes liés au NLG. Cette thèse se concentre spécifiquement sur deux problèmes centraux. Premièrement, nous proposons une nouvelle limite supérieure de l’information mutuelle pour aborder le problème de la génération contrôlée via l’apprentissage de la représentation démêlée (transfert de style i.e et génération de phrases conditionnelles). Deuxièmement, nous abordons le problème de l’évaluation automatique des textes générés en développant une nouvelle famille de métriques utilisant diverses mesures d’information.
Fichier principal
Vignette du fichier
105473_COLOMBO_2021_archivage.pdf (8.26 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03471220 , version 1 (08-12-2021)

Identifiants

  • HAL Id : tel-03471220 , version 1

Citer

Pierre Colombo. Apprendre à représenter et à générer du texte en utilisant des mesures d'information. Document and Text Processing. Institut Polytechnique de Paris, 2021. English. ⟨NNT : 2021IPPAT033⟩. ⟨tel-03471220⟩
335 Consultations
258 Téléchargements

Partager

Gmail Facebook X LinkedIn More