Machine learning approaches for the prediction of credit risk - Equipe Signal, Statistique et Apprentissage Accéder directement au contenu
Thèse Année : 2021

Machine learning approaches for the prediction of credit risk

Méthodes d’apprentissage statistique pour l’analyse prédictive du risque de crédit

Résumé

Predicting the possible occurrence of a future event, which may eventually never happen, is a fundamental problem that naturally occurs in most scientific as well as industrial fields.This problem, commonly referred to as survival analysis after its canonical application in epidemiology, has long been one of the classical problems in statistics whose exceptional contributions have enabled immeasurable advancements in the natural sciences.More recently, through advancements in the field of machine learning, those same natural scientific fields and industrial applications have also been able to achieve significant leap forwards by exploiting large amounts of high-dimensional data using highly flexible estimators.In this thesis we try to reconcile both approaches and show how to best make use of the highly flexible machine learning approaches in the survival analysis setting in a principled and motivated way.We show in this work how the classical ERM framework can be adapted to the survival analysis setting by introducing a reweighted objective called the Kaplan-Meier ERM and derive non-asymptotic error bounds without parametric assumptions on the true generating process, effectively bringing the results one has come to expect in the machine learning field to survival analysis.We also show how to construct highly flexible estimators of the survival function, one of the key building blocks of our Kaplan-Meier ERM framework. We formulate the survival as a normalizing flow problem and introduce a novel conditional normalizing flow estimator of the survival density, giving a tractable, easy to sample from, but highly expressive estimator of the survival density.In order to reduce the complexity of the two previous approaches, we introduce an estimator of the gradient of a black box function and show how to use it for variable selection, a simple yet highly effective method for dimensionality reduction.Finally, we apply the methods developed here to a particular instance of the survival problem: predicting the defaults of companies. We show how to use estimators of the probability of default to build optimal portfolios as well as how to efficiently make use of small data through hierarchical methods.
Prédire l'occurrence possible d'un événement futur, qui peut finalement ne jamais se produire, est un problème fondamental qui se pose naturellement dans la plupart des domaines scientifiques et industriels. Ce problème, communément appelé analyse de survie de par son application canonique en épidémiologie, est depuis longtemps l'un des problèmes classiques des statistiques descriptives dont les contributions exceptionnelles ont permis des avancées incommensurables dans les sciences naturelles.Plus récemment, grâce aux progrès réalisés dans le domaine de l'apprentissage automatique, ces mêmes domaines des sciences naturelles et les applications industrielles ont également été en mesure de réaliser d'importants bonds en avant en exploitant de grandes quantités de données à haute dimension à l'aide d'estimateurs très flexibles. Dans cette thèse, nous essayons de réconcilier les deux approches et de montrer comment utiliser au mieux les estimateurs issus de l'apprentissage automatique complexe, dans le cadre de l'analyse de survie. Nous montrons dans ce travail comment le cadre classique de la minimisation du risque empirique peut être adapté au cadre de l'analyse de survie en introduisant un objectif repondéré appelé risque de Kaplan-Meier et nous dérivons des bornes d'erreur non asymptotiques et non paramétriques, équivalent direct des résultats attendus dans le domaine de l'apprentissage automatique sans censure. Nous montrons également comment construire des estimateurs flexibles de la fonction de survie, l'un des principaux éléments nécessaires dans le cadre de notre approche de minimisation du risque de Kaplan-Meier. Nous formulons la survie comme un problème de flux normalisant et introduisons un nouvel estimateur conditionnel de flux normalisant de la densité de survie, ce qui donne un estimateur de la densité de survie tractable et facile à échantillonner. Afin de réduire la complexité des deux approches précédentes, nous introduisons un estimateur du gradient d'une fonction inconnue et montrons comment l'utiliser pour la sélection de variables, une méthode simple, mais très efficace de réduction de la dimensionnalité. Enfin, nous appliquons les méthodes développées ici à une instance particulière du problème de survie : la prédiction des défauts. Nous montrons comment utiliser les estimateurs de la probabilité de défaut pour construire des portefeuilles optimaux ainsi que comment utiliser efficacement des données de petite taille grâce aux méthodes hiérarchiques.
Fichier principal
Vignette du fichier
98243_AUSSET_2021_archivage.pdf (7.2 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03582658 , version 1 (21-02-2022)

Identifiants

  • HAL Id : tel-03582658 , version 1

Citer

Guillaume Ausset. Machine learning approaches for the prediction of credit risk. Machine Learning [stat.ML]. Institut Polytechnique de Paris, 2021. English. ⟨NNT : 2021IPPAT034⟩. ⟨tel-03582658⟩
390 Consultations
439 Téléchargements

Partager

Gmail Facebook X LinkedIn More