Introduction au Credit Scoring
N.B.: ce post s’inspire librement de mon premier chapitre de thèse.
Ce post est destiné à poser les bases de l’apprentissage statistique dans le cadre des crédits à la consommation. On introduira dans une première partie la terminologie consacrée du crédit à la consommation avant de s’attarder plus en détails, dans une seconde partie, sur l’état de l’art industriel du Credit Scoring à travers une étude bibliographique et la pratique des institutions financières dont CACF. On clotûrera le post par une troisième partie : les maths qui justifient les pratiques décrites dans les deux premières parties.
Le marché du crédit à la consommation : quels enjeux ?
Qu’est-ce qu’un crédit à la consommation ?
En pratique, on peut distinguer majoritairement trois produits de crédit à la consommation.
Le premier d’entre eux, le crédit classique, est le produit historique. De la même manière qu’un crédit immobilier, le client emprunte une somme fixe qui lui est attribuée au moment du financement et qu’il rembourse selon un échéancier défini à l’avance (taux et nombre de mensualités fixes). D’un point de vue statistique, le traitement est relativement simple : que ce soit à l’octroi, pour déterminer le risque du client, ou au cours de la vie du dossier, pour provisionner les pertes potentielles, tout est connu à l’avance. Il suffit en quelque sorte de vérifier le paiement de la mensualité à la date prévue. Il convient également de préciser que certains crédits classiques sont dits affectés, c’est-à-dire qu’ils financent un bien précis et identifié, de sorte que le prêt transite directement de l’organisme prêteur au vendeur (un concessionnaire par exemple). Par ailleurs, la mise en défaut du crédit entraîne généralement une procédure de recouvrement de la dette qui peut se solder, dans le cas d’un crédit affecté, par la récupération du bien par un huissier. Là encore, d’un point de vue statistique, il paraît indispensable de consigner les caractéristiques du bien sous-jacent afin d’intégrer sa valeur résiduelle récupérable en cas de défaut.
Le second produit, développé à partir de 1965 en France et ayant connu une forte croissance depuis [25] mais néanmoins bien moins répandu en Europe qu’aux Etats-Unis par exemple [26], est le crédit renouvelable. Un capital dit accordé ou autorisé est attribué au demandeur qui peut utiliser tout ou partie de ce montant et le rembourse à un taux et par mensualités dépendants tous deux de la proportion du capital consommé. Au fur et à mesure du remboursement du capital emprunté, le capital “empruntable”, c’est-à-dire la différence entre le capital accordé et le capital emprunté à date, se reconstitue et de nouvelles utilisations sont possibles, toujours dans la limite du capital accordé au départ. D’un point de vue statistique à nouveau, plusieurs problèmes se posent du fait du caractère intrinsèquement aléatoire de l’utilisation ou non de tout ou partie de la ligne de crédit accordée. Plus précisément, ce produit présente un risque important porté par deux facteurs : premièrement, le taux élevé attire des clients risqués, au taux de défaut plus élevé que pour un crédit classique par exemple ; deuxièmement, ces crédits portent un risque dit de hors-bilan très fort, puisqu’à tout moment, l’ensemble des crédits accordés mais non utilisés et donc non comptabilisés “au bilan”, c’est-à-dire comme une dette du client envers l’établissement bancaire, peuvent être utilisés et faire défaut. La mauvaise quantification de ce risque est à présent reconnu comme un important catalyseur de la récente crise financière[29].
Enfin, la location a récemment connu un essor important [28]. D’abord concentrée sur le secteur automobile, elle se développe actuellement pour les produits électroniques (smartphones notamment) et même plus récemment pour des produits plus insolites comme les matelas [27]. Comme le crédit affecté, il est important de prendre en compte les données du bien loué afin d’évaluer le risque que porte ce produit, la difficulté supplémentaire reposant sur l’éventualité de l’exercice de l’hypothétique option d’achat.
De cette partie, deux considérations statistiques doivent retenir notre attention : d’abord, ces différents produits nécessitent des traitements différents dans la mesure où leur risque est intrinsèquement différent ; ensuite, les données disponibles pour chacun de ces produits diffèrent : par exemple, les données du produit financé ne sont disponibles que pour les crédits affectés et les locations.
Crédit Agricole Consumer Finance (CACF)
CACF opère dans de nombreux pays. En France, c’est principalement à travers la marque Sofinco que sont commercialisés les crédits à la consommation pour lesquels il existe une relation directe entre CACF et le client (dite B2C), par exemple lorsqu’un demandeur se rend directement sur le site internet sofinco.fr.
Par ailleurs, de nombreux crédits à la consommation sont distribués à travers un réseau de partenaires, qui jouent le rôle d’intermédiaires (on parle alors de B2B) : concessionnaires automobile, distributeurs d’électroménager, etc.
Enfin, CACF faisant partie du groupe Crédit Agricole, de nombreuses agences bancaires distribuent des crédits à la consommation à leur clientèle bancarisé, par l’intermédiaire des gestionnaires de compte.
Là encore, on constate que les spécificités des canaux de distribution des crédits impactent grandement la collecte des données et leur traitement statistique. En effet, les informations collectées sur le client, le produit et éventuellement l’apporteur d’affaires sont différentes selon le canal.
Dans la partie suivante, la méthodologie présentée est spécifique à CACF ; il pourra néanmoins être admis que, dans les grandes lignes, cette méthodologie est similaire à la concurrence d’une part, et à la pratique d’autres pays (européens du moins) puisque la législation sur la protection et le traitement des données est sensiblement similaire (du fait de l’entrée en vigueur récente de la GDPR) et le fait que les établissements bancaires possèdent généralement des filiales dans plusieurs pays d’Europe et y font appliquer la même méthodologie.
Le Credit Scoring : état de l’art de la pratique industrielle
Collecte des données
La partie précédente a mis en exergue la pluralité des sources de données : Crédit Agricole, à travers sa filiale dédiée aux crédits à la consommation Crédit Agricole Consumer Finance, finance des crédits en France à travers sa marque Sofinco (B2C), ou en magasins / concessions chez des partenaires (B2B) où les données du demandeur de crédit sont collectées. La figure [1] présente par exemple le formulaire de souscription en vigueur pour un crédit automobile auprès de Sofinco via son site web. Dans cet exemple, des données socio-démographiques et du véhicule à financer sont demandées. Pour un client, elles sont notées \(\boldsymbol{x} = (x_j)_1^d\) dans la suite (on reviendra de manière plus formelle sur l’ensemble des notations introduites pour les besoins du cas d’application en fin de chapitre). Ces informations sont de nature continue, c’est-à-dire \(x_j \in \mathbb{R}\(, ou catégorielle, c’est-à-dire que l’on se donne, à titre d’exemple, un encodage “Métier = technicien” \(\rightarrow x_j = 1\), “Métier = ouvrier” \(\rightarrow x_j = 2\), …de telle sorte que l’on considère que \(x_j \in \mathbb{N}_{o_j} = \{1, \dots,l_j\}\), où \(l_j\) représente le nombre de modalités de xj et sans notion d’ordre.
On considère que ces caractéristiques sont une réalisation du vecteur aléatoire de design \(\boldsymbol{x} = (X_j)_1^d \in \mathcal{X}\) sur un espace probabilisé (Ω, 𝒜, ℙ), que l’on observe sur l’ensemble des n demandeurs de crédit à la consommation pour former, dans la littérature consacrée au machine learning, la matrice de design \(\boldsymbol{\mathbf{x}} = (x_{i,j})_{1 \leq i \leq n, 1 \leq j \leq d}\).
A ce stade, deux remarques importantes doivent être faites : d’abord, une partie de ces caractéristiques peut être absente. Par ailleurs, elles sont à ce stade déclaratives (des contrôles supplémentaires peuvent avoir lieu en fonction du montant demandé par exemple), et donc associées à un degré de certitude variable, la tentation étant grande, afin de s’assurer de l’attribution du crédit, de déformer la réalité de ses charges, ses revenus, etc. En synthèse, le tableau [1] présente un exemple simplifié de matrice de design en Credit Scoring. En pratique un tel tableau structuré est directement mis à disposition des statisticiens de CACF à travers le logiciel de traitement statistique SAS.
Travail | Logement | Durée d’emploi | Enfants | Statut familial | Salaire |
---|---|---|---|---|---|
Ouvrier qualifié | Propriétaire | 20 | 3 | Veuf | 30 000 |
Technicien | En location | Manquant | 1 | Concubinage | 1700 |
Technicien spécialisé | Accédant | 5 | 0 | Divorcé | 4000 |
Cadre | Par l’employeur | 8 | 2 | Célibataire | 2700 |
Employé | En location | 12 | 2 | Marié | 1400 |
Ouvrier | Par la famille | 2 | 0 | Célibataire | 1200 |
Préparation des données et segmentation
Le tableau [1] fait apparaître deux problèmes bien connus en statistique : la gestion des observations manquantes et celle des valeurs extrêmes (outliers).
Concernant les observations manquantes, deux stratégies différentes peuvent être employées. CACF réalise une “segmentation” de sa clientèle, de sorte que, à titre d’exemple, plusieurs modèles statistiques spécialisés à un sous-ensemble de la population totale peuvent être employés, chacun d’eux bénéficiant alors de données complètes. Le processus de choix des “segments”, i.e. la partition des lignes de \(\boldsymbol{\mathbf{x}}\) sur lesquels développer des modèles séparés, est basé soit sur l’histoire de l’entreprise (par exemple, un modèle spécifique aux crédits automobiles a pu être développé au début de la commercialisation de ce produit), soit sur des heuristiques très simples.
L’autre pré-traitement répandu dans le milieu du Credit Scoring pour faire face aux données manquantes et aux valeurs extrêmes est la discrétisation (pour les variables continues uniquement). Cela consiste à transformer une variable continue dont certaines observations sont manquantes en une variable catégorielle dont chaque modalité correspond à un intervalle de la variable continue d’origine et / ou au fait que l’observation d’origine était manquante. Un exemple de discrétisation de la variable “Âge du client” est visible en figure [2] ; ainsi, le fait que l’observation soit manquante est considérée comme une information à part entière et les valeurs extrêmes sont regroupées dans le dernier intervalle.
Âge du client | 18 | Manquant | 47 | 25 | 35 | 61 |
---|---|---|---|---|---|---|
Âge discrétisé | 18-30 & Manquant | 18-30 & Manquant | 45-∞ | 18-30 | 30-45 | 45-∞ |
À présent, on dispose de données rendues complètes sur l’ensemble des demandeurs de crédit et l’on souhaite prédire le niveau de risque présenté par un nouveau demandeur. Il convient donc dans un premier temps de quantifier le risque de chaque échantillon de la matrice de design \(\boldsymbol{\mathbf{x}}\).
Définir les “bons” et “mauvais” payeurs
L’institut financier emprunte de l’argent sur les marchés à un taux relativement faible et le redistribue aux demandeurs de crédit qu’il juge profitables, c’est-à-dire susceptible de rembourser cette dette. Il y a donc un système d’acceptation, reposant sur un ensemble de règles automatiques et potentiellement une étude humaine. On considère que le mécanisme qui conduit au financement in fine de la demande de crédit est aléatoire, noté Z et prenant les valeurs f (pour les clients dont la demande est financée) et nf (pour les non-financés).
Il convient de noter ici que les différents processus qui conduisent à un non financement du dossier sont très nombreux : interruption / rétractation du demandeur, refus automatique (endettement, score existant, …) ou refus d’un conseiller clientèle.
En essence, il est souhaitable de mesurer la profitabilité de chaque crédit, par exemple en actualisant les remboursements et les pertes générés par chaque client à la date de déblocage des fonds, et en déduisant l’ensemble des coûts (financement, traitement, recouvrement, …). En pratique, peu d’institutions procèdent ainsi malgré quelques travaux récents [21]. Par ailleurs, les caractéristiques du client sont elles-mêmes évolutives : les informations collectées à t = 0 au moment de la demande peuvent avoir changé au moment du financement du bien à t = fin (qui peut intervenir plusieurs mois après pour un véhicule sur commande par exemple), tout comme les moments de vie ultérieurs éventuels comme les divorces, les pertes d’emploi, …qui ne peuvent être collectées ultérieurement par les organismes financiers, comme schématisé sur la figure [2].
En conséquence, on sélectionne généralement 12 mois de dossiers de demandes de crédit pour s’affranchir de phénomènes de saisonnalité et on observe le mois suivant la date de financement de chaque dossier si la mensualité a été remboursée. On répète le processus jusqu’à un horizon de 12 à 24 mois selon la disponibilité des données. On dispose alors pour chaque client d’une série temporelle qui indique si le remboursement mensuel a été effectué ou non. On cherche ensuite à se ramener à une seule variable aléatoire cible \(Y \in \{0,1\}\) qualifiant un client “bon” par Y = 1 ou “mauvais” par Y = 0. L’heuristique actuellement utilisée est la suivante :
Pour un ensemble d’horizons T ∈ {6, 12, 18, 24} mois et d’impayés consécutifs I ∈ {1, …, 4} ,
Tracer le graphique d’“horizon du risque” : la proportion de clients ayant I impayés consécutifs T mois après leur financement, dont un exemple est donné en figure [3] pour I = 2.
On cherche un point d’inflexion sur cette courbe, qui traduirait le fait qu’au-delà d’un certain horizon T, la proportion de dossiers “mauvais” n’évolue plus et l’on considère que tous les “mauvais” clients sont déjà identifiés.
Construire le tableau des Roll Rates, dont un exemple est donné en tableau [3] pour T = 12.
On cherche le nombre d’impayés consécutifs I au-delà duquel la proportion de dossiers se dégradant (et donc fortement susceptibles de générer des pertes) est “importante”, généralement au-delà de 50 %.
Choisir le couple (T, I) qui répond au mieux aux critères ci-dessus et permet d’avoir un nombre significatif de dossiers “mauvais”. Il faut garder à l’esprit que plus l’on choisit un horizon T faible et / ou un nombre élevé d’impayés consécutifs I, plus la proportion π̂0 (l’estimateur de la moyenne pour πi = p(Y = i)) de dossiers “mauvais” par rapport aux dossiers “bons” devient faible. Or, on veut éviter au maximum les nombreux problèmes que génèrent des classes déséquilibrées en classification supervisée [16].
Impayés consécutifs | Amélioration | Stabilité | Dégradation |
---|---|---|---|
0 | 0 % | 95 % | 5 % |
1 | 60 % | 10 % | 30 % |
2 | 10% | 30 % | 60 % |
3 | 5% | 25 % | 70 % |
4 | 5% | 15 % | 80 % |
5 | 5% | 5 % | 90 % |
Pour des raisons pratiques et historiques, on choisit généralement T = 12 mois et I = 2 impayés consécutifs. On considère donc comme “mauvais” (Y = 0) les dossiers financés ayant eu au moins 2 mensualités impayées consécutives dans les 12 mois qui ont suivi leur financement, comme “bons” (Y = 1) les dossiers n’ayant pas eu d’impayés, comme “indéterminés” les dossiers ayant eu 1 impayé qui sont exclus de la modélisation, et on exclut également tous les dossiers non financés (\(Z=\text{nf}\)). On a alors le vecteur de réponses \(\boldsymbol{\mathbf{y}}\) dont un exemple est donné en tableau [4].
y |
---|
1 |
Manquant - Non-financé |
0 |
Manquant - Indéterminé |
0 |
1 |
On en conclut que la performance de remboursement n’est observable que pour les clients financés non indéterminés, que l’on va assimiler dans la suite à ceux pour lesquels \(Z=\text{f}\). Toujours est-il qu’à présent, on dispose de données \((\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}})\) complètes grâce auxquelles on souhaite apprendre un score qualifiant la qualité des emprunteurs, et associé à un cutoff produisant une fonction de classification binaire discernant, parmi les futurs demandeurs de crédit, les “bons” des “mauvais” clients.
L’apprentissage d’un score
Malgré l’existence de nombreux modèles statistiques permettant de prédire \(Y\) connaissant les caractéristiques \(\boldsymbol{x}\) d’un client et que nous discuterons en partie 1.3, la régression logistique est très largement utilisée en Credit Scoring [20]. Plusieurs travaux empiriques ont suggéré que du fait du faible nombre de covariables et de classes très mélangées (en particulier, absence de frontière de séparation linéaire entre “bons” et “mauvais” clients), aucun autre modèle de classification supervisée ne produit de résultats significativement supérieurs à la régression logistique sur les données à disposition de leurs auteurs respectifs (se référer par exemple à [23][17][18]).
Le modèle de régression logistique, contrairement à ce que son nom suggère, est un modèle de classification qui impose une structure particulière de loi de probabilité d’une variable aléatoire cible binaire \(Y\) conditionnellement à des covariables \(\boldsymbol{x} \in \mathcal{X}=\mathbb{R}^d\) donnée par :
$$\label{eq:logit}
\text{logit}[p(Y=1 | \boldsymbol{x}=\boldsymbol{x}, \boldsymbol{\theta})] = \ln \frac{p(Y=1 | \boldsymbol{x}=\boldsymbol{x}, \boldsymbol{\theta})}{1-p(Y=1 | \boldsymbol{x}=\boldsymbol{x}, \boldsymbol{\theta})} = (1,\boldsymbol{x})' \boldsymbol{\theta}.$$
Le vecteur \(\boldsymbol{\theta} = (\theta_0,\dots,\theta_d) \in \Theta = \mathbb{R}^{d+1}\) est appelé paramètre. Le coefficient θ0 définit le biais, c’est-à-dire \(\text{logit}[p(Y=1 | \boldsymbol{x}=\boldsymbol{0}, \boldsymbol{\theta})]\). Cette relation est ensuite inversée afin d’obtenir la probabilité d’être “bon” sachant les caractéristiques d’un client et le paramètre \(\boldsymbol{\theta}\) :
$$p(Y=1 | \boldsymbol{x}=\boldsymbol{x}, \boldsymbol{\theta}) = \frac{1}{1+\exp(-(1,\boldsymbol{x})' \boldsymbol{\theta})},$$
et dont des exemples de courbe sont donnés en figure [4].
On peut facilement étendre ce modèle aux variables catégorielles \(X_j \in \mathbb{N}_{o_j}\) en procédant à un encodage one-hot, c’est-à-dire en créant une matrice dite “disjonctive” à i lignes (correspondant toujours à chaque individu 1 ≤ i ≤ n) et \(l_j\) colonnes binaires (correspondant respectivement à la présence ou l’absence de chaque modalité). À l’indice \((i, k)\) de cette matrice, on trouve la valeur 1 si \(x_{i,j} = k\), pour toute modalité \(1 \leq k \leq l_j\), 0 sinon. Par exemple pour \(l_j=3\), un encodage possible est :
$$\left( \begin{array}{c} 1 \\ 2 \\ 3 \end{array} \right) \to \left( \begin{array}{ccc} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array} \right).$$
Cette pratique conduit cependant à une sur-paramétrisation : la somme des colonnes pour chaque ligne vaut 1 et la matrice de design, complétée d’une première colonne de 1 pour le terme d’intercept, n’est alors pas de plein-rang, ce qui pose un problème pour l’estimation de \(\boldsymbol{\theta}\) comme nous le verrons en partie 1.3 ; il faut donc “supprimer” une colonne en considérant une modalité dite de référence (i.e. pour laquelle le coefficient est nul). Cet encodage est implicite dans de nombreux logiciels statistiques, si bien que l’on notera les coefficients de régression logistique associés à chaque valeur d’une variable catégorielle \(X_j\) en exposant : \(\theta_j^{1},\dots,\theta_j^{l_j}\). On considérera la dernière modalité comme référence, d’où \(\theta_j^{l_j} = 0\).
En fonction du risque que l’institut financier est prêt à prendre, on décide d’un cut, c’est-à-dire d’une probabilité de défaut au-delà de laquelle on refuse la demande de crédit. On désigne traditionnellement par score la fonction \(S(\cdot,\boldsymbol{\theta}): \boldsymbol{x} \mapsto (1,\boldsymbol{x})' \boldsymbol{\theta}\).
La question du support de \(\boldsymbol{\theta}\), i.e. de ses composantes non nulles, est un problème plus connu sous le nom de “sélection de variables” en statistiques comme en machine learning. Un coefficient nul témoigne du fait que la variable associée \(X_j\), conditionnellement aux autres variables que l’on notera \(\boldsymbol{X}_{-\{j\}}\) dans la suite, ne permet pas d’expliquer \(Y\). En industrie, il est courant de commencer par sélectionner les variables dont la corrélation avec la variable cible est jugée suffisante. Cette technique univariée ne permet pas de rendre compte de phénomènes multivariées comme la redondance d’information entre covariables ou, à l’inverse, la qualité prédictive d’une variable dont la corrélation avec la cible peut être faible mais qui apporterait une information conditionnellement aux autres variables explicatives. La communauté statistique a donc développé des outils spécifiques à cette question que l’on développera, avec les fondements théoriques des modèles paramétriques comme la régression logistique, en partie 1.3.
La métrique de performance
La métrique utilisée pour comparer la qualité de scores (le score ancien et un nouveau score proposé par exemple) est traditionnellement l’indice de Gini, qui est en fait directement lié à l’aire sous la courbe (AUC) ROC. Cette courbe représente la sensibilité d’un classificateur binaire (i.e. la proportion de “bons” clients classés comme “bons”) en fonction de son antispécificité (1− la spécificité, i.e. la proportion de “mauvais” clients classés comme “bons”). L’AUC s’interprète de plusieurs manières, dont par exemple la probabilité qu’un “bon” (tiré aléatoirement parmi les “bons”) ait un score plus élevé qu’un “mauvais” (tiré aléatoirement parmi les “mauvais”). Un exemple de courbe ROC est donné en figure [5].
Il faut remarquer à ce stade que ce critère est à la fois différent de celui optimisé par la régression logistique, que nous verrons en détails dans la partie suivante, et de l’objectif industriel de maximiser le profit, soit directement par l’usage de variables de nature financière [21], soit indirectement par le choix d’un cut approprié. Néanmoins, une étude empirique [22] montre que la maximisation de ces différents objectifs est a priori relativement équivalente, la qualité prédictive de différents modèles maximisant chacun de ces objectifs étant similaire sur le jeu de données considéré par l’auteur. On suppose cette équivalence dans la suite et sauf indication contraire, les résultats sur données réelles sont donnés en Gini, dont on donnera un intervalle de confiance selon la méthode développée dans [15].
Suivi temporel de la performance du score
Les changements de contexte économique, agissant à la fois sur le vecteur de variables explicatives \(\boldsymbol{x} = (x_1, \dots, x_d)\) défini en section 1.2.4 et représentant les caractéristiques du client (l’inflation ou le passage à l’euro impacte l’échelle des salaires par exemple) et la variable cible (la récession entraîne l’augmentation des impayés), la performance du score, selon la métrique précédemment décrite, évolue au cours du temps. Naturellement, cette évolution est la plupart du temps à la baisse puisque la fonction de score apprise s’éloigne de la vérité. Par ailleurs, comme vu en partie 1.2.3, l’apprentissage du score nécessite environ 30 mois de recul, auxquels peuvent s’ajouter un délai de mise en production. Dès lors, le statisticien voit émerger deux questions : premièrement, quels sont les “signes” indiquant qu’une refonte, c’est-à-dire la mise en place d’un nouveau modèle prédictif, est nécessaire ? Deuxièmement, est-il possible de construire un modèle prédictif “robuste” à ce problème, communément désigné par population drift dans la littérature [23] ?
En pratique, seules la baisse de performance d’un score et / ou son ancienneté importante (5 à 10 ans) conduisent à sa refonte et l’aspect temporel n’est pas pris en compte dans la construction ou l’utilisation des scores.
En conclusion, le Credit Scoring repose sur des bases statistiques qui soulèvent de nombreuses questions, dont certaines trouvent dans le milieu industriel une réponse ad hoc, très empirique, qu’il convient de formaliser. La partie suivante plonge l’apprentissage du score dans le contexte de l’apprentissage statistique.
Apprentissage statistique : fondements théoriques du Credit Scoring
Après cette mise en situation industrielle qui aura mis en avant les approximations statistiques et autres heuristiques actuellement utilisées dans le milieu bancaire, il convient de formaliser les concepts introduits en partie 1.2. Cette partie s’inspire librement d’introductions de plusieurs ouvrages, dont le bien connu [24].
Mécanisme de génération des données
On rappelle brièvement les notations introduites dans la partie précédente : les clients ont d caractéristiques indicées par j = 1, …, d dans la suite du manuscrit. Une caractéristique \(X_j\) est une variable aléatoire dont on notera la réalisation \(x_j\). L’aggrégation de toutes ces caractéristiques sous la forme d’un vecteur aléatoire est distinguée, comme les autres vecteurs du manuscrit, par une police grasse, en l’occurence \(\boldsymbol{x}\). Ce vecteur appartient à l’espace \(\mathcal{X}\) qui est un produit de \(\mathbb{R}\) (variables continues) ou \(\mathbb{N}_{o_j}\) (variables catégorielles à \(l_j\) modalités). La variable aléatoire binaire à prédire, le caractère bon / mauvais d’un client, et sa réalisation sont notées respectivement \(Y \in \{0,1\}\) et \(Y\). Le même raisonnement s’applique à la variable aléatoire binaire de financement / non financement et sa réalisation, notées respectivement \(z \in \{\text{f},\text{nf}\}\) et \(z\). Enfin, on dispose d’un n-échantillon \(\mathcal{T} = (\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}},\mathbf{\boldsymbol{z}})\), où, \(\boldsymbol{\mathbf{x}} = (\boldsymbol{x}_i)_1^n\), \(\boldsymbol{\mathbf{y}} = (Y_i)_1^n\) et \(\mathbf{\boldsymbol{z}} = (z_i)_1^n\).
On note p la pdf de \((\boldsymbol{x},Y)\) et \(p(\cdot | \boldsymbol{x})\) la loi de probabilité de Y sachant \(\boldsymbol{x}\), qui s’obtient à partir de p et de la relation de Bayes:
$$p(Y | \boldsymbol{x}) = \frac{p(\boldsymbol{x},y)}{p(\boldsymbol{x})},$$
que l’on désignera par “oracle” dans la suite. On aimerait “retrouver” cette loi par calcul, or elle est inconnue (si elle était connue, le problème serait résolu !), et on a uniquement accès au n-échantillon \(\mathcal{T}\).
Imaginons un instant que \(p(\cdot | \boldsymbol{x})\) soit connu. Une première approche consiste en quelque sorte à exprimer notre connaissance de cette loi en la forçant à appartenir à un modèle (ou à une famille de modèles). Autrement dit, on suppose que \(p(\cdot | \boldsymbol{x})\) appartient à un ensemble (très) restreint des lois possibles. Comme énoncé plus haut, dans le cadre du Credit Scoring, on s’intéresse au modèle de régression logistique [eq:logit] noté \(p_{\boldsymbol{\theta}}(\cdot | \boldsymbol{x})\) dans la suite. Dès lors, une formulation simple du problème consiste à se donner une notion de distance entre \(p(\cdot | \boldsymbol{x})\) et \(p_{\boldsymbol{\theta}}(\cdot | \boldsymbol{x})\) afin d’estimer le “meilleur” paramètre \(\boldsymbol{\theta}^\star\) au sens de cette “distance”. Un bon candidat est la divergence de Kullback-Leibler [19] :
$$\label{eq:KL}
\text{KL}(p(\cdot | \boldsymbol{x})||p_{\boldsymbol{\theta}}(\cdot | \boldsymbol{x})) = \sum_{y \in \{0,1\}} p(y | \boldsymbol{x}) \ln \left( \frac{p(y | \boldsymbol{x})}{p_{\boldsymbol{\theta}}(y | \boldsymbol{x})} \right).$$
Cette divergence est donnée pour une valeur particulière \(\boldsymbol{x}\) de \(\boldsymbol{x}\). Or, l’institut financier voudrait que le modèle \(p_{\boldsymbol{\theta}}(\cdot | \boldsymbol{x})\) soit similaire à \(p(\cdot | \boldsymbol{x})\) en moyenne pour tous ses clients, ce qui conduit au paramètre
$${\boldsymbol{\theta}^\star} = \arg\min_{\boldsymbol{\theta}} \mathbb{E}_{\boldsymbol{x}} [\text{KL}(p(\cdot | \boldsymbol{x})||p_{\boldsymbol{\theta}}(\cdot | \boldsymbol{x}))].$$
Comme \(\text{KL}(p(\cdot | \boldsymbol{x})||p_{\boldsymbol{\theta}}(\cdot | \boldsymbol{x})) \geq 0\), on peut voir cette opération comme une projection de la loi \(p(\cdot | \boldsymbol{x})\) dans l’espace du modèle (ou de la famille de modèles), illustrée sur la figure [6]. Cette interprétation géométrique permet d’affirmer que si \(\min_{\boldsymbol{\theta}} \mathbb{E}_{\boldsymbol{x}} [\text{KL}(p(\cdot | \boldsymbol{x})||p_{\boldsymbol{\theta}}(\cdot | \boldsymbol{x}))] = 0\), alors on a pour tout \(\boldsymbol{x}\), \(p(\cdot | \boldsymbol{x}) = p_{\boldsymbol{\theta}^\star}(\cdot | \boldsymbol{x})\). Dans ce cas, on parlera dans la suite de “vrai modèle” ; dans le cas contraire, de “modèle mal spécifié” (anglicisme de misspecified model).
N’ayant accès à \(p(\cdot | \boldsymbol{x})\) qu’à travers un échantillon, il nous faut développer un critère empirique à partir du critère théorique (souvent de nature asymptotique) donné ici.
Minimisation du risque empirique et maximum de vraisemblance
On peut réécrire \(\text{KL}(p(\cdot|\boldsymbol{x})||p_{\boldsymbol{\theta}}(\cdot|\boldsymbol{x}))\) pour faire apparaître une quantité indépendante de \(p_{\boldsymbol{\theta}}\) :
$$\text{KL}(p(\cdot|\boldsymbol{x})||p_{\boldsymbol{\theta}}(\cdot|\boldsymbol{x})) = \sum_{y \in \{0,1\}} p(y|\boldsymbol{x}) \ln [p(y|\boldsymbol{x})] - \underbrace{\sum_{y \in \{0,1\}} p(y|\boldsymbol{x}) \ln [p_{\boldsymbol{\theta}}(y|\boldsymbol{x})]}_{\mathbb{E}_{Y | \boldsymbol{x} = \boldsymbol{x}} [\ln[p_{\boldsymbol{\theta}}(\cdot|\boldsymbol{x})]]}.$$
On va donc naturellement se concentrer sur la maximisation du second terme pour l’ensemble des clients en moyenne, c’est-à-dire
$$\boldsymbol{\theta}^\star = \arg\max_{\boldsymbol{\theta}} \mathbb{E}_{\boldsymbol{x}} [\mathbb{E}_{Y | \boldsymbol{x}} [\ln[p_{\boldsymbol{\theta}}(\cdot|\boldsymbol{x})]]] = \arg\max_{\boldsymbol{\theta}} \mathbb{E}_{(\boldsymbol{x},Y) \sim p} [\ln[p_{\boldsymbol{\theta}}(Y | \boldsymbol{x})]].$$
On se place dans le cadre d’un n-échantillon i.i.d. ce qui est toujours le cas en Credit Scoring sous réserve que les crédits observés soient issus de clients différents (ce que l’on supposera dans la suite). L’hypothèse d’indépendance nous permet aussi d’approximer l’espérance sur \(\mathcal{X} \times \mathcal{Y}\) par l’espérance sur l’échantillon et on obtient le critère \(\ell(\theta;\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}})\) :
$$\label{eq:vraisemblance}
\ell(\boldsymbol{\theta};\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}}) = \sum_{i=1}^n \ln[p_{\boldsymbol{\theta}}(y_i | \boldsymbol{x}_i) ].$$
Ce critère correspond en fait au maximum de vraisemblance : la probabilité d’observer les données \(\boldsymbol{\mathbf{y}}\) sachant les covariables \(\boldsymbol{\mathbf{x}}\) et le paramètre \(\boldsymbol{\theta}\). L’hypothèse d’indépendance nous permet d’écrire la vraisemblance sous la forme d’un produit :
$$\mathcal{L}(\boldsymbol{\theta};\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}}) = p_{\boldsymbol{\theta}}(y_1,\dots,y_n | \boldsymbol{x}_1,\dots \boldsymbol{x}_n) = \prod_{i=1}^n p_{\boldsymbol{\theta}}(y_i | \boldsymbol{x}_i).$$
En passant cette expression au logarithme, fonction strictement croissante, on retrouve bien la formulation de \(\ell(\boldsymbol{\theta};\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}})\).
Dans la littérature machine learning, où l’on minimise plutôt un risque empirique, sous-entendu de “mauvais classement” au sens d’une fonction de coût à définir, le maximum de vraisemblance est équivalent au minimum de la “log loss”. Dans la suite, on préférera la notion de vraisemblance.
Dans le cas de la régression logistique [eq:logit], la log-vraisemblance prend la forme suivante :
$$\ell(\boldsymbol{\theta};\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}}) = \underbrace{\sum_{i=1}^n y_i (\boldsymbol{\theta}' \times (1,\boldsymbol{x}))}_{\text{fonction affine de } \boldsymbol{\theta}} - \underbrace{\ln(1 + \exp(\boldsymbol{\theta}' \times (1,\boldsymbol{x}))}_{\text{log-sum-exp d'une fonction affine de } \boldsymbol{\theta}}.$$
Cette fonction est concave et tout maximum local est donc global.
Passage à la dérivée du critère de log-vraisemblance
Le “réflexe” pour obtenir un maximum local conduit à dériver la fonction de vraisemblance et trouver \(\hat{\boldsymbol{\theta}}\) pour lequel cette dérivée est nulle :
$$\dfrac{\partial \ell}{\partial \theta_j} (\hat{\boldsymbol{\theta}};\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}})= \sum_{i=1}^n (y_i - p_{\hat{\boldsymbol{\theta}}}(1|\boldsymbol{x}_i)) x_{i,j} = 0.$$
Cependant, contrairement à la régression linéaire où l’on dispose d’une formule explicite pour l’estimateur du maximum de vraisemblance \(\hat{\boldsymbol{\theta}}\), il n’existe rien de tel pour la régression logistique puisque cette équation n’est pas linéaire en \(\boldsymbol{\theta}\) et l’on doit recourir à des algorithmes itératifs, dont le plus connu est la descente de gradient.
Algorithmes itératifs de descente de gradient
On désigne le gradient de la log-vraisemblance par rapport à \(\boldsymbol{\theta}\) par \(\nabla_{\boldsymbol{\theta}} \ell = \left( \dfrac{\partial \ell}{\partial \theta_j} \right)_0^d\). L’algorithme de descente de gradient consiste à mettre à jour à l’étape (s) le paramètre \(\boldsymbol{\theta}^{(s)}\) dans la direction qui améliore le critère \(\ell(\boldsymbol{\theta};\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}})\) :
$$\boldsymbol{\theta}^{(s+1)} = \boldsymbol{\theta}^{(s)} + \epsilon \nabla_{\boldsymbol{\theta}} \ell(\boldsymbol{\theta}^{(s)};\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}}).$$
Une immense littérature est dédiée au choix de ϵ, appelé learning rate en machine learning et à d’autres astuces destinées à accélérer la convergence éventuelle vers \(\hat{\boldsymbol{\theta}}\). Cette littérature s’est particulièrement développée dans le cadre des réseaux de neurones, pour lesquels la méthode de Newton, bien adaptée à la régression logistique et que l’on développera ci-après, n’est pas adaptée.
Méthode de Newton-Raphson
On note la matrice hessienne de ℓ en \(\boldsymbol{\theta}\) par \(\mathbf{H}_{\boldsymbol{\theta}} = \left( \dfrac{\partial^2 \ell}{\partial \theta_j \partial \theta_k} \right)_{0 \leq j,k \leq d}\). Le développement de Taylor, qui revient à considérer que la log-vraisemblance est localement quadratique, donne à l’étape (s) :
$$\ell(\boldsymbol{\theta}^{(s+1)};\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}}) = \ell({\boldsymbol{\theta}}^{(s)};\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}}) + \nabla_{\boldsymbol{\theta}} \ell(\boldsymbol{\theta}^{(s)};\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}})' (\boldsymbol{\theta}^{(s+1)} - {\boldsymbol{\theta}}^{(s)}) + \dfrac{1}{2}(\boldsymbol{\theta}^{(s+1)} - {\boldsymbol{\theta}}^{(s)})' \mathbf{H}_{{\boldsymbol{\theta}}}(\boldsymbol{\theta}^{(s)};\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}}) (\boldsymbol{\theta}^{(s+1)} - {\boldsymbol{\theta}}^{(s)}).$$
En dérivant cette expression par rapport à \(\boldsymbol{\theta}^{(s+1)}\) et en remarquant que l’on souhaiterait arriver au maximum de ℓ à l’étape (s + 1), autrement dit en posant \(\nabla_{\boldsymbol{\theta}} \ell(\boldsymbol{\theta}^{(s+1)};\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}})=0\), on obtient :
$$0 = \nabla_{\boldsymbol{\theta}} \ell(\boldsymbol{\theta}^{(s)};\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}}) + (\boldsymbol{\theta}^{(s+1)} - {\boldsymbol{\theta}}^{(s)}) \mathbf{H}_{{\boldsymbol{\theta}}^{(s)}}(\boldsymbol{\theta}^{(s)};\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}}).$$
En réarrangeant cette expression, on obtient la valeur mise à jour du paramètre :
$$\boldsymbol{\theta}^{(s+1)} = \boldsymbol{\theta}^{(s)} - \mathbf{H}_{{\boldsymbol{\theta}}}(\boldsymbol{\theta}^{(s)};\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}})^{-1} \nabla_{\boldsymbol{\theta}} \ell(\boldsymbol{\theta}^{(s)};\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}}),$$
où \(\nabla_{\boldsymbol{\theta}} \ell(\boldsymbol{\theta}^{(s)};\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}}) = (\boldsymbol{1},\boldsymbol{\mathbf{x}})' (\boldsymbol{\mathbf{y}} - \Pi)\) et \(\mathbf{H}_{{\boldsymbol{\theta}}}(\boldsymbol{\theta}^{(s)};\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}}) = (\boldsymbol{1},\boldsymbol{\mathbf{x}}) \mathbf{W} (\boldsymbol{1},\boldsymbol{\mathbf{x}})'\) avec \(\Pi = (p_{\boldsymbol{\theta}^{(s)}}(1|\boldsymbol{x}_1),\dots,p_{\boldsymbol{\theta}^{(s)}}(1|\boldsymbol{x}_n))\) et W = diag(Π ⊙ (1 − Π)) où ⊙ désigne le produit d’Hadamard (i.e. élément par élément). Plusieurs points importants transparaissent de cette dernière équation. D’abord, si à une étape (s), le point fixe est trouvé, i.e. \(\boldsymbol{\theta}^{(s)} = \hat{\boldsymbol{\theta}}\), alors \(\nabla_{\boldsymbol{\theta}} \ell(\boldsymbol{\theta}^{(s)};\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}}) = 0\) et on ne bouge plus : \(\forall s' \geq s, \: \boldsymbol{\theta}^{(s')} = \boldsymbol{\theta}^{(s)}\). En pratique, cela conduit la majorité des bibliothèques logicielles implémentant la méthode de Newton à laisser à leur utilisateur le soin de calibrer deux paramètres : la précision au-delà de laquelle l’algorithme s’arrête, c’est-à-dire η tel que s’il existe s tel que \(||\boldsymbol{\theta}^{(s+1)} - \boldsymbol{\theta}^{(s)}||_{\infty} \leq \eta\), où \(|| \boldsymbol{x} ||_{\infty} = \max_{j} |x_j|\), alors \(\hat{\boldsymbol{\theta}} \approx \boldsymbol{\theta}^{(s+1)}\) et le nombre de pas maximum smax à effectuer (la condition précédente n’étant potentiellement jamais remplie, l’algorithme pourrait ne pas se terminer). Une revue des principales méthodes d’optimisation utilisables dans le cadre de la régression logistique, suivie de leur étude empirique [11] montre que l’algorithme de Newton et la méthode BFGS [10], de complexité respective O(nd2) et O(d2 + nd) présentent un bon compromis précision / coût de calcul lorsque comparées à d’autres méthodes de descente de gradient et sous différents scénarios de génération des données. Tous les paramètres de régression logistique de ce manuscrit sont par conséquent estimées par l’algorithme de Newton, car à l’exception des remarques sur la grande dimension données en conclusion, le nombre de covariables d est faible (10-100) relativement à n (105-106). Enfin, l’algorithme requiert une initialisation \(\boldsymbol{\theta}^{(0)}\) qui peut en influencer la vitesse de convergence. Les bibliothèques utilisent généralement \(\boldsymbol{\theta}^{(0)}=0\).
Compromis biais-variance
En conclusion, là où le probabiliste, en figure [6] n’avait qu’un problème de biais de modèle, le statisticien qui souhaite estimer ce modèle à partir de données est préoccupé par deux problèmes supplémentaires. Le premier est l’erreur d’estimation, c’est-à-dire la différence entre le meilleur modèle de paramètre \(\boldsymbol{\theta}^\star\) et le modèle estimé de paramètre \(\hat{\boldsymbol{\theta}}\):
$$\begin{aligned}
& \mathbb{E}_{\mathcal{T}} \mathbb{E}_{\boldsymbol{x}} [p_{\hat{\boldsymbol{\theta}}}(y| \boldsymbol{x}) - p(y| \boldsymbol{x})]^2 \nonumber \\
= & \mathbb{E}_{\boldsymbol{x}} [ \underbrace{[p(y| \boldsymbol{x}) - \mathbb{E}_{\mathcal{T}} [ p_{\hat{\boldsymbol{\theta}}}(y| \boldsymbol{x})]]^2}_{\text{biais de modèle}} + \underbrace{\mathbb{E}_{\mathcal{T}} [[ p_{\hat{\boldsymbol{\theta}}}(y| \boldsymbol{x}) - \mathbb{E}_{\mathcal{T}} [ p_{\hat{\boldsymbol{\theta}}}(y| \boldsymbol{x}) ]]^2]}_{\text{variance}} ] \label{eq:bias1} \\
\approx & \mathbb{E}_{\boldsymbol{x}} [ \underbrace{[p(y| \boldsymbol{x}) - p_{\boldsymbol{\theta}^\star}(y| \boldsymbol{x})]^2}_{\text{biais de modèle}} + \underbrace{\mathbb{E}_{\mathcal{T}} [[ p_{\hat{\boldsymbol{\theta}}}(y| \boldsymbol{x}) - p_{\boldsymbol{\theta}^\star}(y| \boldsymbol{x}) ]^2}_{\text{erreur d'estimation}} ]]. \label{eq:bias2}\end{aligned}$$
Pour la dérivation rigoureuse de ce résultat, se référer à [8] (p. 308–314). Le passage de [eq:bias1] à [eq:bias2] est garanti par le caractère asymptotiquement sans biais de l’estimateur du maximum de vraisemblance, même dans le cas du modèle mal spécifié [7]. Autrement dit, pour n assez grand, on a \(\sqrt{n} (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}^\star) \sim \mathcal{N}(\boldsymbol{0} , \mathcal{I}(\boldsymbol{\theta}^\star)^{-1})\), où \(\mathcal{I}(\boldsymbol{\theta}) = - \mathbb{E}_{(\boldsymbol{x}, Y)}[ (\frac{\partial^2 \ln p_{\boldsymbol{\theta}}(Y | \boldsymbol{x})}{\partial \theta_j \partial \theta_k})_{0 \leq j,k, \leq d} | \boldsymbol{\theta}]\) est la matrice d’information de Fisher. On a alors la consistance asymptotique en probabilité de l’estimateur du maximum de vraisemblance \(\hat{\boldsymbol{\theta}}\) vers \(\boldsymbol{\theta}^\star\). Le dernier terme de variance a été introduit en quelque sorte par le passage du critère KL asymptotique [eq:KL] au critère empirique de vraisemblance [eq:vraisemblance]. Ce terme est matérialisé en bleu sur la figure [7] Le deuxième problème est numérique et généralement négligé : il s’agit de l’erreur de précision développée au paragraphe précédent et matérialisée en orange sur la figure [7].
Sélection de modèle en Credit Scoring
Dans la partie précédente, on a réduit le problème à la seule estimation de \(\boldsymbol{\theta}\), et on a implicitement utilisé l’ensemble des d variables dans \(\boldsymbol{x}\). En théorie, se faisant, les variables indépendantes de Y conditionnellement aux autres variables devraient avoir un coefficient θj nul. C’est le cas lorsqu’une variable est totalement indépendante de la cible, par exemple la météo du jour de la demande du prêt, ou lorsqu’une variable est redondante avec une autre variable, par exemple les revenus annuels et mensuels qui sont égaux à un facteur multiplicatif près.
En pratique, tous les coefficients de \(\boldsymbol{\theta}\) seront différents de 0 du fait des deux phénomènes illustrés sur le graphique [7] : l’(im)précision numérique abordée dans la partie précédente et le design \(\boldsymbol{\mathbf{x}}\) fixe introduisant un biais et une variance d’estimation. C’est pourquoi il est nécessaire de sélectionner les “bonnes” variables prédictives parmi \(x_1,\dots,x_d\) au sens d’un critère que l’on développe ci-après, afin de réduire l’erreur d’estimation.
Par ailleurs et toujours dans le but de trouver un compromis entre biais de modèle et erreur d’estimation, il peut s’avérer nécessaire d’ajouter des variables par calcul ou combinaison des variables \(x_1,\dots,x_d\). On s’intéressera plus précisément aux processus de discrétisation de variables continues, de regroupement de modalités de variables catégorielles et d’introduction d’interactions, c’est-à-dire de produits de variables pré-existantes.
Sélection de variables
Le premier réflexe du statisticien face à un problème de classification est la sélection de variables. A l’extrême, lorsque d > n, le problème est mal défini (la matrice hessienne n’est pas inversible) ; dans une moindre mesure, lorsque n > d mais que certaines variables n’ont pas de pouvoir prédictif conditionnellement à celles déjà dans le modèle, c’est-à-dire par exemple \(p(y | \boldsymbol{x}) = p(y|x_2,\dots,x_d)\), alors le coefficient θ̂1 ajoute une dimension “inutile” à l’espace Θ (on parle de la capacité d’un modèle en machine learning) qui augmente la variance du modèle \(p_{\boldsymbol{\theta}}\) (on parle d’overfitting en machine learning) en essayant en quelque sorte de prédire le bruit, c’est-à-dire les résidus du modèle. Dans les chapitres suivants, on utilisera abusivement la notation p pour toute pdf lorsque les variables dont elle dépend sont explicites.
Dans le cas particulier du Credit Scoring, une thèse CIFRE récente a même été consacrée au sujet de la sélection de variables [9] et recommande l’utilisation de la procédure LASSO, de la “famille” des méthodes de pénalisation : une contrainte est ajoutée à la vraisemblance pour l’optimisation des paramètres. Le critère devient :
$$\begin{aligned}
\hat{\boldsymbol{\theta}}^{\text{Lasso}} & = \arg\min_{\boldsymbol{\theta}} \ell(\boldsymbol{\theta};\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}}) \text{ avec } \sum_{j=1}^d |\boldsymbol{\theta}_j| \leq t \\
& = \arg\min_{\boldsymbol{\theta}} \ell(\boldsymbol{\theta};\boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}}) + \lambda \sum_{j=1}^d |\boldsymbol{\theta}_j|\end{aligned}$$
où t et λ sont mutuellement dépendants et règlent la sévérité de la régularisation. De manière générale, la régularisation présente plusieurs avantages, et la motivation première est le contrôle du compromis biais-variance. Néanmoins, par l’utilisation d’une pénalisation de type L1 comme le LASSO, un effet de bord désirable est la sélection de variables, c’est-à-dire la capacité à “forcer” des coefficients estimés exactement à 0. Plusieurs variantes ou raffinements du LASSO existent aujourd’hui et possèdent des propriétés asymptotiques différentes ou meilleures.
Critère de sélection de modèle
Une approche de résolution indirecte du problème de sélection de variables est le choix de modèle : considérons M modèles Θ(1), …, Θ(M) de régression logistique différents, c’est-à-dire pour lesquels les variables incluses ne sont pas les mêmes. On peut d’ailleurs voir le problème de sélection de variables comme un choix entre tous les 2d modèles possibles. Dans ce cadre, de nombreux critères de choix de modèle, voire d’aggrégation de modèles, c’est-à-dire de sélection de tout ou partie de ces modèles en pondérant leur contribution globale, ont été proposés. La justification de ces critères sort largement du cadre de ce manuscrit ; aussi nous nous limiterons, dans le cadre de la sélection de modèle, au critère BIC (proposé dans [6]). Outre sa consistance asymptotique, autrement dit la capacité de sélectionner, sous certaines conditions sur la famille notamment, le “quasi-vrai” modèle (le modèle de plus faible divergence \(\text{KL}\) et de complexité ν minimale - cf ci-après) avec une probabilité tendant vers 1 lorsque la taille d’échantillon n augmente, ce critère possède une propriété qui le lie à la probabilité a posteriori d’un modèle conditionnellement aux données.
Le critère BIC s’écrit de la manière suivante et doit être minimisé :
$$\label{eq:BIC}
\text{BIC}(\hat{\boldsymbol{\theta}}) = -2 \ell(\hat{\boldsymbol{\theta}} ; \boldsymbol{\mathbf{x}},\boldsymbol{\mathbf{y}}) + \nu \ln (n),$$
où \(\hat{\boldsymbol{\theta}}\) est l’estimateur du maximum de vraisemblance et ν = dim(Θ).
Autres modèles prédictifs
L’objectif de cette partie est de donner un éclairage à d’autres familles de modèles prédictifs qui pourraient être utilisés en lieu et place de la régression logistique traditionnellement utilisée en Credit Scoring pour les nombreuses raisons pratiques et statistiques précédemment évoquées.
Arbres de décision
Principe
Toutes les observations entrent au sommet de l’arbre qui dispose d’un seul noeud. Ce noeud contient une règle de classement parmi les noeuds fils de type si ... alors ...
. Chacun de ces noeuds fils dispose alors d’un sous-ensemble des observations de départ, et la procédure se répète récursivement jusqu’aux feuilles de l’arbre, c’est-à-dire les noeuds dépourvus de fils, dont les observations sont affectées, dans le cadre de l’apprentissage supervisée, à une classe bon / mauvais payeur. Cette structure est utilisée en Credit Scoring dans le cadre de la segmentation (section 1.2.2), pratique que l’on revisite au chapitre [chap6] et où un exemple d’arbre est visible en figure [8].
Algorithmes
Ainsi posé, l’arbre de décision semble à la fois simple dans sa formulation, et complexe dans la mise en oeuvre de son apprentissage : comment choisir les règles de chaque noeud, le nombre de noeuds fils à chaque noeud, le critère d’arrêt, etc. En pratique, de nombreux algorithmes ont été proposés. Dans les expériences du chapitre [chap2], on utilise l’algorithme C4.5 [4] qui repose sur la divergence de Kullback-Leibler pour choisir une variable xj à chaque noeud et un ensemble Cj tel que les observations vérifiant xj ∈ Cj (resp. xj ∉ Cj) soient orientées vers le noeud fils gauche (resp. droit), où Cj = ] − ∞; cj], \(c_j \in \mathbb{R}\) pour les variables continues et \(C_j \subset \mathbb{N}_{o_j}\) pour les variables catégorielles. L’algorithme s’arrête lorsque les feuilles ne contiennent qu’une seule classe, et des techniques d’“élagage” permettent ensuite de réduire la complexité de l’arbre résultant pour garantir un bon compromis biais-variance.
Faiblesses
Les arbres de décision souffrent souvent de large variance [3]. C’est pourquoi, les Forêts Aléatoires [2] et / ou algorithmes dits de “Boosting” [1] sont plébiscités : plusieurs arbres de décision sont appris, sur des sous-échantillons et / ou en pondérant les observations d’apprentissage, dont les décisions sont ensuite combinées. Pour les données de Credit Scoring, il a été constaté en interne à CACF que ces modèles permettent d’obtenir de bonnes performances, en perdant cependant l’interprétation aisée des arbres de décision ou de la régression logistique.
Réseaux de neurones
Principe
Chaque variable d’entrée, c’est-à-dire une covariable \(\boldsymbol{x}_j\), est vue comme un neurone, tout comme la variable de sortie, c’est-à-dire la variable dépendante à prédire y. Les neurones intermédiaires, formant la (les) couche(s) cachée(s) réalisent un calcul à partir de leur(s) neurone(s) parent(s) (phase de propagation dite feedforward) consistant typiquement en une addition et une transformation non-linéaire (comme la fonction sigmoïde - l’application réciproque du logit - qui sert en régression logistique). Les résultats prédits \(\hat{\boldsymbol{\mathbf{y}}}\) sont comparés aux exemples d’apprentissage \(\boldsymbol{\mathbf{y}}\) et l’erreur est rétropropagée (phase dite backpropagation) : comme en régression logistique, les couches cachées disposent de coefficients \(\boldsymbol{\theta}\) qui sont ajustés par descente de gradient. La comparaison biologique est cependant bien plus limitée que ce que leur nom laisse supposer : les neurones représentent simplement un état résultant d’un calcul, et les synapses sont les arêtes du graphe de calcul (qui déterminent le(s) neurone(s) parent(s) / enfant(s) de chaque neurone).
Limites et développements récents
Les inconvénients de ce type de modèle vont de paire avec leur avantage de flexibilité : le grand nombre de paramètres et hyperparamètres rendent leur interprétation et leur apprentissage compliqués. L’interprétation aisée du modèle, e.g. de l’effet de chaque variable (et de la significativité de cet effet), de la forme de la frontière de décision, est primordial dans de nombreux contextes applicatifs comme le Credit Scoring : le management, dont l’exposition aux statistiques est faible ou nulle, doit pouvoir comprendre le processus de décision de même que le client pouvant se voir refuser l’accès au crédit. C’est pourquoi les régulateurs bancaires sont attentifs à ce que les décisions soient explicables au client, ce qui est généralement garanti par l’usage massif de la régression logistique, modèle développé dans les parties précédentes, mais qui est moins immédiat dans le cas présent des réseaux de neurones du fait de l’introduction de nombreuses non-linéarités et combinaisons de plusieurs variables (toutes les variables dans le cas des réseaux dits densément connectés). Par ailleurs, ces modèles reposent sur des techniques de descente de gradient, brièvement évoqués en partie 1.3.2, qui demandent des connaissances ad hoc et / ou spécifiques au domaine d’application pour la calibration des nombreux hyperparamètres entre autres liés au pas de gradient.
Le lecteur désireux d’approfondir sa connaissance sur ce type de modèle, devenu une discipline de recherche à part entière, peut se référer à l’ouvrage [13].
Références
[1] | Zhi-Hua Zhou. Ensemble methods: foundations and algorithms. Chapman and Hall/CRC, 2012. [ bib ] |
[2] | Leo Breiman. Random forests. Machine learning, 45(1):5-32, 2001. [ bib ] |
[3] | Pierre Geurts and Louis Wehenkel. Investigation and reduction of discretization variance in decision tree induction. In European Conference on Machine Learning, pages 162-170. Springer, 2000. [ bib ] |
[4] | J Ross Quinlan. C4. 5: programs for machine learning. Elsevier, 2014. [ bib ] |
[5] | Bernhard Schölkopf, Alexander J Smola, Francis Bach, et al. Learning with kernels: support vector machines, regularization, optimization, and beyond. MIT press, 2002. [ bib ] |
[6] |
Gideon Schwarz.
Estimating the dimension of a model.
The Annals of Statistics, 6(2):461-464, 1978.
[ bib |
http ]
The problem of selecting one of a number of models of different dimensions is treated by finding its Bayes solution, and evaluating the leading terms of its asymptotic expansion. These terms are a valid large-sample criterion beyond the Bayesian context, since they do not depend on the a priori distribution.
|
[7] | Halbert White. Maximum likelihood estimation of misspecified models. Econometrica: Journal of the Econometric Society, pages 1-25, 1982. [ bib ] |
[8] | Hinrich Schütze, Christopher D Manning, and Prabhakar Raghavan. Introduction to information retrieval, volume 39. Cambridge University Press, 2008. [ bib | .pdf ] |
[9] | Clément Vital. Scoring pour le risque de crédit : variable réponse polytomique, sélection de variables, réduction de la dimension, applications. PhD thesis, 2016. Thèse de doctorat dirigée par Patilea, Valentin et Rouviere, Laurent Mathématiques et applications Rennes 1 2016. [ bib | http ] |
[10] | Richard H Byrd, Peihuang Lu, Jorge Nocedal, and Ciyou Zhu. A limited memory algorithm for bound constrained optimization. SIAM Journal on Scientific Computing, 16(5):1190-1208, 1995. [ bib ] |
[11] | Thomas P Minka. A comparison of numerical optimizers for logistic regression. Unpublished draft, pages 1-18, 2003. [ bib ] |
[12] | Vladimir Vapnik. The nature of statistical learning theory. Springer science & business media, 2013. [ bib ] |
[13] | Ian Goodfellow, Yoshua Bengio, Aaron Courville, and Yoshua Bengio. Deep Learning, volume 1. MIT press Cambridge, 2016. [ bib ] |
[14] | Corinna Cortes and Mehryar Mohri. Confidence intervals for the area under the roc curve. In Advances in neural information processing systems, pages 305-312, 2005. [ bib ] |
[15] | Xu Sun and Weichao Xu. Fast implementation of delong's algorithm for comparing the areas under correlated receiver oerating characteristic curves. IEEE Signal Processing Letters, 21(11):1389-1393, 2014. [ bib ] |
[16] | Yanmin Sun, Andrew KC Wong, and Mohamed S Kamel. Classification of imbalanced data: A review. International Journal of Pattern Recognition and Artificial Intelligence, 23(04):687-719, 2009. [ bib ] |
[17] | Bart Baesens, Tony Van Gestel, Stijn Viaene, Maria Stepanova, Johan Suykens, and Jan Vanthienen. Benchmarking state-of-the-art classification algorithms for credit scoring. Journal of the operational research society, 54(6):627-635, 2003. [ bib ] |
[18] | Iain Brown and Christophe Mues. An experimental comparison of classification algorithms for imbalanced credit scoring data sets. Expert Systems with Applications, 39(3):3446-3453, 2012. [ bib ] |
[19] | Solomon Kullback and Richard A Leibler. On information and sufficiency. The annals of mathematical statistics, 22(1):79-86, 1951. [ bib ] |
[20] | Lyn C Thomas. A survey of credit and behavioural scoring: forecasting financial risk of lending to consumers. International journal of forecasting, 16(2):149-172, 2000. [ bib ] |
[21] | Steven Finlay. Credit scoring for profitability objectives. European Journal of Operational Research, 202(2):528-537, 2010. [ bib ] |
[22] | Steven Finlay. Are we modelling the right thing? the impact of incorrect problem specification in credit scoring. Expert Systems with Applications, 36(5):9065-9071, 2009. [ bib ] |
[23] | David J Hand and William E Henley. Statistical classification methods in consumer credit scoring: a review. Journal of the Royal Statistical Society: Series A (Statistics in Society), 160(3):523-541, 1997. [ bib ] |
[24] | Jerome Friedman, Trevor Hastie, and Robert Tibshirani. The Elements of Statistical Learning, volume 1. Springer series in statistics New York, NY, USA:, 2001. [ bib ] |
[25] | Hélène Ducourant. Le crédit revolving, un succès populaire. Sociétés contemporaines, (4):41-65, 2009. [ bib ] |
[26] | Statista. Credit cards per household by country in 2016, 2016. [ bib | http ] |
[27] | Elsa Dicharry. Maison de la literie lance la location avec option d'achat, 10 2017. [ bib | http ] |
[28] | Jean-Philippe Peden. Vente de voitures : la part des formules de location a décollé en 2017, 01 2018. [ bib | .html ] |
[29] | Dilruba Karim, Iana Liadze, Ray Barrell, and E Philip Davis. Off-balance sheet exposures and banking crises in oecd countries. Journal of Financial Stability, 9(4):673-681, 2013. [ bib ] |