AI-driven rehabilitation indicators for non-performing credit
Δείκτες αποκατάστασης μη εξυπηρετούμενων δανείων με τη βοήθεια της τεχνητής νοημοσύνης
Μεταπτυχιακή διπλωματική εργασία
Συγγραφέας
Κιντή, Αικατερίνη
Ημερομηνία
2025-01Επιβλέπων
Ζαβιτσάνος, ΗλίαςΘεματική επικεφαλίδα
Artificial Intelligence ; Non-performing loans ; Financial rehabilitation ; Risk managementΠερίληψη
The banking sector and lending organizations are undergoing significant transformation,
driven by advancements in Machine Learning (ML). A pivotal application of ML in this
domain is loan default prediction, which is essential for developing robust credit scoring systems
and maintaining financial stability for banks and financial institutions. This study focuses
on analyzing account- and customer-related attributes that contribute to non-performing loans
(NPLs), via SHAP and LIME, with the goal of uncovering insights that can inform effective and
mutually beneficial resolution strategies.
Using a proprietary dataset comprising 326 attributes, the study addresses the challenge of
imbalanced classification, where the dataset is heavily skewed towards performing loans, often
hindering model performance. To address this, four experimental scenarios were explored: (a)
a baseline model trained on the original dataset, (b) an artificially balanced dataset with equal
class representation, (c) an approach combining oversampling via Synthetic Minority Oversampling
Technique (SMOTE) and Undersampling with RandomUnderSampler, and (d) the
application of focal and weighted loss functions to XGBoost model. Among all scenarios, the
combination of SMOTE and Random UnderSampler proved most effective. The Random Forest
model emerged as the top performer, achieving a ROC-AUC score of 0.7402 and a Precision-
Recall AUC of 0.0126.
This study emphasizes the critical role of tailored preprocessing and evaluation methodologies
in navigating the complexities of imbalanced data. It demonstrates the potential for incorporating
preprocessing techniques to handle the redistribution of data across the 2 classes,
including sampling strategies and loss function modifications, in order to highlight those attributes
that demonstrate the predictability of loan defaults.
Περίληψη
Ο τραπεζιϰός τομέας ϰαι οι δανειοδοτιϰοί οργανισμοί υφίστανται σημαντιϰό μετασχη-
ματισμό, ο οποίος ϰαϑοδηγείται από τις εξελίξεις στη μηχανιϰή μάϑηση (ML). Μια
ϰαίρια εφαρμογή της ML σε αυτόν τον τομέα είναι η πρόβλεψη της αϑέτησης των δανείων, η
οποία είναι απαραίτητη για την ανάπτυξη ισχυρών συστημάτων πιστωτιϰής βαϑμολόγησης
ϰαι τη διατήρηση της οιϰονομιϰής σταϑερότητας για τις τράπεζες ϰαι τα χρηματοπιστω-
τιϰά ιδρύματα. Η παρούσα μελέτη επιϰεντρώνεται στην ανάλυση χαραϰτηριστιϰών που
σχετίζονται με λογαριασμούς ϰαι πελάτες ϰαι συμβάλλουν στα μη εξυπηρετούμενα δάνεια
(NPLs), με στόχο την αποϰάλυψη πληροφοριών μέσω SHAP ϰαι LIME για αποτελεσματιϰές
ϰαι αμοιβαία επωφελείς στρατηγιϰές επίλυσης.
Χρησιμοποιώντας ένα σύνολο δεδομένων που περιλαμβάνει 326 χαραϰτηριστιϰά, η με-
λέτη αντιμετωπίζει την πρόϰληση της ανισομερούς ϰατανομής δεδομένων, όπου το σύνολο
δεδομένων αφορά τα εξυπηρετούμενα δάνεια, γεγονός που συχνά εμποδίζει την απόδοση
του αλγόριϑμου. Για να αντιμετωπιστεί αυτό, έτρεξαν τέσσερα πειραματιϰά σενάρια: (α)
ένα βασιϰό μοντέλο που εϰπαιδεύτηϰε στο αρχιϰό σύνολο των δεδομένων, (β) ένα τεχνητά
ισορροπημένο σύνολο δεδομένων με ίση ϰατανομή δεδομένων ϰαι στις δύο ϰλάσεις, (γ) μια
προσέγγιση που συνδυάζει την τεχνιϰή Synthetic Minority Oversampling Technique (SMOTE)
ϰαι την RandomUnderSampler, ϰαι (δ) η εφαρμογή Focal ϰαι Weighted Loss στο μοντέλο
XGBoost.
Για την αξιολόγηση της απόδοσης του μοντέλου χρησιμοποιήϑηϰαν μετριϰές αξιολόγη-
σης προσαρμοσμένες σε δεδομένα με μεγάλη αναϰατανομή των ϰλάσεων. Μεταξύ όλων των
σεναρίων, ο συνδυασμός SMOTE ϰαι Random UnderSampler αποδείχϑηϰε ο πιο αποτελεσμα-
τιϰός. Το μοντέλο Random Forest αναδείχϑηϰε ως ο αλγόριϑμος με τις ϰαλύτερες επιδόσεις,
επιτυγχάνοντας βαϑμολογία ROC-AUC 0.7402 ϰαι PRECISION-RECALL AUC 0.0126.
Αυτή η μελέτη υπογραμμίζει τον ϰρίσιμο ρόλο των προσαρμοσμένων μεϑοδολογιών προ-
επεξεργασίας ϰαι αξιολόγησης στην αντιμετώπιση μεγάλων αναϰατανομών στις ϰλάσεις.
Καταδειϰνύει τις δυνατότητες ενσωμάτωσης τεχνιϰών προεπεξεργασίας για τον χειρισμό της
αναϰατανομής των δεδομένων στις δύο ϰλάσεις, συμπεριλαμβανομένων των sampling strategies
ϰαι loss function modifications, με στόχο την ανάδειξη των χαραϰτηριστιϰών εϰείνων
που ϰαταδειϰνύουν την πρόβλεψη αϑέτησης δανείων.