Can AI Predict Loan Success? A Comparative Study on Imbalanced and Noisy Greek Call Transcripts
Subject
Artificial Intelligence ; Deep Learning (Machine Learning) ; Data Mining ; Loans, Greek ; Telephone calls-Bank customers ; Τεχνητή νοημοσύνη ; Βαθιά μάθηση(Μηχανική μάθηση) ; Εξόρυξη δεδομένων ; Δάνεια, Ελλάδα ; Τηλεφωνικές κλήσεις-Τραπεζικοί πελάτεςKeywords
artificial intelligence ; text classification ; Natural Language Processing ; NLP ; Large Language Models ; LLMs ; data noise ; call transcripts ; class imbalance ; financial data ; unstructured dataAbstract
This thesis deals with the challenging task of predicting loan arrangement success based on noisy Greek comments written by call center agents during communications with the customers. It is a comparative study of various machine and deep learning models and NLP techniques, employed to tackle an extremely imbalanced dataset (with the positive class accounting for only the 0.2% of the total), and a high level of noise in the data, which stems both from abbreviations, syntactical and grammatical errors, and informalities, as well as from the weak supervision that has been used, since the labels were constructed based on business rules, instead of having been assigned by experts. The extensive exploration of different approaches ranges from traditional models like Logistic Regression and XGBoost, which are used in combination with feature extraction techniques such as term frequency - inverse document frequency (TF-IDF) and word embeddings, extending to more advanced language models capable of capturing deeper semantic meanings from the texts, like GreekBERT, Meltemi, and Llama 3.1 70B. Furthermore, different kinds of loss functions were utilized, the most notable being contrastive and class-weighted losses. The study was also severely constrained by limited computation resources besides the lack of positive examples, hence leading to experimentation with various optimization methods, like Low Rank adaptation (LoRA), quantization, gradient accumulation, learning rate decay, and weight decay. In order to mitigate the noise in the texts, both rule-based as well as AI-supported appraches were followed, including text refinement by a modern multilingual LLM. Regarding the uneven class distribution, synthetic data generation by a LLM was also put under investigation, to determine the efficacy and the impact this process could have in the performance evaluation. All these experiments were rigorously evaluated and compared using a comprehensive list of metrics, including classic ones like accuracy and recall, and also including metrics that are traditionally used for ranking models, like Recall@K, R-Precision and PR-AUC. The study concludes with discussion of the results and highlights the most effective strategies for handling the scarcity of positive instances and noise of data. Proposed future research directions include the development of more robust Greek language models, the exploration of advanced data refinement, augmentation and generation techniques, and the creation of publicly available datasets, in order to foster further advancements in Greek NLP and further democratize the access to novel AI tools.
Abstract
Η παρούσα εργασία ασχολείται με το απαιτητικό πρόβλημα πρόβλεψης της επιτυχίας ενός δανειακού διακανονισμού, για το οποίο χρησιμοποιήθηκαν μη δομημένα δεδομένα (unstructured data). Τα δεδομένα αυτά πηγάζουν από σχόλια που έγραψαν υπάλληλοι τηλεφωνικών κέντρων κατά τη διάρκεια συνομιλιών με τραπεζικούς πελάτες. Η εργασία συνιστά μια συγκριτική μελέτη διαφόρων μοντέλων μηχανικής και βαθιάς μάθησης καθώς και τεχνικών επεξεργασίας φυσικής γλώσσας (NLP), οι οποίες χρησιμοποιούνται για να αντιμετωπίσουν την υψηλή ανισότητα στις αναλογίες των κλάσεων (class imbalance), με τη θετική κλάση να αποτελεί μόλις το 0.2% του συνόλου των δεδομένων. Επιπρόσθετη δυσκολία προκύπτει και από το αυξημένο επίπεδο θορύβου, το οποίο οφείλεται τόσο στις ασυνήθεις συντομογραφίες, τις συντακτικές και γραμματικές αβλεψίες και την έλλειψη επίσημου τόνου, όσο και στην ασθενή επίβλεψη (weak supervision) που έχει εφαρμοστεί για την εκπαίδευση των μοντέλων. Σχετικά με την ασθενή επίβλεψη, είναι χρήσιμο να σημειωθεί ότι οι ετικέτες των κλάσεων έχουν δημιουργηθεί βάσει επιχειρηματικών κανόνων, και όχι από ειδικούς εμπειρογνώμονες στην κατηγοριοποίηση κειμένων. Η εκτενής μελέτη διαφορετικών μεθόδων περιλαμβάνει από παραδοσιακά μοντέλα μάθησης όπως η λογιστική παλινδρόμηση και το XGBoost, τα οποία χρησιμοποιούνται σε συνδυασμό με τεχνικές εξαγωγής χαρακτηριστικών οπώς το term frequency - inverse document frequency (TF-IDF) και τα word embeddings, μέχρι πιο πολύπλοκα γλωσσικά μοντέλα τα οποία μπορούν να κατανοήσουν βαθύτερες νοηματικές έννοιες στα κείμενα, όπως είναι τα GreekBERT, Meltemi και Llama 3.1 70B. Επιπρόσθετα, χρησιμοποιήθηκαν διαφορετικά είδη συναρτήσεων κόστους, με τα πιο αξιοσημείωτα να είναι η συγκριτική συνάρτηση κόστους βάσει αντιδιαστολής αντικρουόμενων παραδειγμάτων (contrastive loss) και η συνάρτηση κόστους που χρησιμοποιεί συντελεστές βάρους που είναι αντίστοιχοι των αναλογιών των κλάσεων (class-weighted loss). Είναι άξιο να αναφερθεί ότι η μελέτη αντιμετώπισε περιορισμούς στους διαθέσιμους υπολογιστικούς πόρους, πέραν της απουσίας ικανού αριθμού θετικών παραδειγμάτων, κάτι το οποίο οδήγησε σε πειραματισμό με διάφορες μεθόδους βελτιστοποίησης, όπως η Προσαρμογή Χαμηλής Τάξεως (Low Rank Adaptation - LoRA), η συμπίεση των μοντέλων μέσω διακριτοποίησης (quantization), η συσσώρευση των ανάδελτα (gradients), η μείωση του ρυθμού μάθησης (learning rate decay), και η μείωση των συντελεστών βαρύτητας του μοντέλου (weight decay). Με σκοπό να περιοριστεί ο θόρυβος στα κείμενα, εφαρμόστηκαν τόσο προσεγγίσεις βάσει κανόνων (rule-based), όσο και μέθοδοι που στηρίζονται στην τεχνητή νοημοσύνη, όπως ο καθαρισμός των κειμένων από ένα σύγχρονο μεγάλο πολυγλωσσικό μοντέλο (LLM). Σχετικά με την ανισορροπία στην κατανομή των κλάσεων, διερευνήθηκε ακόμη η παραγωγή συνθετικών δεδομένων από ένα μεγάλο γλωσσικό μοντέλο, για να αποσαφηνιστεί η αποτελεσματικότητα και ο αντίκτυπος που θα μπορούσε να έχει μια τέτοια επιλογή στην αποτίμηση της επίδοσης του μοντέλου. ΄Ολα τα προαναφερθέντα πειράματα αξιολογήθηκαν και συγκρίθηκαν ενδελεχώς, χρησιμοποιώντας μια εκτενή λίστα από μετρικές, συμπεριλαμβανομένων κλασικών όπως η συνολική ορθότητα (accuracy) και η ικανότητα ανάκλησης (recall), καθώς και μετρικών που χρησιμοποιούνται συνηθέστερα σε μοντέλα κατάταξης (ranker models), όπως η ικανότητα ανάκλησης σε Κ παραδείγμα (Recall@K), η ακρίβεια σε R παραδείγματα (R-Precision) και η περιοχή κάτω από την καμπύλη ακρίβειας - ανάκλησης (PR-AUC). Η μελέτη καταλήγει με μια συζήτηση περί των αποτελεσμάτων και ακόμα τονίζει τις πιο αποτελεσματικές μεθόδους για το χειρισμό ανισορροπίας στις κλάσεις και θορύβου στα δεδομένα. Προτεινόμενες ερευνητικές κατευθυντήριες γραμμές για το μέλλον περιλαμβάνουν την ανάπτυξη πιο ικανών ελληνικών γλωσσικών μοντέλων, την αναζήτηση τεχνικών για τον καθαρισμό, την επαύξηση και τη σύνθεση δεδομένων, και τη δημιουργία δημόσια διαθέσιμων συνόλων δεδομένων. ΄Ολες αυτές οι ενέργειες δύνανται να αποτελέσουν εφαλτήριο για περαιτέρω εξελίξεις στην επεξεργασία της ελληνικής γλώσσας και είναι ικανά να συμβάλουν στην εκδημοκρατικοποίηση της πρόσβασης σε καινοτόμα συστήματα τεχνητής νοημοσύνης.