Text-driven data exploration and reporting template generation
Μεταπτυχιακή διπλωματική εργασία
Author
Βίτσας, Αλέξανδρος - Κωνσταντίνος
Date
2024-12-03Advisor
Ζαβιτσάνος, ΗλίαςAbstract
Στη σημερινή εποχή των δεδομένων, οι χρηματοοικονομικοί οργανισμοί αντιμετω-
πίζουν σημαντικές προκλήσεις στην αυτοματοποίηση της δημιουργίας αναφορών
από περιγραφές σε ελεύθερο κείμενο. Αυτή η διπλωματική εργασία αντιμετωπίζει αυ-
τές τις προκλήσεις, προτείνοντας ένα νέο πλαίσιο για τη μετατροπή μη δομημένων
φυσικών γλωσσικών εισόδων σε δομημένα πρότυπα χρηματοοικονομικών αναφορών.
Η μεθοδολογία ενσωματώνει ένα προσαρμοσμένο μοντέλο Αναγνώρισης Ονομαστικών
Οντοτήτων (NER), αναζήτηση βάσει σημασιολογίας για την ταυτοποίηση στηλών και
εξαγωγή σειρών με κανόνες. Χρησιμοποιώντας προηγμένες τεχνικές αναπαράστασης
κειμένου, όπως Bag-of-Words (BoW), Term Frequency-Inverse Document Frequency
(TF-IDF) και προκαταρτισμένα ενσωματωμένα μοντέλα, το σύστημα εξασφαλίζει
ακριβή αντιστοίχιση των κειμενικών εισόδων σε δομημένα αποτελέσματα.
Τα πειραματικά αποτελέσματα δείχνουν μέση ακρίβεια (precision) 54% και ανάκλη-
ση (recall) 57%, υπογραμμίζοντας την αποτελεσματικότητα του συστήματος στην ανα-
γνώριση σχετικών μετρικών παρά τους περιορισμούς που επιβάλλονται από το μέγεθος
των δεδομένων και την πολυπλοκότητα του πεδίου. Οι κύριες συνεισφορές περιλαμ-
βάνουν ένα σύστημα αυτοματοποιημένης δημιουργίας αναφορών, τη χρήση Μεγάλων
Γλωσσικών Μοντέλων (LLMs) για την ενίσχυση των δεδομένων και μια στρατηγική
σημασιολογικής αναζήτησης βελτιστοποιημένη για τις χρηματοοικονομικές αναφορές.
Παρόλο που τα αποτελέσματα καταδεικνύουν σημαντική πρόοδο, οι προκλήσεις που
σχετίζονται με το μέγεθος των δεδομένων και την πολυπλοκότητα του πεδίου αναδει-
κνύουν ευκαιρίες για μελλοντική έρευνα. Βελτιώσεις όπως η επέκταση των συνόλων
δεδομένων, οι προηγμένες μέθοδοι ανάκτησης και τα προσαρμοσμένα LLMs μπορούν
να ενισχύσουν περαιτέρω την κλιμάκωση και την ακρίβεια του συστήματος.
Αυτή η έρευνα παρέχει τη βάση για την αυτοματοποίηση της δημιουργίας χρημα-
τοοικονομικών αναφορών, προσφέροντας μια ευέλικτη, αποδοτική και προσαρμόσιμη
λύση για την απλοποίηση της εξερεύνησης δεδομένων και της δημιουργίας αναφορών
στον χρηματοοικονομικό τομέα.
Abstract
In today’s data-driven environment, financial institutions face significant challenges
in automating report generation from free-text descriptions. This thesis
addresses these challenges by proposing a novel framework to transform unstructured
natural language inputs into structured financial report templates. The methodology
integrates a custom Named Entity Recognition (NER) model, semantic search
for column identification, and rule-based extraction for row selection. By leveraging
advanced text representation techniques, including Bag-of-Words (BoW), Term
Frequency-Inverse Document Frequency (TF-IDF), and pretrained embeddings, the
system ensures the precise mapping of textual inputs to structured outputs.
Experimental results demonstrate an average precision of 54% and recall of 57%,
highlighting the system’s effectiveness in capturing relevant metrics despite constraints
posed by limited data and domain-specific terminology. Key contributions
include a pipeline for automated report generation, the use of large language models
(LLMs) for dataset augmentation, and a semantic search strategy optimized
for financial reporting. While the results showcase significant progress, challenges
related to dataset size and domain complexity underscore opportunities for future
work. Enhancements such as expanded datasets, advanced retrieval methods, and
fine-tuned LLMs could further improve the system’s scalability and accuracy.
This research provides a foundation for automating financial reporting, offering
a scalable, efficient, and adaptable solution to streamline data exploration and
reporting in the financial domain.