Αξιολόγηση μεθόδων επεξεργασίας φυσικής γλώσσας για την αυτόματη κατανόηση κειμένου
Subject
Εκμάθηση μηχανής ; Υπολογιστική νοημοσύνηKeywords
LLM ; Machine learning ; NER ; GTPAbstract
Στόχος αυτής της διπλωματικής είναι η χρήση αλγορίθμων αναγνώρισης οντοτήτων
για την αναγνώριση δεξιοτήτων σε βιογραφικά. Έχουμε ένα σύνολο βιογραφικών σε
ελεύθερο κείμενο στην Αγγλική γλώσσα, με το σώμα κειμένων να αποτελείται από
1530 έγγραφα. Ο σκοπός είναι να ανιχνεύσουμε δεξιότητες (skills) του υποψηφίου.
Αυτή η διπλωματική εργασία έχει μεγάλη χρησιμότητα σε εταιρίες ώστε να
διευκολύνουν τη διαδικασία της εύρεσης ενός κατάλληλου υποψηφίου για
πρόσληψη σε μια θέση. Επεξηγηματικά, η Αξιολόγηση μεθόδων Φυσικής Γλώσσας
(NLP), η χρησιμότητα της NLP στην αγορά εργασίας, η αναγνώριση ονομαστικών
οντοτήτων (NER) και τα οφέλη τους στην αγορά εργασίας. Τα Μεγάλα γλωσσικά
Μοντέλα (LLM), η εφαρμογή τους σε εργασίες NLP, και τα πλεονεκτήματα της χρήσης
των LLM για NER. Το πρώτο σκέλος της διπλωματικής εισαγάγει σε θεωρητικό
πλαίσιο τους παραπάνω όρους και τους αναλύει περαιτέρω. Στο δεύτερο σκέλος της
διπλωματικής γίνεται εισαγωγή στο πρακτικό κομμάτι, παρουσιάζοντας τη
μεθοδολογία και τη χρήση του GPT-NER. Μέσω των δεδομένων που εισαγάγονται,
παρατηρούμε γίνεται χρήση γλωσσικών μοντέλων, όπως το ChatGPT μέσω του
ChatGPT wrapper, για να έχουμε πρόσβαση προγραμματιστικά στο ChatGPT με
γλώσσα Python. Ο σκοπός θα είναι η επεξεργασία του κειμένου και δημιουργία
ετικετών, σύμφωνα με τη στρατηγική του GPT-NER. Γίνεται ανάλυση της διαδικασίας
που ακολουθείται, του κώδικα που χρησιμοποιείται και παρουσιάζονται τα
αποτελέσματα.
Abstract
The aim of this thesis is to use entity recognition algorithms for skill recognition in
biographies. We have a set of free-text resumes in English, with the text corpus
consisting of 1530 documents. The purpose is to detect the skills of the candidate.
This thesis is of great use to companies in order to facilitate the process of finding a
suitable candidate for recruitment to a position. Explanation of Natural Language
Processing (NLP) Methods Evaluation, the usefulness of NLP in the job market, Named
Entity Recognition (NER) and its benefits in the job market. Large Language Models
(LLMs), their application to NLP tasks, and the advantages of using LLMs for NER. The first part of the thesis introduces the above terms in a theoretical framework and
further analyzes them. The second part of the thesis introduces the practical part,
presenting the methodology and the use of GPT-NER. Through the data introduced,
we observe that it is made use of language models, such as ChatGPT through the
ChatGPT wrapper, to access ChatGPT programmatically with Python language. The
purpose will be to process the text and create tags according to the GPT-NER strategy.
An analysis of the process followed, the code used and the results are presented.