Named Entity Recognition in Scientific Texts
Μεταπτυχιακή διπλωματική εργασία
Author
Fragkopoulos, Kosmas
Date
2024-12-19Advisor
Tryfonopoulos, ChristosSubject
Information retrieval ; Artificial Intelligence ; Text Mining ; Machine Learning ; Data MiningKeywords
Named entity recognition ; Information extractionAbstract
The automatic extraction of crucial information from text documents has been a fundamental pursuit since the early stages of natural language processing. With the exponential growth of digital content such as news, social media, and blogs, the need for effective information extraction has become increasingly vital. This thesis presents a comprehensive study on Named Entity Recognition (NER) in scientific texts, with a specific focus on the domain of computer science. The research involved the collection and analysis of 2000 sample abstract texts from scientific literature, which were processed using an advanced algorithm to identify and extract all terms relevant to the field of computer science. The study aimed to address the challenges of accurately identifying and categorising named entities within the context of scientific literature, particularly in the specialised domain of computer science. The findings and insights from this research contribute to the advancement of NER techniques in scientific texts and have implications for various applications in information retrieval, knowledge extraction, and natural language processing within the domain of computer science.
Abstract
Η αυτόματη εξαγωγή κρίσιμων πληροφοριών από έγγραφα κειμένου αποτελεί βασικό στόχο της επεξεργασίας φυσικής γλώσσας. Με την ραγδαία αύξηση του ψηφιακού περιεχομένου, η ανάγκη για αποτελεσματικές τεχνικές εξαγωγής πληροφοριών γίνεται
όλο και πιο επιτακτική. Η παρούσα διατριβή επικεντρώνεται στην αναγνώριση ονομαστικών οντοτήτων σε επιστημονικά κείμενα, με έμφαση στον τομέα της επιστήμης των υπολογιστών. Στόχος είναι να αναπτυχθεί ένας αποτελεσματικός αλγόριθμος για τον εντοπισμό και την κατηγοριοποίηση σημαντικών όρων σε επιστημονικά κείμενα, αντιμετωπίζοντας τις προκλήσεις που ενυπάρχουν σε αυτό το εξειδικευμένο πεδίο. Για την επίτευξη του στόχου αυτού, συλλέχθηκαν και αναλύθηκαν 2000 δείγματα κειμένων από επιστημονική βιβλιογραφία. Τα δεδομένα αυτά υποβλήθηκαν σε επεξεργασία με τη χρήση ενός προηγμένου αλγορίθμου αναγνωρισης ονομαστικών οντοτήτων, ο οποίος σχεδιάστηκε ειδικά για τον εντοπισμό όρων που σχετίζονται με την επιστήμη των υπολογιστών. Τα αποτελέσματα της έρευνας συμβάλλουν στην περαιτέρω ανάπτυξη των σχετικών τεχνικών σε επιστημονικά κείμενα. Οι γνώσεις που αποκτήθηκαν μπορούν να εφαρμοστούν σε διάφορες εφαρμογές, όπως η ανάκτηση πληροφοριών, η εξαγωγή γνώσης και η επεξεργασία φυσικής γλώσσας στον τομέα της επιστήμης των υπολογιστών.