Document Data Analysis via Machine/Deep Learning techniques

Σπυράτος, Άγγελος

dc.contributor.advisor	Πετάσης, Γεώργιος
dc.contributor.author	Σπυράτος, Άγγελος
dc.date.accessioned	2024-08-27T09:48:56Z
dc.date.available	2024-08-27T09:48:56Z
dc.date.issued	2021-03
dc.identifier.uri	https://amitos.library.uop.gr/xmlui/handle/123456789/8166
dc.identifier.uri	http://dx.doi.org/10.26263/amitos-1668
dc.description	Μ.Δ.Ε. 86	el
dc.description.abstract	Job advert aggregators gather millions of adverts every single day, by scraping job boards and various other sources across the globe. Aggregators are getting visited by millions of active job seekers every day, that wish to find their perfect match in order to land a job, according to their skills and field of studies. With such high volume of visitors seeking to find their optimal match, proper categorization of job adverts becomes a must have feature for any aggregator in order to help their users have a smooth experience while searching for their perfect job match. However, due to the huge volume of data and the nature of the job adverts themselves, where each job description can possibly match with multiple categories and similar positions might have huge variations in the language used to describe them, the proper classification of such data comes to be a hard task. In this work, various machine learning, deep learning, data processing and data augmentation methods are used in order to try and classify job adverts in one of the twenty-nine categories of the Adzuna company. Towards this, a real-world private dataset, consisting of about 234.000 job adverts from the United Kingdom, containing titles, descriptions and hand-crafted categories, is provided by the Adzuna company. Our main results show that Deep Learning models outperform all kinds of conventional Machine Learning approaches such as Support Vector Classifiers, Multinomial Naïve Bayes and Decision Trees. In addition, training custom word2vec embeddings helps achieve higher accuracy metrics compared to using pretrained embeddings such as Glove 100. However, the model selection (choosing a Deep Learning model against a conventional Machine Learning model) is of higher impact towards better metrics than using embeddings and sequences of words. The model that achieved the highest weighted average F1-Score (80%) and the highest testing accuracy (80.5%) was the Feedforward Neural Network trained on Bag of Words (TF-IDF) representations of lowercased and stemmed job descriptions. Specifically, this model achieved a weighted average Precision of 80%, a weighted average Recall of 81%.	el
dc.format.extent	σελ. 108	el
dc.language.iso	en	el
dc.publisher	Πανεπιστήμιο Πελοποννήσου	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.title	Document Data Analysis via Machine/Deep Learning techniques	el
dc.title.alternative	Ανάλυση δεδομένων εγγράφων μέσω τεχνικών Machine/Deep Learning	el
dc.type	Μεταπτυχιακή διπλωματική εργασία	el
dc.contributor.committee	Πετάσης, Γεώργιος
dc.contributor.committee	Αναστασία, Κριθαρά
dc.contributor.committee	Βασιλάκης, Κωνσταντίνος
dc.contributor.department	Τμήμα Πληροφορικής και Τηλεπικοινωνιών	el
dc.contributor.faculty	Σχολή Οικονομίας και Τεχνολογίας	el
dc.contributor.master	Επιστήμη και Τεχνολογία Υπολογιστών	el
dc.subject.keyword	Machine Learning	el
dc.subject.keyword	Text Classification	el
dc.subject.keyword	Natural Language Processing	el
dc.subject.keyword	Deep Learning	el
dc.description.abstracttranslated	Οι συγκεντρωτές αγγελιών εργασίας συγκεντρώνουν εκατομμύρια αγγελίες κάθε μέρα, κάνοντας απόξεση εργασίας πίνακες και διάφορες άλλες πηγές σε όλο τον κόσμο. Οι συγκεντρωτές γίνονται επισκέψεις εκατομμύρια ενεργά άτομα που αναζητούν εργασία κάθε μέρα, που επιθυμούν να βρουν το τέλειο ταίρι τους στη σειρά να αποκτήσουν δουλειά, ανάλογα με τις δεξιότητες και τον τομέα σπουδών τους. Με τόσο μεγάλο όγκο επισκέπτες που αναζητούν να βρουν τη βέλτιστη αντιστοιχία τους, σωστή κατηγοριοποίηση των αγγελιών εργασίας γίνεται απαραίτητο χαρακτηριστικό για κάθε aggregator προκειμένου να βοηθήσουν τους χρήστες του να έχουν ένα ομαλή εμπειρία κατά την αναζήτηση για το τέλειο ταίρι εργασίας τους. Ωστόσο, λόγω της τεράστιος όγκος δεδομένων και η φύση της εργασίας διαφημίζονται οι ίδιοι, όπου κάθε εργασία Η περιγραφή μπορεί ενδεχομένως να ταιριάζει με πολλές κατηγορίες και παρόμοιες θέσεις μπορεί έχουν τεράστιες παραλλαγές στη γλώσσα που χρησιμοποιείται για την περιγραφή τους, τη σωστή ταξινόμηση τέτοιων δεδομένων είναι δύσκολο έργο. Σε αυτό το έργο, διάφορα μηχανική μάθηση, βαθιά Μέθοδοι μάθησης, επεξεργασίας δεδομένων και αύξησης δεδομένων χρησιμοποιούνται για να προσπαθήσουμε και ταξινομήσετε τις αγγελίες εργασίας σε μία από τις είκοσι εννέα κατηγορίες της εταιρείας Adzuna. Προς αυτό, ένα πραγματικό ιδιωτικό σύνολο δεδομένων, που αποτελείται από περίπου 234.000 αγγελίες εργασίας από το Ηνωμένο Βασίλειο, που περιέχει τίτλους, περιγραφές και χειροποίητες κατηγορίες, παρέχεται από την εταιρεία Adzuna. Τα κύρια αποτελέσματά μας δείχνουν ότι το Deep Learning τα μοντέλα υπερτερούν όλων των ειδών των συμβατικών προσεγγίσεων Μηχανικής Μάθησης όπως π.χ Υποστήριξη διανυσματικών ταξινομητών, πολυωνυμικών Naïve Bayes και Decision Trees. Εξάλλου, Η εκπαίδευση προσαρμοσμένων ενσωματώσεων word2vec βοηθά στην επίτευξη υψηλότερων μετρήσεων ακρίβειας σε σύγκριση με τη χρήση προεκπαιδευμένων ενσωματώσεων όπως το Glove 100. Ωστόσο, το μοντέλο επιλογή (επιλέγοντας ένα μοντέλο Deep Learning έναντι ενός συμβατικού Machine Learning μοντέλο) έχει μεγαλύτερο αντίκτυπο για καλύτερες μετρήσεις από τη χρήση ενσωματώσεων και αλληλουχίες λέξεων. Το μοντέλο που πέτυχε τον υψηλότερο σταθμισμένο μέσο όρο βαθμολογίας F1 (80%) και η υψηλότερη ακρίβεια δοκιμών (80,5%) ήταν το Νευρωνικό Δίκτυο Feedforward εκπαιδεύτηκε στις αναπαραστάσεις του Bag of Words (TF-IDF) των πεζών και με στέλεχος περιγραφές. Συγκεκριμένα, αυτό το μοντέλο πέτυχε μέση σταθμισμένη ακρίβεια 80%, σταθμισμένη μέση Ανάκληση 81%.	el

Files in this item

Name:: spyratos_17021.pdf
Size:: 5.112Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Τμήμα Πληροφορικής και Τηλεπικοινωνιών (Μ. Δ. Ε.)

Show simple item record

Except where otherwise noted, this item's license is described as
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα