Ανάπτυξη Συστήματος Εξόρυξης και Ανάλυσης Πληροφορίας από Αγγελίες Εργασίας στο Διαδίκτυο με Χρήση Μεθόδων Τεχνητής Νοημοσύνης

dc.contributor.advisorΤζήμας, Ιωάννης
dc.contributor.authorΕυσταθίου, Αικατερίνη
dc.contributor.committeeΤζήμας, Ιωάννης
dc.contributor.committeeΤσακνάκης, Ιωάννης
dc.contributor.committeeΖέρβας, Παναγιώτης
dc.contributor.departmentΤμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
dc.contributor.facultyΠολυτεχνική Σχολήel
dc.contributor.masterΗλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών (Integrated master)el
dc.date.accessioned2026-02-20T07:01:34Z
dc.date.available2026-02-20T07:01:34Z
dc.date.issued2026-02
dc.description.abstractΗ παρούσα διπλωματική εργασία αφορά τον σχεδιασμό και την υλοποίηση ενός ολοκληρωμένου συστήματος συλλογής, επεξεργασίας και ανάλυσης αγγελιών εργασίας από διαδικτυακά portals. Το σύστημα αναπτύχθηκε με στόχο την αυτόματη εξαγωγή δομημένων δεδομένων από ετερογενές και μη δομημένο περιεχόμενο αγγελιών, αξιοποιώντας σύγχρονες τεχνικές επεξεργασίας κειμένου και μεγάλα γλωσσικά μοντέλα (Large Language Models – LLMs). Η διαδικασία περιλαμβάνει την απομόνωση των επιμέρους αγγελιών από τις βασικές σελίδες των portals, την είσοδο στο εσωτερικό τους περιεχόμενο, καθώς και την εφαρμογή μηχανισμών καθαρισμού και τεμαχισμού του HTML ώστε να είναι δυνατή η επεξεργασία από τα γλωσσικά μοντέλα. Για την εξαγωγή των πεδίων χρησιμοποιείται LLM μέσω του LM Studio, με αυστηρά ορισμένες οδηγίες και κανόνες εξαγωγής. Τα αποτελέσματα κανονικοποιούνται, επικυρώνονται με χρήση μοντέλων Pydantic και αποθηκεύονται σε βάση δεδομένων PostgreSQL, ενώ εφαρμόζεται μηχανισμός αποφυγής διπλότυπων εγγραφών. Το σύστημα υποστηρίζει πολλαπλά portals με αρθρωτή αρχιτεκτονική και παράγει δεδομένα κατάλληλα για περαιτέρω ανάλυση της αγοράς εργασίας. Τέλος, αξιολογούνται τα παραγόμενα δεδομένα και συζητούνται περιορισμοί και δυνατότητες μελλοντικής βελτίωσης.el
dc.description.abstracttranslatedThis thesis focuses on the design and implementation of an end-to-end system for collecting, processing, and analyzing job listings from online job portals. The system aims to automatically extract structured information from heterogeneous and unstructured job advertisement content, leveraging modern text processing techniques and Large Language Models (LLMs). The workflow includes isolating individual job cards from portal listing pages, navigating to the internal pages of each job advertisement, and applying cleaning and segmentation mechanisms to the HTML content to ensure compatibility with language models. Field extraction is performed using an LLM through LM Studio, guided by carefully designed prompts and strict extraction rules. The extracted data are subsequently normalized and validated using Pydantic models to ensure structural consistency and data quality. A deduplication mechanism based on job URLs prevents duplicate entries, and the validated records are stored in a PostgreSQL database. The system is designed with a modular architecture that supports multiple job portals and facilitates extensibility. The produced dataset enables further analysis of labor market trends and job characteristics. The thesis also discusses limitations observed during implementation, such as challenges in salary normalization, and outlines potential directions for future improvements, including the use of more advanced language models and enhanced extraction and evaluation mechanisms.el
dc.format.extent70el
dc.identifier.urihttps://amitos.library.uop.gr/handle/123456789/9619
dc.language.isoelel
dc.publisherΠανεπιστήμιο Πελοποννήσουel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.subject.keywordΤεχνητή Νοημοσύνηel
dc.subject.keywordΜεγάλα Γλωσσικά Μοντέλαel
dc.subject.keywordΔιαδικτυακές Αγγελίες Εργασίαςel
dc.subject.keywordLM Studioel
dc.subject.keywordLLMel
dc.subject.keywordOnline Job Portalsel
dc.subject.keywordPostgreSQLel
dc.subject.keywordJob Listingsel
dc.subject.keywordInformation Extractionel
dc.subject.keywordΕξαγωγή Δομημένων Δεδομένωνel
dc.titleΑνάπτυξη Συστήματος Εξόρυξης και Ανάλυσης Πληροφορίας από Αγγελίες Εργασίας στο Διαδίκτυο με Χρήση Μεθόδων Τεχνητής Νοημοσύνηςel
dc.title.alternativeDevelopment of a System for Information Extraction and Analysis from Online Job Advertisements Using Artificial Intelligence Methodsel
dc.typeΜεταπτυχιακή διπλωματική εργασίαel

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Efstathiou_20118.pdf
Size:
2.54 MB
Format:
Adobe Portable Document Format
Description:

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
933 B
Format:
Item-specific license agreed upon to submission
Description: