Ανάπτυξη Συστήματος Εξόρυξης και Ανάλυσης Πληροφορίας από Αγγελίες Εργασίας στο Διαδίκτυο με Χρήση Μεθόδων Τεχνητής Νοημοσύνης
| dc.contributor.advisor | Τζήμας, Ιωάννης | |
| dc.contributor.author | Ευσταθίου, Αικατερίνη | |
| dc.contributor.committee | Τζήμας, Ιωάννης | |
| dc.contributor.committee | Τσακνάκης, Ιωάννης | |
| dc.contributor.committee | Ζέρβας, Παναγιώτης | |
| dc.contributor.department | Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
| dc.contributor.faculty | Πολυτεχνική Σχολή | el |
| dc.contributor.master | Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών (Integrated master) | el |
| dc.date.accessioned | 2026-02-20T07:01:34Z | |
| dc.date.available | 2026-02-20T07:01:34Z | |
| dc.date.issued | 2026-02 | |
| dc.description.abstract | Η παρούσα διπλωματική εργασία αφορά τον σχεδιασμό και την υλοποίηση ενός ολοκληρωμένου συστήματος συλλογής, επεξεργασίας και ανάλυσης αγγελιών εργασίας από διαδικτυακά portals. Το σύστημα αναπτύχθηκε με στόχο την αυτόματη εξαγωγή δομημένων δεδομένων από ετερογενές και μη δομημένο περιεχόμενο αγγελιών, αξιοποιώντας σύγχρονες τεχνικές επεξεργασίας κειμένου και μεγάλα γλωσσικά μοντέλα (Large Language Models – LLMs). Η διαδικασία περιλαμβάνει την απομόνωση των επιμέρους αγγελιών από τις βασικές σελίδες των portals, την είσοδο στο εσωτερικό τους περιεχόμενο, καθώς και την εφαρμογή μηχανισμών καθαρισμού και τεμαχισμού του HTML ώστε να είναι δυνατή η επεξεργασία από τα γλωσσικά μοντέλα. Για την εξαγωγή των πεδίων χρησιμοποιείται LLM μέσω του LM Studio, με αυστηρά ορισμένες οδηγίες και κανόνες εξαγωγής. Τα αποτελέσματα κανονικοποιούνται, επικυρώνονται με χρήση μοντέλων Pydantic και αποθηκεύονται σε βάση δεδομένων PostgreSQL, ενώ εφαρμόζεται μηχανισμός αποφυγής διπλότυπων εγγραφών. Το σύστημα υποστηρίζει πολλαπλά portals με αρθρωτή αρχιτεκτονική και παράγει δεδομένα κατάλληλα για περαιτέρω ανάλυση της αγοράς εργασίας. Τέλος, αξιολογούνται τα παραγόμενα δεδομένα και συζητούνται περιορισμοί και δυνατότητες μελλοντικής βελτίωσης. | el |
| dc.description.abstracttranslated | This thesis focuses on the design and implementation of an end-to-end system for collecting, processing, and analyzing job listings from online job portals. The system aims to automatically extract structured information from heterogeneous and unstructured job advertisement content, leveraging modern text processing techniques and Large Language Models (LLMs). The workflow includes isolating individual job cards from portal listing pages, navigating to the internal pages of each job advertisement, and applying cleaning and segmentation mechanisms to the HTML content to ensure compatibility with language models. Field extraction is performed using an LLM through LM Studio, guided by carefully designed prompts and strict extraction rules. The extracted data are subsequently normalized and validated using Pydantic models to ensure structural consistency and data quality. A deduplication mechanism based on job URLs prevents duplicate entries, and the validated records are stored in a PostgreSQL database. The system is designed with a modular architecture that supports multiple job portals and facilitates extensibility. The produced dataset enables further analysis of labor market trends and job characteristics. The thesis also discusses limitations observed during implementation, such as challenges in salary normalization, and outlines potential directions for future improvements, including the use of more advanced language models and enhanced extraction and evaluation mechanisms. | el |
| dc.format.extent | 70 | el |
| dc.identifier.uri | https://amitos.library.uop.gr/handle/123456789/9619 | |
| dc.language.iso | el | el |
| dc.publisher | Πανεπιστήμιο Πελοποννήσου | el |
| dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
| dc.subject.keyword | Τεχνητή Νοημοσύνη | el |
| dc.subject.keyword | Μεγάλα Γλωσσικά Μοντέλα | el |
| dc.subject.keyword | Διαδικτυακές Αγγελίες Εργασίας | el |
| dc.subject.keyword | LM Studio | el |
| dc.subject.keyword | LLM | el |
| dc.subject.keyword | Online Job Portals | el |
| dc.subject.keyword | PostgreSQL | el |
| dc.subject.keyword | Job Listings | el |
| dc.subject.keyword | Information Extraction | el |
| dc.subject.keyword | Εξαγωγή Δομημένων Δεδομένων | el |
| dc.title | Ανάπτυξη Συστήματος Εξόρυξης και Ανάλυσης Πληροφορίας από Αγγελίες Εργασίας στο Διαδίκτυο με Χρήση Μεθόδων Τεχνητής Νοημοσύνης | el |
| dc.title.alternative | Development of a System for Information Extraction and Analysis from Online Job Advertisements Using Artificial Intelligence Methods | el |
| dc.type | Μεταπτυχιακή διπλωματική εργασία | el |
