Ανάπτυξη Συστήματος Εξόρυξης και Ανάλυσης Πληροφορίας από Αγγελίες Εργασίας στο Διαδίκτυο με Χρήση Μεθόδων Τεχνητής Νοημοσύνης
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Η παρούσα διπλωματική εργασία αφορά τον σχεδιασμό και την υλοποίηση ενός ολοκληρωμένου συστήματος συλλογής, επεξεργασίας και ανάλυσης αγγελιών εργασίας από διαδικτυακά portals. Το σύστημα αναπτύχθηκε με στόχο την αυτόματη εξαγωγή δομημένων δεδομένων από ετερογενές και μη δομημένο περιεχόμενο αγγελιών, αξιοποιώντας σύγχρονες τεχνικές επεξεργασίας κειμένου και μεγάλα γλωσσικά μοντέλα (Large Language Models – LLMs). Η διαδικασία περιλαμβάνει την απομόνωση των επιμέρους αγγελιών από τις βασικές σελίδες των portals, την είσοδο στο εσωτερικό τους περιεχόμενο, καθώς και την εφαρμογή μηχανισμών καθαρισμού και τεμαχισμού του HTML ώστε να είναι δυνατή η επεξεργασία από τα γλωσσικά μοντέλα. Για την εξαγωγή των πεδίων χρησιμοποιείται LLM μέσω του LM Studio, με αυστηρά ορισμένες οδηγίες και κανόνες εξαγωγής. Τα αποτελέσματα κανονικοποιούνται, επικυρώνονται με χρήση μοντέλων Pydantic και αποθηκεύονται σε βάση δεδομένων PostgreSQL, ενώ εφαρμόζεται μηχανισμός αποφυγής διπλότυπων εγγραφών. Το σύστημα υποστηρίζει πολλαπλά portals με αρθρωτή αρχιτεκτονική και παράγει δεδομένα κατάλληλα για περαιτέρω ανάλυση της αγοράς εργασίας. Τέλος, αξιολογούνται τα παραγόμενα δεδομένα και συζητούνται περιορισμοί και δυνατότητες μελλοντικής βελτίωσης.

