Automated test generation and marking using Local LLMs
Αυτόματη παραγωγή και βαθμολόγηση εξετάσεων με την χρήση τοπικών LLMs
Μεταπτυχιακή διπλωματική εργασία
Author
Παπαχρήστου, Ιωάννης
Date
2025-02-21Subject
Computer software--Development ; Artificial Intelligence ; Examinations (Professional education) ; Τεχνητή νοημοσύνη ; Προγράμματα υπολογιστών--Ανάπτυξη ; Εξετάσεις (Επαγγελματική παιδεία)Keywords
Exam Creation System ; Natural Language Processing (NLP) ; Automated Grading ; Llama 3.1 ; Question-Answer Generation ; Retrieval Augmented GenerationAbstract
This case study presents an innovative exam creation and grading system powered by
advanced Natural Language Processing (NLP) and Llama 3.1. The system generates clear,
grammatically accurate questions in English and Greek from both short text and long
documents. It supports diverse question formats across various difficulty levels, ensuring
semantically distinct content while minimizing redundancy. Grading utilizes a semantic
similarity model to accurately evaluate essay and open-ended responses, offering partial
credit and reducing bias from phrasing or syntax based on Named Entity Recognition (NER).
A key advantage is its ability to run locally on ordinary personal computers without requiring
specialized AI systems. The system also provides feedback on graded responses. Evaluations
using metrics such as ROUGE, BLEU, diversity scores, and cosine similarity demonstrate its
effectiveness, outperforming state-of-the-art models like BERT and T5 for educational
assessment tasks.
Abstract
Ο στόχος της παρούσας εργασίας είναι να δημιουργηθεί ένα καινοτόμο σύστημα δημιουργίας και βαθμολόγησης εξετάσεων που υποστηρίζεται από προηγμένη Επεξεργασία Φυσικής Γλώσσας (NLP) και το Llama 3.1. Το σύστημα δημιουργεί σαφείς, γραμματικά ακριβείς ερωτήσεις στα αγγλικά και στα ελληνικά τόσο από σύντομο κείμενο όσο και από μεγάλα έγγραφα. Υποστηρίζει διάφορες μορφές ερωτήσεων σε διάφορα επίπεδα δυσκολίας, διασφαλίζοντας σημασιολογικά διακριτό περιεχόμενο, ελαχιστοποιώντας παράλληλα τον πλεονασμό. Η βαθμολόγηση χρησιμοποιεί ένα μοντέλο σημασιολογικής ομοιότητας για την ακριβή αξιολόγηση απαντήσεων ανοιχτού τύπου, προσφέροντας μερική πίστωση και μειώνοντας την προκατάληψη από φράσεις ή σύνταξη με βάση την Αναγνώριση Κατονομασμένων Οντοτήτων (NER). Ένα βασικό πλεονέκτημα είναι η ικανότητά του να εκτελείται τοπικά σε συνηθισμένους προσωπικούς υπολογιστές χωρίς να απαιτεί εξειδικευμένες μηχανές AI. Επιπλέον η modular αρχιτεκτονική του, επιτρέπει στο σύστημα να εναλλάσσεται απρόσκοπτα μεταξύ μοντέλων NLP με ελάχιστη ανθρώπινη παρέμβαση. Αυτή η ευελιξία διασφαλίζει ότι το σύστημα παραμένει προσαρμόσιμο και μπορεί εύκολα να ενημερωθεί ή να προσαρμοστεί για να ενσωματώσει νέα μοντέλα ή βελτιώσεις καθώς αυτά γίνονται διαθέσιμα. Το σύστημα παρέχει επίσης λεπτομερή αιτιολόγηση σχετικά με τις βαθμολογημένες απαντήσεις. Οι μετρήσεις όπως το ROUGE, το BLEU, οι βαθμολογίες ποικιλομορφίας και η ομοιότητα του συνημιτόνου καταδεικνύουν την αποτελεσματικότητά του, ξεπερνώντας τα σύγχρονα μοντέλα όπως το BERT και το T5 για εργασίες εκπαιδευτικής αξιολόγησης.