Δοκιμές αξιολόγησης συστημάτων ML: Διαδικασίες, Μέθοδοι & Μετρικές
Μεταπτυχιακή διπλωματική εργασία
Συγγραφέας
Σουρλάς, Βασίλειος
Ημερομηνία
2024-05Επιβλέπων
Βασιλάκης, ΚώσταςΛέξεις κλειδιά
δοκιμές αξιολόγησης ; μηχανική μάθηση ; τεχνητή νοημοσύνη ; βαθεία μάθηση ; μοντέλα ; νευρωνικά δίκτυα ; ακρίβεια ; πληρότητα ; κάλυψηΠερίληψη
Η δοκιμή αξιολόγησης των συστημάτων ML είναι μια απαιτητική και δαπανηρή διαδικασία καθώς
τα συστήματα αυτά παρουσιάζουν υψηλή πολυπλοκότητα, χρειάζονται μεγάλο όγκο δεδομένων
για να πραγματοποιήσουν καλές προβλέψεις, και χρησιμοποιούν πολύπλοκους, πιθανολογικούς
μη ντετερμινιστικούς αλγόριθμους. Η παρούσα διπλωματική εργασία επιδιώκει να δώσει μια
ολοκληρωμένη εικόνα των σύγχρονων μεθοδολογιών που χρησιμοποιούνται για τις δοκιμές
αξιολόγησης των συστημάτων ML, συμβάλλοντας στη βελτίωση της αξιοπιστίας και της
απόδοσης τους.
Αρχικά, αναλύεται η διαδικασία ανάπτυξης ενός συστήματος ML, από τη συλλογή και την
προεπεξεργασία των δεδομένων, έως και την παρακολούθηση της συμπεριφοράς και τρόπου
λειτουργίας του συστήματος σε παραγωγικό περιβάλλον. Στη συνέχεια, αναλύεται η διαδικασία
αξιολόγησης των συστημάτων AI, ενώ επίσης επισημαίνονται οι βασικές διαφορές των δοκιμών
αξιολόγησης τους σε σύγκριση με τα συμβατικά συστήματα. Ιδιαίτερη έμφαση δίνεται στις
μετρικές αξιολόγησης που χρησιμοποιούνται για την μέτρηση της απόδοσης των μοντέλων ML
και περιγράφονται τα μειονεκτήματα και τα πλεονεκτήματα τους. Ακόμα, παρουσιάζονται οι
μεθοδολογίες δοκιμών, όπως οι Differential, Metamorphic, Mutation και Combinatorial, οι οποίες
βοηθούν τόσο στη δημιουργία δοκιμαστικών περιπτώσεων όσο και στην αντιμετώπιση του
προβλήματος του test oracle. Τέλος, συζητούνται η επάρκεια των δοκιμών και οι τεχνικές
ιεράρχησης και μείωσης των δοκιμαστικών περιπτώσεων για την αποδοτικότερη και
αποτελεσματικότερη αξιολόγηση των ML συστημάτων
Περίληψη
Τesting of ML systems is a demanding and expensive process, given that these systems exhibit high complexity, need a large amount of data to make good predictions, and use complex, probabilistic non-deterministic algorithms. This thesis seeks to present a comprehensive picture of the state-of-the-art methodologies used for the evaluation tests of ML systems, striving to improve their reliability and performance. Initially, the development process of an ML system is analyzed, from the stages of collection and pre-processing of the data, to the phase of monitoring of the system's behavior and operation in a production environment. Then, the testing process of AI systems is analyzed, and the key differences between testing of AI systems conventional systems are highlighted. Special emphasis is given on the evaluation metrics used to measure the performance of ML models and their disadvantages and advantages are described. Furthermore, testing methodologies, such as Differential, Metamorphic, Mutation and Combinatorial, are presented, which help both in creating test cases and in dealing with the test oracle problem. Finally, test adequacy and test case prioritization and reduction techniques are discussed for more efficient and effective evaluation of ML systems.