Deep Metric Learning for Music Information Retrieval
Deep Metric Learning για Ανάκτηση Μουσικών Πληροφοριών
Μεταπτυχιακή διπλωματική εργασία
Συγγραφέας
Μουχάκης, Βασίλειος
Ημερομηνία
2023-10-18Επιβλέπων
Γιαννακόπουλος, ΘεόδωροςΠερίληψη
This master thesis explores the application of Deep Metric Learning (DML) for creating effective
audio representations in tasks like audio classification, music retrieval, and speech recognition.
DML uses deep neural networks to learn hierarchical representations from raw audio waveforms,
capturing intricate relationships between audio samples. The thesis evaluates different deep
neural network architectures and loss functions, including triplet loss and contrastive loss. The
models are tested using various distance metrics and normalization techniques. The research
aims to enhance our understanding of DML for audio representations and its potential
applications. The findings contribute valuable insights to guide the design of powerful audio
representations for diverse audio-related tasks.
Περίληψη
Αυτή η μεταπτυχιακή διατριβή διερευνά την εφαρμογή της Deep Metric Learning (DML) για τη δημιουργία αποτελεσματικών
αναπαραστάσεις ήχου σε εργασίες όπως η ταξινόμηση ήχου, η ανάκτηση μουσικής και η αναγνώριση ομιλίας.
Η DML χρησιμοποιεί βαθιά νευρωνικά δίκτυα για να μάθει ιεραρχικές αναπαραστάσεις από ακατέργαστες κυματομορφές ήχου,
καταγράφοντας περίπλοκες σχέσεις μεταξύ δειγμάτων ήχου. Η διατριβή αξιολογεί διαφορετικά βαθιά
Αρχιτεκτονικές νευρωνικών δικτύων και συναρτήσεις απώλειας, συμπεριλαμβανομένης της απώλειας τριπλής και της απώλειας αντίθεσης. ο
Τα μοντέλα ελέγχονται χρησιμοποιώντας διάφορες μετρήσεις απόστασης και τεχνικές κανονικοποίησης. Η έρευνα
στοχεύει να βελτιώσει την κατανόησή μας για το DML για αναπαραστάσεις ήχου και τις δυνατότητές του
εφαρμογές. Τα ευρήματα συνεισφέρουν πολύτιμες πληροφορίες για να καθοδηγήσουν τη σχεδίαση ισχυρού ήχου
αναπαραστάσεις για διάφορες εργασίες που σχετίζονται με τον ήχο.