Visual Art Generation for Music
Παραγωγή Οπτικής Τέχνης για Μουσική
Μεταπτυχιακή διπλωματική εργασία
Author
Papadopoulos, Nikolas
Date
2024-09-28Advisor
Giannakopoulos, TheodorosKeywords
Music Visualization ; Generative AI ; Multimodal ; Visual Art Generation ; Video GenerationAbstract
This thesis explores the potential use of Generative AI for visual art generation in music, introducing a tool named Deforum Music Visualizer. This tool enables the automatic creation of visual art from music and is built using Deforum Stable Diffusion, an open source, generative text-to-video diffusion framework. To incorporate both high- and low-level musical elements, it integrates extensive
Music Information Retrieval (MIR) data into music informed settings, along with conditional generation based on the song’s album cover. A survey of 45 participants (balanced female/male ratio, ages 19–59) was conducted to evaluate the tool’s effectiveness. Regardless of the participants’ music background, the tool produced baseline results in the fully automated process, scoring 3.0 ± 1.06 for Mean Enjoyment and 2.93 ± 1.20 Mean ISA (incorporation of the song’s atmosphere) on the Likert scale (1-5). User-curated prompts provided a statistically significant improvement in the performace in both Mean Enjoyment (3.63 ± 1.03) and Mean ISA (3.74 ± 1.06). The github repository of the project is available here: https://github.com/nickpadd/DeforumMusicVisualizer.
Abstract
H παρούσα εργασία διερευνά τη χρήση της Παραγωγικής Τεχνητής Νοημοσύνης (Generative AI ), στη δημιουργία οπτικής τέχνης για τη μουσική, παρουσιάζοντας ένα εργαλείο οπτικοποίησης μουσικής, με όνομα Deforum Music Visualizer . Το εργαλείο αυτό αυτοματοποιεί τη δημιουργία οπτικής τέχνης από μουσική και έχει κατασκευαστεί χρησιμοποιώντας το Deforum Stable Diffusion, ένα εγχείρημα ανοικτού κώδικα, για παραγωγή μέσω διάχυσης, βίντεο από κείμενο (text-to-video diffusion). Για την ενσωμάτωση της μουσικής πληροφορίας, τόσο υψηλού όσο και χαμηλού επιπέδου, αξιοποιεί εκτεταμένα δεδομένα Ανάκτησης Μουσικής Πληροφορίας (Music Information Retrieval ), διαμορφώνοντας τις ρυθμίσεις του μοντέλου με βάση την μουσική πληροφορία. Παράλληλα η παραγωγή μέσω διάχυσης, λαμβάνει χώρα εξαρτώμενη από το εξώφυλλο του άλμπουμ του τραγουδιού. Πραγματοποιήθηκε έρευνα με 45 συμμετέχοντες (ισορροπημένη αναλογία γυναικών/ανδρών, ηλικίας 19-59 ετών) για να αξιολογηθεί η αποτελεσματικότητα του εργαλείου. Ανεξάρτητα από το μουσικό υπόβαθρο των συμμετεχόντων, τα αποτελέσματα έδειξαν ότι το προτεινόμενο εργαλείο είναι σε θέση να παράγει αποτελέσματα που μπορούν να θεωρηθούν σημεία αφετηρίας, οσον αφορά την πλήρως αυτοματοποιημένη διαδικασία, λαμβάνοντας βαθμολογία 3.00 ± 1.06 στην μέση Ικανοποίηση και 2.93 ± 1.20 μέσο ISA (δυνατότητα μιας οπτικοποίησης να ενσωματώνει την ατμόσφαιρα ενός τραγουδιού) στην κλίμακα Likert (1-5). Στην περίπτωση κατα την οποία τα prompts ήταν προσαρμοσμένα από τον χρήστη, υπήρξε στατιστικά σημαντική ενίσχυση της απόδοσης του εργαλείου τόσο στην μέση Ικανοποίηση (3.63 ± 1.03) όσο και στο ISA (3.74 ± 1.06). Το αποθετήριο κώδικα για την παρούσα εργασία είναι διαθέσιμο στο github, στον παρακάτω σύνδεσμο: https://github.com/nickpadd/DeforumMusicVisualizer.