• Ελληνικά
    • English
  • Ελληνικά 
    • Ελληνικά
    • English
  • Σύνδεση
Προβολή τεκμηρίου 
  •   Αμητός Ι.Α. Πανεπιστημίου Πελοποννήσου
  • Μεταπτυχιακές Διπλωματικές Εργασίες
  • Σχολή Οικονομίας και Τεχνολογίας
  • Τμήμα Πληροφορικής και Τηλεπικοινωνιών (Μ. Δ. Ε.)
  • Προβολή τεκμηρίου
  •   Αμητός Ι.Α. Πανεπιστημίου Πελοποννήσου
  • Μεταπτυχιακές Διπλωματικές Εργασίες
  • Σχολή Οικονομίας και Τεχνολογίας
  • Τμήμα Πληροφορικής και Τηλεπικοινωνιών (Μ. Δ. Ε.)
  • Προβολή τεκμηρίου
Σύνθετη αναζήτηση
JavaScript is disabled for your browser. Some features of this site may not work without it.

Πλοήγηση

Όλο τον ΑμητόΚοινότητες & ΣυλλογέςΑνά ημερομηνία δημοσίευσηςΣυγγραφείςΤίτλοιΘέματαΛέξεις-κλειδιάΑκαδημαϊκά ΤμήματαΜεταπτυχιακά ΠρογράμματαΕπιβλέποντεςΑυτή η συλλογήΑνά ημερομηνία δημοσίευσηςΣυγγραφείςΤίτλοιΘέματαΛέξεις-κλειδιάΑκαδημαϊκά ΤμήματαΜεταπτυχιακά ΠρογράμματαΕπιβλέποντες

Ο λογαριασμός μου

Σύνδεση

Video Content Similarity Detection

Thumbnail
Μεταπτυχιακή διπλωματική εργασία
Συγγραφέας
Μάλφα, Ίλια-Αικατερίνη
Ημερομηνία
2024-09-30
Επιβλέπων
Γιαννακόπουλος, Θεόδωρος
ΜΑΛΦΑ_2022202004011.pdf (1.825Mb)
Θεματική επικεφαλίδα
Machine Learning ; Μηχανική Μάθηση ; Multimedia data mining ; Πολυμέσα ; Εξόρυξη δεδομένων ; Audio-visual 
Λέξεις κλειδιά
similarity detection
Περίληψη
This master thesis explores the application of advanced machine learning techniques for detecting video content similarity, an increasingly important task in the era of large-scale multimedia data. Traditional methods often struggle to effectively handle the complexity of video data, which contains both visual and auditory components. This study leverages embedding models, to represent these components as compact and dense vectors, enabling more efficient and accurate similarity detection. The anime series Mushishi serves as the dataset for this research, providing a consistent structure and rich audiovisual content for detailed analysis. The thesis applies a range of similarity metrics, including cosine similarity and Euclidean distance, to compare embeddings across different episodes and segments of the series. A key innovation of this study is the integration of both image and audio embeddings to improve the detection of content similarity. By combining these modalities, the research demonstrates that a multimodal approach significantly enhances accuracy compared to single-modality models, especially in segments where both visual and auditory features play critical roles in defining similarity. The findings of this research offer valuable insights into the performance of embedding models in multimedia content analysis. The study highlights both the strengths and limitations of the models tested, with CLIP excelling in visual feature extraction and Wav2Vec2 capturing auditory nuances. The combined audio-visual approach opens new possibilities for more robust and scalable systems in fields such as content recommendation, copyright protection, and video retrieval. This thesis contributes a framework that can be further expanded to handle a variety of multimedia content.
Περίληψη
Η παρούσα διπλωματική εργασία ασχολείται με την ανίχνευση ομοιοτήτων περιεχομένου στα βίντεο, χρησιμοποιώντας σύγχρονες τεχνικές μηχανικής μάθησης. Με την ταχύτατη αύξηση του όγκου των πολυμέσων που παράγονται καθημερινά, η ανάγκη για αποτελεσματι- κές μεθόδους ανίχνευσης ομοιοτήτων μεταξύ οπτικών και ακουστικών στοιχείων έχει γίνει ιδιαίτερα σημαντική. Οι παραδοσιακές μέθοδοι συχνά αδυνατούν να χειριστούν την πολυ- πλοκότητα των δεδομένων πολυμέσων, καθώς συνδυάζουν τόσο τους οπτικούς όσο και τους ηχητικούς χαρακτηρισμούς, οι οποίοι μπορεί να διαφέρουν σημαντικά μεταξύ τους σε διαφο- ρετικά τμήματα του βίντεο. Για την αντιμετώπιση αυτού του προβλήματος, η παρούσα εργασία εφαρμόζει σύγχρονα μοντέλα ενσωμάτωσης (embeddings), όπως το EfficientNet, το CLIP ViT και τοWav2Vec2, για να δημιουργήσει πυκνές αναπαραστάσεις των οπτικών και ακουστικών δεδομένων των βίντεο. Το αντικείμενο της μελέτης είναι η ανάλυση επεισοδίων της σειράς ανιμε Mushishi, η οποία διαθέτει συνεπή δομή και πλούσια πολυμεσικά χαρακτηριστικά, καθιστώντας την κατάλληλη για την ανάλυση ομοιοτήτων περιεχομένου. Η παρούσα εργασία εξετάζει την ικανότητα των μοντέλων ενσωμάτωσης να ανιχνεύουν ομοιότητες τόσο στα οπτικά όσο και στα ακουστικά στοιχεία των βίντεο. Τα αποτελέσμα- τα δείχνουν ότι τα μοντέλα αυτά μπορούν να αναγνωρίσουν αποτελεσματικά τις ομοιότητες μεταξύ διαφορετικών τμημάτων των επεισοδίων της σειράς, εντοπίζοντας κοινά χαρακτηρι- στικά τόσο στον ήχο όσο και στην εικόνα. Επιπλέον, διερευνάται η δυνατότητα συνδυασμού οπτικών και ακουστικών ενσωματώσεων για τη βελτίωση της ακρίβειας της ανίχνευσης ο- μοιοτήτων, υποδεικνύοντας ότι ο πολυτροπικός συνδυασμός αυτών των δεδομένων μπορεί να ενισχύσει την ανίχνευση σχετικών περιεχομένων στα βίντεο.
Αριθμός σελίδων
97
Σχολή
Σχολή Οικονομίας και Τεχνολογίας
Ακαδημαϊκό Τμήμα
Τμήμα Πληροφορικής και Τηλεπικοινωνιών
Τίτλος Προγράμματος Μεταπτυχιακών Σπουδών
Επιστήμη Δεδομένων
Γλώσσα
Αγγλικά
Περιγραφή
Μ.Δ.Ε. 130
URI
https://amitos.library.uop.gr/xmlui/handle/123456789/8808
Συλλογή
  • Τμήμα Πληροφορικής και Τηλεπικοινωνιών (Μ. Δ. Ε.)
Εμφάνιση πλήρους εγγραφής

Βιβλιοθηκη Πανεπιστημίου Πελοποννήσου
Επικοινωνήστε μαζί μας
Αποστολή Σχολίων
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου, έγιναν στο πλαίσιο του Έργου "ΗΛΕΚΤΡΟΝΙΚΕΣ ΥΠΗΡΕΣΙΕΣ ΤΗΣ ΒΙΒΛΙΟΘΗΚΗΣ ΤΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΠΕΛΟΠΟΝΝΗΣΟΥ", του Επιχειρησιακού Προγράμματος "Ψηφιακή Σύγκλιση"