A Framework for the Collection, Storage and Visualisation of Big Maritime Data
Μεταπτυχιακή διπλωματική εργασία
Συγγραφέας
Σπηλιακος, Γεώργιος
Ημερομηνία
2024-09Επιβλέπων
Τρυφωνόπουλος, ΧρήστοςΠερίληψη
Ηβιομηχανία της ναυτιλίας παράγει καθημερινά τεράστιους όγκους δεδομένων,
και σε πολλές περιπτώσεις τα δεδομένα που είναι δημόσια διαθέσιμα είναι ελλι-
πή. Η αποτελεσματική διαχείριση και εξαγωγή συμπερασμάτων από αυτά τα δεδομένα
παραμένει μια σημαντική πρόκληση.
Ο στόχος αυτής της διπλωματικής είναι να αντιμετωπίσει αυτήν την πρόκληση μέσω
της ανάπτυξης ενός ολοκληρωμένου συστήματος διαχείρισης δεδομένων, σχεδιασμένου
να συγκεντρώνει, να διαχειρίζεται και να οπτικοποιεί τις πορείες πλοίων και τα σχε-
τιζόμενα ναυτιλιακά στατιστικά από διαφορετικές πηγές δεδομένων. Η κύρια έμφαση
δίνεται στην αξιοποίηση σύγχρονων εργαλείων και τεχνικών για την ενοποίηση των
ελλιπών δεδομένων και τη δημιουργία μιας ενιαίας πηγής.
Για να επιτευχθεί αυτό, το σύστημα χρησιμοποιεί προηγμένες τεχνικές web scraping
για την συλλογή των δεδομένων ιστού και τεχνικές μηχανικής μάθησης για τον
εμπλουτισμό τους όπως η θέση του εκάστοτε πλοίου. Τα δεδομένα αποθηκεύονται σε
μια βάση δεδομένων NoSQL, η οποία επιλέχθηκε για την επεκτασημότητα και την ευ-
ελιξία της στη διαχείριση και την εκτέλεση ερωτημάτων σε μεγάλα σύνολα δεδομένων.
Αφού συγκεντρωθούν τα δεδομένα, το σύστημα εκτελεί διάφορες αναλύσεις και οπτι-
κοποίησεις, παρέχοντας πολύτιμες πληροφορίες για τις ναυτιλιακές διαδρομές και άλλα
σχετικά στατιστικά.
Συμπερασματικά, αυτή η διπλωματική παρουσιάζει ένα ολοκληρωμένο σύστημα δια-
χείρησης μεγάλων ναυτιλιακών δεδομένων, απλοποιώντας τις διαδικασίες συλλογής,
ανάλυσης και οπτικοποίησης του, και παρέχει σε χρήστες χωρίς υπόβαθρο στην πλη-
ροφορική τη δυνατότητα να εκμεταλλευθούν επιχειρησιακά τα συλλεχθέντα σύνολα
δεδομένων.
Περίληψη
The maritime industry generates vast amounts of daily data and many times
publicly available are incomplete; effectively managing and deriving insights
from this data remains a significant challenge. The aim of this thesis is to address
this challenge by developing a comprehensive data management system designed to
aggregate, manage, and visualize ship trajectories and related maritime statistics
from various data sources by utilising state-of-the-art tools and techniques to unify
incomplete data and create a single source of reference.
To achieve this, the developed system employs advanced web scraping techniques
for data collection as well as machine learning techniques to enrich the acquired data
with missing elements (e.g., vessel’s position). The retrieved data are stored in a
NoSQL data store, building upon its scalability and flexibility in handling/querying
large datasets. After the data are collected, cleaned and homogenised, the developed
system performs various analytics and visualization tasks, providing valuable
insights into maritime shipping routes and other relevant statistics.
In summary, this thesis presents a framework for managing large maritime data
that allows users to simplify data collection, analysis, and visualization, and enables
users without an IT background to leverage the collected data into insights.