Itemset mining on a distributed hash table system

Γκάτση, Ένρι

Μεταπτυχιακή διπλωματική εργασία

Συγγραφέας

Γκάτση, Ένρι

Ημερομηνία

2022-07

Επιβλέπων

Τρυφωνόπουλος, Χρήστος

Gaci_2022201904004.pdf (991.6Kb)

Λέξεις κλειδιά

κατανεμημένοι πίνακες κατακερματισμού, εξόρυση συχνών ομάδων αντικειμένων, κατανεμημένα συστήματα

Περίληψη

Στη σημερινή κοινωνία το να χρησιμοποιεί κάποιος εφαρμογές για καθημερινές δραστηριότητες είναι τόσο φυσικό που ο περισσότερος κόσμος δεν το σκέφτεται πια. Αγορές, άρθρα και η κατανάλωση περιεχομένου όπως βίντεο έχουν τουλάχιστον ένα κοινό, το οποίο είναι, πως όλα προτείνουν περιεχόμενο με βάση τα αποτελέσματα που έχουν προκύψει από αλγόριθμους εξόρυξης συχνών ομάδων αντικειμένων. Αυτοί οι μηχανισμοί εξόρυξης μας βοηθούν να βρούμε εστιατόρια ή δραστηριότητες που φαίνεται να μας ταιριάζουν χωρίς εμείς να έχουμε αναφέρει συγκεκριμένα κάτι που θέλουμε. Η εξόρυξη συχνών αντικειμένων ομαδοποιεί αντικείμενα με βάση τη συχνότητα με την οποία εμφανίζονται μαζί, και χρησιμοποιείται σε διάφορες εφαρμογές σε μια προσπάθεια να βελτιώσει την εμπειρία του χρήστη. Παλιότερες προσεγγίσεις εξόρυξης συχνών προτύπων έδιναν ικανοποιητικά αποτελέσματα παρότι δούλευαν με σχετικά λίγα δεδομένα. Καθώς όμως ο όγκος των διαθέσιμων δεδομένων συνεχώς αυξάνεται και οι σύγχρονες εφαρμογές απαιτούν την επεξεργασία όλο και περισσότερων δεδομένων, οι κλασικές κεντρικοποιημένες προσεγγίσεις φαίνεται να μην μπορούν επαρκώς να ανταποκριθούν. Ο σκοπός αυτής της πτυχιακής είναι ο σχεδιασμός και η υλοποίηση ενός κατανεμημένου συστήματος το οποίο θα μπορεί να βρίσκει ομάδες αντικειμένων που εμφανίζονται συχνά μαζι. Ξεκινάμε την προσπάθεια βρίσκοντας αυτές τις ομάδες σε μια κεντρικοποιημένη λύση και ύστερα μελετάμε τρόπους να κατανέμουμε τα δεδομένα και να βρούμε τις ίδιες ομάδες συχνά εμφανιζόμενων αντικειμένων. Ο στόχος μας είναι να πετύχουμε τη μεγαλύτερη δυνατή ακρίβεια μεταξύ των ομάδων που παράγονται από τη κατανεμημένη λύση με τις ομάδες που παράγονται από την κεντρικοποιημένη. Η κατανομή των δεδομένων μας δίνει την ευκαιρία να μελετήσουμε πιο περίπλοκα προβλήματα όπως είναι η σύνθεση πρωτεϊνών και φαρμάκων. Μπορούμε να βρούμε συσχετίσεις μεταξύ δεδομένων που δεν θα μπορούσαμε να διαχειριστούμε νωρίτερα όπως είναι η πρόβλεψη του καιρού και άλλα φυσικά φαινόμενα. Κάθε εμπόδιο που προσπερνάμε ανοίγει δυνατότητες για καινούργια και καλύτερα συστήματα τα οποία να παρέχουν πρόσβαση σε νέες τεχνολογίες

Περίληψη

Ιn today’s society using applications for everyday tasks is considered so natural that most people don’t even realize it. Shopping online, reading articles, and consuming content like videos have at least one thing in common, that is, they all suggest content based on the results produced from frequent item set mining algorithms. The data mining mechanism helps us find restaurants we may like to visit or activities we may want to experience without ever having to tell anyone what we specifically want. Frequent item set mining groups items in a data set together based on the frequency they are found (eg. used, visited or bought) together enabling us to enjoy this enhanced way of living. At first due to the fact that the data sets we needed to perform mining upon could be stored in a single machine we were happy with the results classic algorithms were producing, but as the number of applications rises so does the data that we need to take under consideration. Centralized solutions become less viable as the volume rises and researchers from around the world study solutions to get results from distributed systems. The aim of this thesis is to design and implement a distributed system capable of finding frequent item sets. We start by running the computations on a single computer while next we will investigate methods to distribute the data on multiple machines and perform distributed item set mining. Our goal is to achieve the best precision between the item sets produced by the distributed system compared to the centralized system. The distribution of data will give us the opportunity to study more complex problems such as protein synthesis and the coexistence of drugs. We may find relations in data that we could not handle before and perform better predictions regarding weather or physical phenomena. Every obstacle we pass successfully opens the door to new and better systems that will definitely provide more opportunities to people through the access to new technologies.

Αριθμός σελίδων

σελ. 71

Σχολή

Σχολή Οικονομίας και Τεχνολογίας

Ακαδημαϊκό Τμήμα

Τμήμα Πληροφορικής και Τηλεπικοινωνιών

Τίτλος Προγράμματος Μεταπτυχιακών Σπουδών

Επιστήμη Δεδομένων

Γλώσσα

Αγγλικά

Περιγραφή

Μ.Δ.Ε. 99

URI

https://amitos.library.uop.gr/xmlui/handle/123456789/8219
http://dx.doi.org/10.26263/amitos-1721

Συλλογή

Τμήμα Πληροφορικής και Τηλεπικοινωνιών (Μ. Δ. Ε.)

Εμφάνιση πλήρους εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Εκτός από όπου επισημαίνεται κάτι διαφορετικό, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα