Itemset mining on a distributed hash table system
Μεταπτυχιακή διπλωματική εργασία
Συγγραφέας
Γκάτση, Ένρι
Ημερομηνία
2022-07Επιβλέπων
Τρυφωνόπουλος, ΧρήστοςΛέξεις κλειδιά
κατανεμημένοι πίνακες κατακερματισμού, εξόρυση συχνών ομάδων αντικειμένων, κατανεμημένα συστήματαΠερίληψη
Στη σημερινή κοινωνία το να χρησιμοποιεί κάποιος εφαρμογές για καθημερινές
δραστηριότητες είναι τόσο φυσικό που ο περισσότερος κόσμος δεν το σκέφτεται
πια. Αγορές, άρθρα και η κατανάλωση περιεχομένου όπως βίντεο έχουν τουλάχιστον
ένα κοινό, το οποίο είναι, πως όλα προτείνουν περιεχόμενο με βάση τα αποτελέσματα
που έχουν προκύψει από αλγόριθμους εξόρυξης συχνών ομάδων αντικειμένων. Αυτοί οι μηχανισμοί εξόρυξης μας βοηθούν να βρούμε εστιατόρια ή δραστηριότητες που
φαίνεται να μας ταιριάζουν χωρίς εμείς να έχουμε αναφέρει συγκεκριμένα κάτι που
θέλουμε. Η εξόρυξη συχνών αντικειμένων ομαδοποιεί αντικείμενα με βάση τη συχνότητα με την οποία εμφανίζονται μαζί, και χρησιμοποιείται σε διάφορες εφαρμογές
σε μια προσπάθεια να βελτιώσει την εμπειρία του χρήστη. Παλιότερες προσεγγίσεις
εξόρυξης συχνών προτύπων έδιναν ικανοποιητικά αποτελέσματα παρότι δούλευαν με
σχετικά λίγα δεδομένα. Καθώς όμως ο όγκος των διαθέσιμων δεδομένων συνεχώς
αυξάνεται και οι σύγχρονες εφαρμογές απαιτούν την επεξεργασία όλο και περισσότερων δεδομένων, οι κλασικές κεντρικοποιημένες προσεγγίσεις φαίνεται να μην μπορούν
επαρκώς να ανταποκριθούν. Ο σκοπός αυτής της πτυχιακής είναι ο σχεδιασμός και η
υλοποίηση ενός κατανεμημένου συστήματος το οποίο θα μπορεί να βρίσκει ομάδες αντικειμένων που εμφανίζονται συχνά μαζι. Ξεκινάμε την προσπάθεια βρίσκοντας αυτές
τις ομάδες σε μια κεντρικοποιημένη λύση και ύστερα μελετάμε τρόπους να κατανέμουμε τα δεδομένα και να βρούμε τις ίδιες ομάδες συχνά εμφανιζόμενων αντικειμένων. Ο
στόχος μας είναι να πετύχουμε τη μεγαλύτερη δυνατή ακρίβεια μεταξύ των ομάδων
που παράγονται από τη κατανεμημένη λύση με τις ομάδες που παράγονται από την κεντρικοποιημένη. Η κατανομή των δεδομένων μας δίνει την ευκαιρία να μελετήσουμε
πιο περίπλοκα προβλήματα όπως είναι η σύνθεση πρωτεϊνών και φαρμάκων. Μπορούμε
να βρούμε συσχετίσεις μεταξύ δεδομένων που δεν θα μπορούσαμε να διαχειριστούμε
νωρίτερα όπως είναι η πρόβλεψη του καιρού και άλλα φυσικά φαινόμενα. Κάθε εμπόδιο
που προσπερνάμε ανοίγει δυνατότητες για καινούργια και καλύτερα συστήματα τα οποία
να παρέχουν πρόσβαση σε νέες τεχνολογίες
Περίληψη
Ιn today’s society using applications for everyday tasks is considered so natural that
most people don’t even realize it. Shopping online, reading articles, and consuming
content like videos have at least one thing in common, that is, they all suggest content
based on the results produced from frequent item set mining algorithms. The data mining
mechanism helps us find restaurants we may like to visit or activities we may want to
experience without ever having to tell anyone what we specifically want. Frequent item
set mining groups items in a data set together based on the frequency they are found (eg.
used, visited or bought) together enabling us to enjoy this enhanced way of living. At first
due to the fact that the data sets we needed to perform mining upon could be stored in a
single machine we were happy with the results classic algorithms were producing, but as
the number of applications rises so does the data that we need to take under consideration.
Centralized solutions become less viable as the volume rises and researchers from around
the world study solutions to get results from distributed systems. The aim of this thesis
is to design and implement a distributed system capable of finding frequent item sets. We
start by running the computations on a single computer while next we will investigate
methods to distribute the data on multiple machines and perform distributed item set
mining. Our goal is to achieve the best precision between the item sets produced by the
distributed system compared to the centralized system. The distribution of data will give
us the opportunity to study more complex problems such as protein synthesis and the
coexistence of drugs. We may find relations in data that we could not handle before and
perform better predictions regarding weather or physical phenomena. Every obstacle we
pass successfully opens the door to new and better systems that will definitely provide
more opportunities to people through the access to new technologies.