Data analytics on graphs

Θεοχαρίδης, Κωνσταντίνος

dc.contributor.advisor	Σκιαδόπουλος, Σπυρίδων
dc.contributor.author	Θεοχαρίδης, Κωνσταντίνος
dc.date.accessioned	2024-08-27T10:29:38Z
dc.date.available	2024-08-27T10:29:38Z
dc.date.issued	2022-07-18
dc.identifier.uri	https://amitos.library.uop.gr/xmlui/handle/123456789/8180
dc.identifier.uri	http://dx.doi.org/10.26263/amitos-1682
dc.description	Δ.Δ. 24	el
dc.description.abstract	Nowadays, there is an increasing need for brands (stakeholders) to effectively and efficiently connect with their customers in both spatial and social domains so as to grow their revenues. In the spatial field, there are a variety of location-based services (e.g., Google Maps, Uber, Foursquare) for utilization by brands, whereas in social area, there are several social networks (e.g., Facebook, Instagram, VK) in which brands can maintain their own social network pages for advertising. In this thesis, we analyze and study fundamental spatial and social data operations on graphs that can significantly contribute to the successful connection among brands and customers. In the spatial domain, our contribution is the development of a spatial RDF system named SRX that extends the popular RDF-3X store to provide spatial RDF data operations. RDF-3X itself does not support spatial RDF data. In particular, SRX supports three types of spatial queries: range selections (e.g., find entities within a given polygon), distance joins (e.g., find pairs of entities whose locations are close to each other), and k nearest neighbors (e.g., find the three closest entities from a given location). Further, SRX supports spatial updates (e.g., deletions, insertions, and modifications of spatial RDF triples). SRX relies its good performance on a gridscheme that approximates the geometries of the spatial entities inside their integer IDs. We extensively evaluate the performance of SRX for both queries and updates by comparing it with the systems RDF-3X, Virtuoso, GraphDB, and Strabon on LGD and YAGO datasets. Our results show that SRX outperforms other systems for queries and updates, while it incurs just a little overhead to RDF-3X for updates. In the social domain, we contribute by studying three novel content-aware recommendation problems relative to the Influence Maximization (IM) problem. IM seeks for the k users who can maximize the influence of a given post in a social network. The first problem we study, named Content-Aware Influence Maximization (CAIM), is the inverse variant of IM and seeks for the k features that can form the content of a non-given post so as to make it popular in a social network. The diffusion of the post starts from a given set of initial adopters (subscribers of brand’s social network page). We prove that CAIM does not have influence guarantees, and for that we deploy heuristic methods to solve it. Our experimental results on Gnutella and VK datasets show that our advanced heuristic algorithm is more influential than simple heuristics and it is also much faster than a conventional greedy approach. The second problem we study is an adaptive (online) version of CAIM, named Adaptive Content-Aware Influence Maximization (ACAIM), and aims to maximize the cumulative influence achieved in a social network over a number of rounds. In each round, the content of a post is sought (comprising k features) and the influence feedback of posts in the previous rounds is utilized for the content decision of posts in the next rounds. To solve ACAIM, we integrate Online Learning to Rank (OLR) techniques to our machine learning IM framework. To achieve that, we deploy a propagation model, a simulator that runs the model to generate realistic feedback, and three ACAIM learners. Our thorough experimental study on various VK datasets for several brands shows that ACAIM is solvable in big social networks. Finally, the third problem we study relates with how brands can maximize their subscription (instead of influence as happens in CAIM and ACAIM) in social networks. Specifically, we propose a content recommendation policy to brands for Gaining Subscribers by Messaging (GSM). The goal of the GSM problem is to maximize the cumulative subscription gain in a social network over a series of rounds. In each round, GSM recommends to brands what content (consisting of k features) to publish in their social network pages and which m users to notify of that content. We develop three GSM solvers, and by conducting a rich experimental evaluation on different VK datasets, we ascertain the importance and practical value of GSM.	el
dc.format.extent	σελ. 170	el
dc.language.iso	en	el
dc.publisher	Πανεπιστήμιο Πελοποννήσου	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.title	Data analytics on graphs	el
dc.title.alternative	Ανάλυση σε δεδομένα γράφων	el
dc.title.alternative	Αναλύσεις δεδομένων σε γραφήματα	el
dc.type	Διδακτορική διατριβή	el
dc.contributor.committee	Καρράς, Παναγιώτης
dc.contributor.committee	Τερροβίτης, Μανώλης
dc.contributor.committee	Βασιλάκης, Κώστας
dc.contributor.department	Τμήμα Πληροφορικής και Τηλεπικοινωνιών	el
dc.contributor.faculty	Σχολή Οικονομίας και Τεχνολογίας	el
dc.description.abstracttranslated	Στις μέρες μας, υπάρχει ολοένα και μεγαλύτερη ανάγκη να συνδέονται οι εταιρείες αποτελεσματικά και αποδοτικά με τους πελάτες τους, σε χωρικό αλλά και σε κοινωνικό επίπεδο, για να αυξήσουν τα έσοδα τους. Στο χωρικό πεδίο, υπάρχουν διάφορες εφαρμογές που χρησιμοποιούν τοποθεσία (π.χ., Google Maps, Uber, Foursquare) από τις οποίες μπορούν να επωφεληθούν οι εταιρείες. Αντίστοιχα στο κοινωνικό πεδίο, υπάρχουν αρκετά κοινωνικά δίκτυα (π.χ., Facebook, Instagram, VK) στα οποία οι εταιρείες μπορούν να διατηρούν τις κοινωνικές σελίδες τους για διαφημιστικούς λόγους. Στη διατριβή αυτή, παρουσιάζουμε χρήσιμες χωρικές και κοινωνικές λειτουργίες γράφων που μπορούν να συνεισφέρουν σημαντικά στην επιτυχή σύνδεση των εταιρειών με τους πελάτες τους. Στο χωρικό πεδίο, η συνεισφορά μας έγκειται στην ανάπτυξη ενός χωρικού RDF συστήματος, με όνομα SRX, που επεκτείνει το δημοφιλές σύστημα RDF-3X για να μπορέσει να παρέχει λειτουργίες χωρικών RDF δεδομένων. Το RDF-3X από μόνο του δεν υποστηρίζει χωρικά RDF δεδομένα. Συγκεκριμένα, το SRX υποστηρίζει τρία είδη χωρικών ερωτημάτων: επιλογές εμβέλειας (π.χ., βρείτε τις οντότητες εντός ενός πολυγώνου), ενώσεις με βάση την απόσταση (π.χ., βρείτε ζευγάρια οντοτήτων που έχουν κοντινές τοποθεσίες), και k κοντινότερων γειτόνων (π.χ., βρείτε τις τρεις πλησιέστερες οντότητες σε μια τοποθεσία). Επιπλέον, το SRX υποστηρίζει χωρικές ενημερώσεις (π.χ., διαγραφές, εισαγωγές, και τροποποιήσεις χωρικών RDF τριπλέτων). Η καλή απόδοση του SRX οφείλεται σε ένα σχήμα πλέγματος που προσεγγίζει τις γεωμετρίες των χωρικών οντοτήτων μέσα στα ακέραια αναγνωριστικά τους. Αξιολογούμε εκτενώς την απόδοση του SRX και στα ερωτήματα και στις ενημερώσεις, συγκρίνοντας το με τα συστήματα RDF-3X, Virtuoso, GraphDB, και Strabon στα σύνολα δεδομένων LGD και YAGO. Τα αποτελέσματα δείχνουν ότι το SRX υπερτερεί των άλλων συστημάτων στην ταχύτητα διαχείρισης των ερωτημάτων και των ενημερώσων, ενώ επιφέρει μόλις μια μικρή επιβάρυνση στο RDF-3X στις ενημερώσεις. Στο κοινωνικό πεδίο, μελετούμε τρία καινοτόμα προβλήματα σύστασης βάσει περιεχο- μένου που σχετίζονται με το πρόβλημα της Μεγιστοποίησης Επιρροής (ΜΕ). Το πρόβλη- μα ΜΕ ψάχνει τους k χρήστες που μπορούν να μεγιστοποιήσουν την επιρροή μιας δεδομένης ανάρτησης σε ένα κοινωνικό δίκτυο. Το πρώτο πρόβλημα που εξετάζουμε, ονομάζεται Μεγιστοποίηση Επιρροής Βάσει Περιεχομένου (ΜΕΒΠ), και αποτελεί την αντίστροφη παραλλαγή του ΜΕ. Το πρόβλημα ΜΕΒΠ ψάχνει τα k χαρακτηριστικά που μπορούν να σχηματίσουν το περιεχόμενο μιας μη-δεδομένης ανάρτησης έτσι ώστε αυτή να μπορεί να γίνει δημοφιλής σε ένα κοινωνικό δίκτυο. Η διάδοση της ανάρτησης ξεκινάει από ένα δεδομένο σύνολο συνδρομητών της κοινωνικής σελίδας της εκάστοτε εταιρείας. Αποδεικνύουμε ότι το ΜΕΒΠ δεν έχει εγγυήσεις επιρροής, οπότε υλοποιήσαμε ευρετικές μεθόδους για να το λύσουμε. Τα πειραματικά μας αποτελέσματα στα σύνολα δεδομένων Gnutella και VK δείχνουν ότι ο ενισχυμένος ευρετικός αλγόριθμος μας σημειώνει μεγαλύτερη επιρροή από απλές ευρετικές λύσεις και είναι πολύ πιο γρήγορος από συμβατικές άπληστες προσεγγίσεις. Το δεύτερο πρόβλημα που εξετάζουμε είναι μια προσαρμοστική σε πραγματικό χρόνο εκδοχή του ΜΕΒΠ, ονομάζεται Προσαρμοστική Μεγιστοποίηση Επιρροής Βάσει Περιε- χομένου (ΠΜΕΒΠ), και στοχεύει να μεγιστοποιήσει την συνολική επιρροή σε ένα κοινωνικό δίκτυο που επιτυγχάνεται σε πολλούς γύρους. Σε κάθε γύρο, αναζητείται το περιεχόμενο μιας ανάρτησης που αποτελείται από k χαρακτηριστικά, ενώ η ανάδραση επιρροής των αναρτήσεων σε προηγούμενους γύρους αξιοποιείται στη δημιουργία περιεχο- μένου για τις αναρτήσεις των επόμενων γύρων. Για να λύσουμε το ΠΜΕΒΠ, ενσωματώ- νουμε τεχνικές Πραγματικού Χρόνου Μάθησης Βάσει Κατάταξης στο μηχανικής μάθησης πλαίσιο εργασίας μας που σχεδιάσαμε για μεγιστοποίηση επιρροής. Για να το πετύχουμε αυτό, υλοποιήσαμε ένα μοντέλο διάδοσης, έναν προσομοιωτή που τρέχει το εν λόγω μοντέλο για την παραγωγή ρεαλιστικής ανάδρασης, και τρεις αλγορίθμους μάθησης. Η εξονυχιστική πειραματική μελέτη μας σε ποικίλα σύνολα δεδομένων VK για αρκετές εταιρείες δείχνει ότι το ΠΜΕΒΠ είναι επιλύσιμο σε μεγάλα κοινωνικά δίκτυα. Τέλος, το τρίτο πρόβλημα που εξετάζουμε σχετίζεται με το πως οι εταιρείες μπορούν να μεγιστοποιήσουν την συνδρομή τους (αντί για την επιρροή τους όπως συμβαίνει στα ΜΕΒΠ και ΠΜΕΒΠ) στα κοινωνικά δίκτυα. Συγκεκριμένα, προτείνουμε μια πολιτική σύστασης περιεχομένου στις εταιρείες για την Απόκτηση Συνδρομητών μέσω Μηνυμάτων (ΑΣΜ). Ο στόχος του προβλήματος ΑΣΜ είναι η μεγιστοποίηση της συνολικής απόκτη- σης συνδρομητών σε ένα κοινωνικό δίκτυο θεωρώντας πολλούς γύρους. Σε κάθε γύρο, το ΑΣΜ συστήνει στις εταιρείες το περιεχόμενο (αποτελούμενο από k χαρακτηριστικά) που πρέπει να δημοσιεύσουν στις κοινωνικές σελίδες τους και τους m χρήστες που πρέπει να ειδοποιήσουν για το εν λόγω περιεχόμενο. Για να λύσουμε το ΑΣΜ, υλοποιήσαμε τρεις αλγορίθμους, ενώ πραγματοποιώντας μια εκτενή πειραματική αξιολόγηση σε διάφορα σύνολα δεδομένων VK, διαπιστώνουμε την σημαντική αξία του ΑΣΜ.	el

Αρχεία σε αυτό το τεκμήριο

Όνομα:: PhDThesisKT.pdf
Μέγεθος:: 6.053Mb
Τύπος:: PDF

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Τμήμα Πληροφορικής και Τηλεπικοινωνιών (Δ. Δ.)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Εκτός από όπου επισημαίνεται κάτι διαφορετικό, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα