Representational learning on biological data - A study on polypharmacy side-effects and graph embeddings
Μεταπτυχιακή διπλωματική εργασία
Author
Panagiotoglou, Symeon
Date
2022-09Keywords
graph ; machine learning ; embeddings ; decagon ; graph neural networks ; rule basedAbstract
In recent years graphs, graph neural networks and graph embedding techniques are getting more attention in the area of machine learning in general, with biological applications being a major drive. Using Decagon, a graph neural network that predicts polypharmacy side-effects, as our starting point, we ιmplement a number of baseline models in order to identify the aspects that play the bigger part in predicting side-effects among pairs of drugs. Later, we focus on a subset of the initial dataset containing only the rarest side-effects and experiment with well known models from the graph embeddings area. We examine whether a normalization of the feature vectors in a tf-idf fashion helps a message passing network improve its performance. Finally, we use AnyBURL, a rule based model, to identify patterns in our data.
Abstract
Τα τελευταία χρόνια, οι γράφοι και τα νευρωνικά δίκτυα γράφων έχουν προσελκύσει το ενδιαφέρον στο χώρο της μηχανικής μάθησης και ειδικότερα σε βιολογικές εφαρμογές. Χρησιμοποιώντας ως αφετηρία το Decagon, ένα νευρωνικό δίκτυο γράφων, μελετάμε το πρόβλημα της πρόβλεψης παρενεργειών που προκύπτουν από την ταυτόχρονη χρήση πολλαπλών φαρμάκων, υλοποιώντας μια σειρά από baseline μοντέλα με σκοπό να εντοπίσουμε την κύρια πηγή της επιτυχίας του μοντέλου. Στη συνέχεια επικεντρωνόμαστε σε ενα υποσύνολο των αρχικών δεδομένων που αφορούν τις πιο σπάνιες παρενέργειες και δοκιμάζουμε γνωστά μοντέλα από τον χώρο των graph embeddings. Επιπλέον, εξετάζουμε αν η κανονικοποίηση των διανυσμάτων με βάση μια λογική tf-idf βελτιώνει την απόδοση. Τέλος, παραθέτουμε μια σειρά από patterns που προκύπτουν από τη χρήση του AnyBURL, ενός rule based μοντέλου στα δεδομένα μας.