Scalable data-driven enrichment analysis of short RNAs
Κλιμακώσιμη δεδομενοκετρική ανάλυση εμπλουτισμού σε RNA μικρού μήκους
Διδακτορική διατριβή
Συγγραφέας
Ζαγγανάς, Κωνσταντίνος
Ημερομηνία
2022-03-23Επιβλέπων
Σκιαδόπουλος, ΣπυρίδωνΠερίληψη
Τα microRNA (ή miRNA) είναι μόρια RNA μικρού μήκους που παίζουν έναν πολύ
σημαντικό ρόλο στη ρύθμιση της γονιδιακής έκφρασης, δηλαδή την παραγωγή πρωτεϊ-
νών, οι οποίες αποτελούν σημαντικά δομικά και λειτουργικά τμήματα ενός κυττάρου.
Τα miRNA «αποσιωπούν» τα γονίδια μέσω της πρόσδεσής τους με αυτά, σταματώντας
την παραγωγή της αντίστοιχης πρωτεΐνης. Παρόλα αυτά, οι μηχανισμοί που διέπουν
τη λειτουργία των miRNA είναι συνήθως αρκετά περίπλοκοι και σε συνδυασμό με το
γεγονός ότι ο αριθμός των miRNA σε κάποιον οργανισμό μπορεί να φτάσει τις αρ-
κετές χιλιάδες, γίνεται αντιληπτό ότι τα πειράματα σε ένα εργαστήριο μπορεί να είναι
μια μακρά, δύσκολη και συχνά ακριβή διαδικασία. Επιπρόσθετα, κάποιοι επιστήμονες
ενδιαφέρονται να συγκρίνουν τη γονιδιακή έκφραση ανάμεσα σε υγιή άτομα και άτομα
που νοσούν από κάποια ασθένεια και χρειάζεται να ποσοτικοποιήσουν αυτή τη διαφο-
ρά μέσω στατιστικών μεθόδων. Για αυτό το λόγο, ερευνητές Βιοπληροφορικής έχουν
αναπτύξει μεθόδους προσομοίωσης και αλγορίθμους σε υπολογιστή όπως η Ανάλυση
εμπλουτισμού miRNA, η οποία αποτελεί μια στατιστική τεχνική πρόβλεψης του κατά
πόσο ένα σύνολο από miRNA μπορεί να επηρεάζει μια βιολογική λειτουργία. Μία από
τις πρόσφατες προσεγγίσεις τέτοιων αναλύσεων αποτελεί ο αμερόληπτος λειτουργικός
εμπλουτισμός για miRNA, που βασίζεται σε έναν σημαντικά μεγάλο αριθμό πράξεων
μεταξύ συνόλων και με αυτόν τον τρόπο, οδηγεί σε χρόνους εκτέλεσης που έχουν τάξη
μεγέθους ώρες ή ακόμα και μέρες.
Στη διατριβή αυτή επιδιώκουμε να δώσουμε στον αμερόληπτο εμπλουτισμό miRNA,
που αποτελεί μια υπολογιστικά εντατική δεδομενοκεντρική ανάλυση, μια πιο κλιμακώ-
σιμη μορφή, χρησιμοποιώντας τεχνικές διαχείρισης δεδομένων και άλλες μεθόδους της
επιστήμης υπολογιστών. Αρχικά εξετάζουμε την απόδοση μια δομής δεδομένων, που
ονομάζεται διανύσμα από bit, σε σύγκριση με την απόδοση των πινάκων κατακερματι-
σμού για αναπαράσταση συνόλων και προτείνουμε μία νέα, υβριδική προσέγγιση για τη
μείωση του χρόνου εκτέλεσης. Παράλληλα, βελτιστοποιούμε την ανάλυση εισάγοντας
δύο νέα ευρετήρια που χρησιμοποιούνται για την εξάλειψη πράξεων συνόλων που εκτε-
λούνται περισσότερες από μία φορές καθώς και για να φιλτράρουν πιθανά στατιστικά
ασήμαντες συσχετίσεις ανάμεσα σε miRNA και βιολογικές λειτουργίες. Επιπρόσθετα,
δείχνουμε ότι η τεχνολογία αιχμής παρουσιάζει μειωμένη ευαισθησία στα ψευδώς αρνητικά αποτελέσματα και επίσης προτείνουμε μία τροποποίηση στον στατιστικό πυρήνα
της ανάλυσης προκειμένου να αυξήσουμε την ποιότητά της. Επιπλέον, προτείνουμε μία
προσέγγιση πρόβλεψης p-values σε πραγματικό χρόνο αντί του πλήρους αναλυτικού
υπολογισμού μέσω της χρήσης εποπτευόμενων τεχνικών μηχανικής μάθησης. Τέλος,
εισάγουμε τεχνικές διαχείρισης και ανάλυσης δεδομένων κατά τη σχεδίαση διαδικτυα-
κών εργαλείων, προκειμένου να επιτύχουμε αναλύσεις πραγματικού χρόνου. ταυτόχρονα
προσπαθούμε να καλύψουμε την ανάγκη για μια πλατφόρμα που διευκολύνει την ανα-
παραγωγή και την κλιμακώσιμη εκτέλεση κιβωτιοποιημένου λογισμικού σε περιβάλλον
Νέφους που αποτελείται από μηχανές με ετερογενή χαρακτηριστικά.
Περίληψη
microRNAs (or miRNAs) are short RNA molecules that play a crucial role in the
regulation of gene expression, i.e. the production of proteins, which are important
structural and functional components of a cell. miRNAs silence genes by binding to
them, thus blocking the production of the respective protein. However, the mechanisms
underlying miRNA function are often very complex; combined with the fact
that the number of miRNAs in a given organism ranges in the order of thousands,
it becomes evident that utilizing experiments in a wet lab is a lengthy, arduous and
often expensive process. Additionally, scientists may be interested to compare differences
in miRNA expression between diseased and healthy individuals and need to
quantify them, using statistical methods. For this reason, Bioinformatics researchers
developed in-silico methods and algorithms like miRNA enrichment analysis, which
is a statistical technique to predict whether a set of miRNAs is likely to affect a
certain biological function. One of the most recent such approaches is the unbiased
miRNA functional enrichment analysis, which relies on a considerably large number
of set operations and consequently, it leads to execution times in the order of hours
or days.
In this thesis, we strive to make the unbiased miRNA enrichment, a computationally-
intensive, data-driven analysis, more scalable by utilizing data management and
other computer science techniques. Initially, we examine the performance of data
structures called bit vectors in comparison to hash tables as a set representation technique
and propose a new hybrid approach to reduce the execution time of the analysis.
Moreover, we optimize miRNA enrichment by introducing two novel indices, utilized
in order to reduce redundant set participation operations and filter out potentially
insignificant associations between miRNAs and biological functions. Additionally, we
showcase that the state-of-the art unbiased enrichment suffers from reduced sensitivity
to false negatives and we propose a modification to its statistics engine in order to
increase its quality. Furthermore, we propose an approach using supervised machine
learning methods to predict approximate p-values in real time, instead of executing
a full analysis. Finally, we introduce data management and processing techniques
during the design of online miRNA analysis tools to achieve analyses in almost real time; also, we try to address the need for a platform facilitating reproducible and scalable execution of containerized software in a Cloud environment, consisting of
heterogeneous machines.