Scalable data-driven enrichment analysis of short RNAs

Ζαγγανάς, Κωνσταντίνος

Διδακτορική διατριβή

Συγγραφέας

Ζαγγανάς, Κωνσταντίνος

Ημερομηνία

2022-03-23

Επιβλέπων

Σκιαδόπουλος, Σπυρίδων

zagganas.pdf (7.392Mb)

Περίληψη

Τα microRNA (ή miRNA) είναι μόρια RNA μικρού μήκους που παίζουν έναν πολύ σημαντικό ρόλο στη ρύθμιση της γονιδιακής έκφρασης, δηλαδή την παραγωγή πρωτεϊ- νών, οι οποίες αποτελούν σημαντικά δομικά και λειτουργικά τμήματα ενός κυττάρου. Τα miRNA «αποσιωπούν» τα γονίδια μέσω της πρόσδεσής τους με αυτά, σταματώντας την παραγωγή της αντίστοιχης πρωτεΐνης. Παρόλα αυτά, οι μηχανισμοί που διέπουν τη λειτουργία των miRNA είναι συνήθως αρκετά περίπλοκοι και σε συνδυασμό με το γεγονός ότι ο αριθμός των miRNA σε κάποιον οργανισμό μπορεί να φτάσει τις αρ- κετές χιλιάδες, γίνεται αντιληπτό ότι τα πειράματα σε ένα εργαστήριο μπορεί να είναι μια μακρά, δύσκολη και συχνά ακριβή διαδικασία. Επιπρόσθετα, κάποιοι επιστήμονες ενδιαφέρονται να συγκρίνουν τη γονιδιακή έκφραση ανάμεσα σε υγιή άτομα και άτομα που νοσούν από κάποια ασθένεια και χρειάζεται να ποσοτικοποιήσουν αυτή τη διαφο- ρά μέσω στατιστικών μεθόδων. Για αυτό το λόγο, ερευνητές Βιοπληροφορικής έχουν αναπτύξει μεθόδους προσομοίωσης και αλγορίθμους σε υπολογιστή όπως η Ανάλυση εμπλουτισμού miRNA, η οποία αποτελεί μια στατιστική τεχνική πρόβλεψης του κατά πόσο ένα σύνολο από miRNA μπορεί να επηρεάζει μια βιολογική λειτουργία. Μία από τις πρόσφατες προσεγγίσεις τέτοιων αναλύσεων αποτελεί ο αμερόληπτος λειτουργικός εμπλουτισμός για miRNA, που βασίζεται σε έναν σημαντικά μεγάλο αριθμό πράξεων μεταξύ συνόλων και με αυτόν τον τρόπο, οδηγεί σε χρόνους εκτέλεσης που έχουν τάξη μεγέθους ώρες ή ακόμα και μέρες. Στη διατριβή αυτή επιδιώκουμε να δώσουμε στον αμερόληπτο εμπλουτισμό miRNA, που αποτελεί μια υπολογιστικά εντατική δεδομενοκεντρική ανάλυση, μια πιο κλιμακώ- σιμη μορφή, χρησιμοποιώντας τεχνικές διαχείρισης δεδομένων και άλλες μεθόδους της επιστήμης υπολογιστών. Αρχικά εξετάζουμε την απόδοση μια δομής δεδομένων, που ονομάζεται διανύσμα από bit, σε σύγκριση με την απόδοση των πινάκων κατακερματι- σμού για αναπαράσταση συνόλων και προτείνουμε μία νέα, υβριδική προσέγγιση για τη μείωση του χρόνου εκτέλεσης. Παράλληλα, βελτιστοποιούμε την ανάλυση εισάγοντας δύο νέα ευρετήρια που χρησιμοποιούνται για την εξάλειψη πράξεων συνόλων που εκτε- λούνται περισσότερες από μία φορές καθώς και για να φιλτράρουν πιθανά στατιστικά ασήμαντες συσχετίσεις ανάμεσα σε miRNA και βιολογικές λειτουργίες. Επιπρόσθετα, δείχνουμε ότι η τεχνολογία αιχμής παρουσιάζει μειωμένη ευαισθησία στα ψευδώς αρνητικά αποτελέσματα και επίσης προτείνουμε μία τροποποίηση στον στατιστικό πυρήνα της ανάλυσης προκειμένου να αυξήσουμε την ποιότητά της. Επιπλέον, προτείνουμε μία προσέγγιση πρόβλεψης p-values σε πραγματικό χρόνο αντί του πλήρους αναλυτικού υπολογισμού μέσω της χρήσης εποπτευόμενων τεχνικών μηχανικής μάθησης. Τέλος, εισάγουμε τεχνικές διαχείρισης και ανάλυσης δεδομένων κατά τη σχεδίαση διαδικτυα- κών εργαλείων, προκειμένου να επιτύχουμε αναλύσεις πραγματικού χρόνου. ταυτόχρονα προσπαθούμε να καλύψουμε την ανάγκη για μια πλατφόρμα που διευκολύνει την ανα- παραγωγή και την κλιμακώσιμη εκτέλεση κιβωτιοποιημένου λογισμικού σε περιβάλλον Νέφους που αποτελείται από μηχανές με ετερογενή χαρακτηριστικά.

Περίληψη

microRNAs (or miRNAs) are short RNA molecules that play a crucial role in the regulation of gene expression, i.e. the production of proteins, which are important structural and functional components of a cell. miRNAs silence genes by binding to them, thus blocking the production of the respective protein. However, the mechanisms underlying miRNA function are often very complex; combined with the fact that the number of miRNAs in a given organism ranges in the order of thousands, it becomes evident that utilizing experiments in a wet lab is a lengthy, arduous and often expensive process. Additionally, scientists may be interested to compare differences in miRNA expression between diseased and healthy individuals and need to quantify them, using statistical methods. For this reason, Bioinformatics researchers developed in-silico methods and algorithms like miRNA enrichment analysis, which is a statistical technique to predict whether a set of miRNAs is likely to affect a certain biological function. One of the most recent such approaches is the unbiased miRNA functional enrichment analysis, which relies on a considerably large number of set operations and consequently, it leads to execution times in the order of hours or days. In this thesis, we strive to make the unbiased miRNA enrichment, a computationally- intensive, data-driven analysis, more scalable by utilizing data management and other computer science techniques. Initially, we examine the performance of data structures called bit vectors in comparison to hash tables as a set representation technique and propose a new hybrid approach to reduce the execution time of the analysis. Moreover, we optimize miRNA enrichment by introducing two novel indices, utilized in order to reduce redundant set participation operations and filter out potentially insignificant associations between miRNAs and biological functions. Additionally, we showcase that the state-of-the art unbiased enrichment suffers from reduced sensitivity to false negatives and we propose a modification to its statistics engine in order to increase its quality. Furthermore, we propose an approach using supervised machine learning methods to predict approximate p-values in real time, instead of executing a full analysis. Finally, we introduce data management and processing techniques during the design of online miRNA analysis tools to achieve analyses in almost real time; also, we try to address the need for a platform facilitating reproducible and scalable execution of containerized software in a Cloud environment, consisting of heterogeneous machines.

Αριθμός σελίδων

σελ. 122

Σχολή

Σχολή Οικονομίας και Τεχνολογίας

Ακαδημαϊκό Τμήμα

Τμήμα Πληροφορικής και Τηλεπικοινωνιών

Γλώσσα

Αγγλικά

Περιγραφή

Δ.Δ. 21

URI

https://amitos.library.uop.gr/xmlui/handle/123456789/8172
http://dx.doi.org/10.26263/amitos-1674

Συλλογή

Τμήμα Πληροφορικής και Τηλεπικοινωνιών (Δ. Δ.)

Εμφάνιση πλήρους εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Εκτός από όπου επισημαίνεται κάτι διαφορετικό, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα