CRISPR-Cas9 gRNA efficiency prediction: An overview of predictive tools and the role of Deep Learning
Μεταπτυχιακή διπλωματική εργασία
Author
Konstantakos, Vasileios
Date
2022-03-23Keywords
CRISPR-Cas9 ; gRNA design ; Efficiency ; Machine learning ; Deep learning ; Computational tools ; InterpretabilityAbstract
The CRISPR-Cas9 system has revolutionized the field of genome editing and promises the ability to study genetic interactions at their origin and the opportunity to cure severe inherited diseases. Compared with previous gene-editing tools, such as zinc-finger nucleases (ZFNs) and transcription activator-like effector nucleases (TALENs), which bind to specific DNA sequence by protein-DNA
recognition, the CRISPR-Cas9 system identifies target sites by the complementarity between the guide RNA (gRNA) and the DNA sequence, which is less expensive and time-consuming, as well as more precise and scalable. However, low cleavage efficiency and off-target effects hamper the development and application of CRISPR-Cas systems. To predict cleavage efficiency and specificity, numerous computational approaches have been developed. Nonetheless, currently available tools cannot robustly predict experimental success as prediction accuracy depends on the assumptions of the underlying model and how closely the experimental setup matches the training data. Moreover, new deep learning tools have been explored lately for gRNA efficiency prediction but have not been systematically evaluated. In this study, we present the approaches that pertain to the on-target activity problem, focusing mainly on the features and computational methods they utilize. Furthermore, we evaluate these tools on independent datasets and give some suggestions for their usage. Finally, based on this analysis, we introduce a new gRNA design tool, named CRISPRedict, that provides accurate and interpretable predictions which can guide genome editing experiments and make plausible hypotheses for further investigation. CRISPRedict is available for use at http://www.crispredict.org/.
Abstract
Το σύστημα CRISPR-Cas9 έχει φέρει επανάσταση στον τομέα της γονιδιωματικής επεξεργασίας και υπόσχεται την ικανότητα διερεύνησης γενετικών αλληλεπιδράσεων και θεραπείας σοβαρών κληρονομικών ασθενειών. Σε σύγκριση με προηγούμενα εργαλεία, όπως οι νουκλεάσες δακτύλων ψευδαργύρου (Zinc Finger Nucleases, ZFNs) και οι νουκλεάσες TALEN (Transcription Activator-Like Effector Nucleases), που συνδέονται με την αλληλουχία στόχο (target sequence) μέσω αλληλεπιδράσεων DNA πρωτεΐνης, το σύστημα CRISPR-Cas9 αναγνωρίζει την αλληλουχία μέσω της συμπληρωματικότητας μεταξύ του οδηγού RNA (guide RNA) και του αντίστοιχου DNA. Προσφέρει, έτσι, τη δυνατότητα επεξεργασίας οποιασδήποτε ακολουθίας με ένα λιγότερο δαπανηρό και χρονοβόρο τρόπο, αλλά και με μεγαλύτερη ακρίβεια. Ωστόσο, η χαμηλή αποτελεσματικότητα (efficiency) και η δραστηριότητα εκτός στόχου (off-target effect) παρεμποδίζουν την ευρύτερη ανάπτυξη και εφαρμογή των συστημάτων CRISPR-Cas. Για την πρόβλεψη αυτών των φαινομένων, έχουν αναπτυχθεί πολλές υπολογιστικές προσεγγίσεις. Παρ' όλα αυτά, τα διαθέσιμα εργαλεία δεν προβλέπουν πάντα σωστά τα πειραματικά αποτελέσματα, καθώς η ακρίβεια της πρόβλεψης εξαρτάται από τις υποθέσεις του μοντέλου και τις αντίστοιχες πειραματικές συνθήκες. Στην παρούσα εργασία, παρουσιάζουμε τις προσεγγίσεις που αφορούν το πρόβλημα της αποτελεσματικότητας, εστιάζοντας κυρίως στα χαρακτηριστικά και τις υπολογιστικές μεθόδους που χρησιμοποιούν. Επιπλέον, αξιολογούμε τα διαθέσιμα εργαλεία σε ανεξάρτητα δεδομένα και δίνουμε κάποιες προτάσεις για τη χρήση τους. Τέλος, με αφορμή αυτή την ανάλυση, προτείνουμε ένα νέο εργαλείο, ονομαζόμενο CRISPRedict, το οποίο μπορεί να προσφέρει ακριβείς και ερμηνεύσιμες προβλέψεις, συμβάλλοντας στον σχεδιασμό αποτελεσματικών πειραμάτων. Το εργαλείο αυτό βρίσκεται άμεσα διαθέσιμο για χρήση στη διεύθυνση http://www.crispredict.org/.