Επιτάχυνση μοντέλων φυσικών μέσω μηχανικής μάθησης - Μελέτη περίπτωσης: Boltzmann Generators
Speeding up physics modeling through machine learning - Case study: Boltzmann Generators
Μεταπτυχιακή διπλωματική εργασία
Συγγραφέας
Μητσακάκη, Αναστασία
Ημερομηνία
2024-06-28Επιβλέπων
Γιαννακόπουλος, ΓεώργιοςΠεριστεράς, Λουκάς
Λέξεις κλειδιά
Boltzmann generators ; Sampling method ; Molecular modeling ; Neural Network ; Polymers ; PolyetheleneΠερίληψη
Η υπολογιστική επίλυση μοντέλων φυσικής είναι μία ανάγκη που έχει προκύψει εδώ και πολλές δεκαετίες. Σε αυτό το χρονικό διάστημα έχει μελετηθεί πλήθος επιστημονικών ερωτημάτων, πολλές φορές κρίσιμων για διαφορετικούς τομείς της σύγχρονης ανθρώπινης δραστηριότητας, παρέχοντας τη δυνατότητα για περαιτέρω διερεύνηση τους σε μεγαλύτερο βάθος. Αυτή η αδιάλειπτη πρόοδος δημιουργεί μεγάλες προσδοκίες και αυξανόμενες απαιτήσεις για την αποτελεσματικότητα και την αξιοπιστία των υπολογιστικών προσεγίσσεων. Αυτή είναι η περίπτωση και στον τομέα της έρευνας για την ανάπτυξη καινοτόμων υλικών μέσω μοριακής μοντελοποίησης, όπου οι ιδιότητές τους εξετάζονται και συνδέονται με τη συμπεριφορά τους σε επίπεδο ατόμων και μορίων.
Η μοριακή μοντελοποίηση είναι ένας επιστημονικός τομέας που συγκεντρώνει μεγάλο ερευνητικό ενδιαφέρον. Περιλαμβάνει πλήθος μεθοδολογιών και τεχνικών που μπορούν να προσπελάσουν ένα εκπληκτικά μεγάλο εύρος ιδιοτήτων που ενδιαφέρουν ανά περίπτωση. Τα αντίστοιχα υπολογιστικά σχήματα είναι βασισμένα στην φυσική και η εφαρμογή τους έχει μεγάλες απαιτήσεις σε υπολογιστικούς πόρους και χρόνο. Οι απαιτήσεις αυτές αυξάνονται δισανάλογα με την πολυπλοκότητα των υπό μελέτη συστημάτων. Το γεγονός αυτό έχει οδηγήσει στη διερεύνηση της χρήση διαφόρων μεθόδων μηχανικής μάθησης ως μέρος των σχημάτων που εφαρμόζονται.
Στις μοριακές προσομοιώσεις, θεωρείται ένα μικρός αλλά χαρακτηριστικός όγκος ελέγχου του συστήματος, τα χαρακτηριστικά των συστατικών μορίων και οι αλληλεπιδράσεις που αναπτύσσονται μεταξύ τους. Στην συνέχεια, με τη χρήση στατιστική φυσικής και υπολογιστικών τεχνικών εξετάζεται η συμπεριφορά του συστήματος, προσδιορίζονται οι ιδιότητές του και συνδέονται με υποκείμενους μοριακούς μηχανισμούς. Ως εκ τούτου, οι ιδιότητες του συστήματος κατανοούνται σε βάθος ενώ μπορεί να προσδιοριστεί η εξάρτησή τους από τις συνθήκες και άλλους παράγοντες.
Σε κάθε περίπτωση, η ορθότητα της προσέγγισης εξαρτάται από τον σωστό προσδιορισμό των παραμέτρων του μοντέλου και της μεθοδολογίας επίλυσης ενώ συνήθως ως αποτέλεσμα παράγεται ένας μεγάλος όγκος πρωτογεννών δεδομένων προς ανάλυση και διαχείριση. Τα δεδομένα είναι συνήθως διαμορφώσεις του συστήματος (π.χ. θέσεις και ταχύτητες των ατόμων του συστήματος στο θεωρούμενο όγκο ελέγχου) ενώ η ποιότητα τους, σε αδρές γραμμές, έξαρτάται από την ρεαλιστικότητα και η πιθανότητα τους.
Η παρούσα μεταπτυχιακή εργασία ασχολείται με τον έλεγχο και την αξιολόγιση μίας πρόσφατης προσέγγισης για την δημιουρία αρχικών ρεαλιστικών μοριακών διμορφώσεων μέσω τεχνικών μηχανικής μάθησης η οποία διφέρει από την κλασική κατασκευαστική προσπάθεια επίλυση του προβλήματος.
Πιο συγκεκριμένα, υλοποιείται ένα νευρωνικό δίκτυο, το οποίο ενσωματώνει τη μέθοδο Boltzmann generators για τη δειγματοληψία μορίων πολυαιθυλενίου. Η μέθοδος έχει εφαρμοστεί αρχικά για τη δημιουργία διαμορφώσεων πρωτεϊνών όπου, σε αντίθεση με τα εύκαμπτα πολυμερή, η διαμόρφωση τους εξαρτάται από έναν σχετικά περιορισμένο αριθμό εσωτερικών βαθμών ελευθερίας. Τα δεδομένα για την εκπαίδευση του μοντέλου εξάγονται με χρήση Μοριακής Δυναμικής (ΜΔ) αλλά και με μια κλασική μέθοδο Monte Carlo (MC) κατασκευής μοριακών διαμορφώσεων που υλοποιήθηκε για την εργασία.
Περίληψη
Solving physics models is a need that has arisen for many decades. During this period, several critical issues have been resolved that impact a variety of domains in real life. This constant progress led to further investigation of physics problems, in greater detail and this procedure became more and more demanding. The same approach is met also in the domain of material science through molecular modeling, where their properties are examined and linked to their behavior at the level of atoms and molecules.
Molecular modeling is a scientific field that gathers great research interest. It includes a variety of methodologies and techniques that cover a surprisingly large range regarding the properties of interest in each case. The corresponding computational schemes are based on physics and their application has great demands on computing resources and time.
These requirements increase in proportion to the complexity of the systems under study. This fact has led to research the use of various machine learning methods as part of exploring their applications.
In molecular simulations, a small but characteristic control volume of the system is examined, accompanied by the characteristics of the component molecules and the interactions that develop between them. Then the behavior of the system is examined by using statistical physics and computational techniques. Also, the properties of the system are determined and linked to underlying molecular mechanisms. This research flow leads to understand in depth the operation of the specific system and therefore their dependence on several conditions can be determined, along with other factors that affect each system under investigation.
In all cases, if the approach of examination is appropriate for a system depends on the correct determination of the model parameters and the selected methodology. The molecular simulations usually result in a large amount of raw data to be analyzed and managed. This data usually includes configurations of the system, such as atoms' position and velocity in the considered control volume of the system. The quality of the results depends on their realism and probability.
This thesis deals with the testing and evaluation of a recent approach for the creation of initial realistic molecular conformations through machine learning techniques, which differs from the classical construction effort to solve the problem.
In specific, a neural network is implemented, which incorporates the Boltzmann generators method for the sampling of polyethylene molecules. This method has been initially applied to the generation of protein conformations where, unlike flexible polymers, their conformation depends on a relatively limited number of internal degrees of freedom. The model's training is extracted using Molecular Dynamics (MD) simulation. At last, a comparison is recorded against a classical Monte Carlo (MC) method of constructing molecular configurations already implemented.