Show simple item record

Aspect Based Sentiment Analysis on User-generated Content

dc.contributor.advisorΠετάσης, Γεώργιος
dc.contributor.authorΝτέβα, Μαρίνα
dc.date.accessioned2024-08-27T10:12:56Z
dc.date.available2024-08-27T10:12:56Z
dc.date.issued2022-05-16
dc.identifier.urihttps://amitos.library.uop.gr/xmlui/handle/123456789/8173
dc.identifier.urihttp://dx.doi.org/10.26263/amitos-1675
dc.descriptionΜ.Δ.Ε. 93el
dc.description.abstractLots of research has been done in the field of natural language processing as far as the part of sentiment analysis is concerned. On top of that, other research focused more specifically on the aspect to which the sentiment refers, and so the domain was evolved to aspect-based sentiment analysis. The problem to which the ABSA solution contributes is the extraction of the aspects out of a sequence, which has a positive or negative impact. In contrast to SA, which tries to elicit the overall emotion out of a piece of text or sentence. In this study, we try to export and categorize aspects from Greek reviews about hotel facilities. The aforementioned research that has been made is mainly based on the English language. Instead, there are only a few attempts regarding ABSA in Greek texts. Therefore, the data available for language model training is limited and most difficult to use for studies. For this research, we tried to fine-tune BERT pre-trained model on Greek hotel reviews taken from a big international travel site that collects reviews and ratings for several facilities from visitors all around the world. In order to annotate the aspect of each review, we used the Ellogon annotation tool developed by a team in NSCR Demokritos. The export from the tool was a JSON file containing the spans of each aspect as well as the sentiment assigned to it. For the annotation, we use BIO- encoding to indicate tokens in the beginning, inside or outside of an aspect term, along with the negative or positive sentiment according to the sequence content. Using the BIO-encoding, we combined both the tag for the aspect term (Begging, Inside, Outside) and the sentiment expressed about the aspect term. To our knowledge, there is not done yet in prior research, where the aspect extraction and aspect classification were treated as two different tasks. The next step was feeding the data to the BERT model using the Greek word embeddings available from Hugging Face and predict the tags for each token. Doing so, although the accuracy score was high, we observed that the values of the F1- score were unsatisfying. We then tried to use the FLAIR framework, which allows the application of different combinations of word embeddings. The basic concept of FLAIR is the training of a bi-directional LSTM model. The outcome was that the results regarding the individual F1-score for the minority classes were low. The minority classes were tags indicating that a word is inside an aspect term either positive or negative, which is because most aspect terms consist of only one token. In addition to this and to further improve the outcome, an up-sampling for the minority class was performed combined with an under-sampling of the majority class, which was the tag indicating tokens outside an aspect. The performance of the model was visibly better, and the values of the F1 score satisfactorily improved. Finally, to further improve the prediction of inner-aspect tags, we tried to build a neural network classifier that would predict if the following token of a sequence belongs or not to the previous aspect term found. The input to the neural network is the embeddings for each word elicited by fine-tuning BERT, and the model tries to classify each term whether inside or outside of an aspect. In summary, we could say that the model performs a re-positioning of multi-word aspect terms to better capture the ground truth aspect. We call this network as Aspect Corrector Network, and the whole approach could be an enhancement to the base BERT model, called BERT with Aspect Corrector Network (BERT-ACN). The whole methodology and experiments performed are explained in detail in chapters 3 and 4.el
dc.format.extentσελ. 75el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πελοποννήσουel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.titleAspect Based Sentiment Analysis on User-generated Contentel
dc.title.alternativeΑνάλυση συναισθήματος βάσει πτυχών σε περιεχόμενο που δημιουργείται από χρήστεςel
dc.typeΜεταπτυχιακή διπλωματική εργασίαel
dc.contributor.committeeΚαρκαλέτσης, Ευάγγελος
dc.contributor.committeeΤρυφωνόπουλος, Χρήστος
dc.contributor.departmentΤμήμα Πληροφορικής και Τηλεπικοινωνιώνel
dc.contributor.facultyΣχολή Οικονομίας και Τεχνολογίαςel
dc.contributor.masterΕπιστήμη Δεδομένωνel
dc.subject.keywordaspect basedel
dc.subject.keywordsentiment analysisel
dc.description.abstracttranslatedΠολλές έρευνες έχουν γίνει στον τομέα της επεξεργασίας φυσικής γλώσσας όσον Π αφορά το θέμα της ανάλυσης συναισθήματος (Sentiment Analysis) στο γραπτό λόγο. Επιπρόσθετα, άλλες έρευνες επικεντρώθηκαν πιο συγκεκριμένα στο αντικείμε- νο (γνώμη) στο οποίο αναφέρεται το συναίσθημα που εξαγεται, και έτσι ο τομέας εξελίχθηκε σε ανάλυση συναισθήματος βάσει της εξαγωγής γνώμης (Aspect-Based Sentiment Analysis) για κάποιο αντικείμενο/χαρακτηριστικό. Το πρόβλημα στο οποίο συμβάλλει η λύση ABSA είναι η εξαγωγή των λέξεων/φράσεων από μια ακολουθία, οι οποίες έχουν κάποιο θετικό ή αρνητικό αντίκτυπο. Σε αντίθεση με το SA, το οποίο προσπαθεί να εξάγει το συνολικό συναίσθημα από ένα κομμάτι κειμένου, μια φράση ή μια πρόταση. Σε αυτή τη μελέτη, προσπαθούμε να εξάγουμε και να κατηγοριοποιήσουμε χαρα- κτηριστικά που αφορούν σε ξενοδοχειακές εγκαταστάσεις από ελληνικές κριτικές που έχουν γραφτεί απο επισκέπτες για αυτές. Οι έρευνες που έχουν πραγματοποιηθεί στον τομέα του ABSA βασίζονται κυρίως στην αγγλική γλώσσα. Αντίθετα, υπάρχουν μόνο μερικές προσπάθειες σχετικά με το ABSA σε ελληνικά κείμενα. Ως εκ τούτου, τα διαθέσιμα δεδομένα για την εκπαίδευση ενός γλωσσικού μοντέλου είναι περιορισμένα και δύσκολα μπορούμε να τα χρησιμοποιήσουμε για την διεξαγωγή πειραμάτων. Για αυτήν την έρευνα, προσπαθήσαμε να προσαρμόσουμε το προ-εκπαιδευμένο μο- ντέλο BERT (BERT pre-trained model) σε κριτικές ελληνικών ξενοδοχείων που προ- έρχονται από έναν μεγάλο διεθνή ταξιδιωτικό ιστότοπο, ο οποίος συλλέγει κριτικές και αξιολογήσεις για αρκετές εγκαταστάσεις από επισκέπτες σε όλο τον κόσμο. Για να εντοπίσουμε και να επισημάνουμε τα αντικείμενα κάθε κριτικής που αφορούν στις παροχές μιας ξενοδοχειακής μονάδας, χρησιμοποιήσαμε το εργαλείο Ellogon annotation tool που αναπτύχθηκε από μια ερευνητική ομάδα στο ΕΚΕΦΕ Δημόκριτος. Αυτό που εξάγαμε από το εργαλείο ήταν ένα αρχείο σε μορφή JSON που περιείχε την αρχή και το τέλος κάθε φράσης που αφορούσε κάποια παροχή, πχ δωμάτιο, φαγητό, θέα, συμπεριφορά προσωπικού, κτλ., καθώς και το συναίσθημα που του αποδίδεται. Για τον εντοπισμό και το μαρκάρισμα των λέξεων ή φράσεων αυτών χρησιμοποιήθηκε η κωδι- κοποίηση της μορφής BIO encoding (Begginig Outside Inside), για να υποδείξουμε αν κάθε λέξη βρίσκεται στην αρχή, μέσα ή έξω από τη φράση που αποτελεί καποιο χαρακτηριστικό, μαζί με το αρνητικό ή θετικό συναίσθημα σύμφωνα με το περιεχόμενο της ακολουθίας. Χρησιμοποιώντας την τεχνικη του BIO encoding, συνδυάσαμε μαζί και τη ετικέτα που αφορά το αν μια λέξη ανήκει ή όχι σε κάποιο χαρακτηριστικό και την ετικέτα που υποδεικνύει το συναίσθημα που εκφράζεται για το συγκεκριμένο χαρακτηριστικό. Οπότε, η προσέγγισή μας αποτελεί ένα μοντέλο που εφαρμόζει ταυτόχρονα την εξα- γωγή χαρακτηριστικού, καθώς και την απόδοση συναισθήματος στο χαρακτηριστικό αυτό. Εξ ́ όσων γνωρίζουμε, δεν υπάρχει στη βιβλιογραφία κάποιο αντίστοιχο μοντέλο, καθώς η εξαγωγή των χαρακτηριστικών και η κατηγοριοποίηση του συναισθήματος α- ντιμετωπίζονται σαν δύο διαφορετικές διαδικασίες. Το επόμενο βήμα ήταν να τροφοδοτήσουμε το μοντέλο BERT με τα δεδομένα χρη- σιμοποιώντας ενσωματώσεις ελληνικών λέξεων που διατίθενται από το Hugging Face και να προβλέψουμε την κλάση για κάθε λέξη. Εκτελόντας το μοντέλο, αν και η τι- μή της ακρίβειας ήταν υψηλή, παρατηρήσαμε ότι οι τιμές των τιμών του F1-score δεν ήταν ικανοποιητικές. Στη συνέχεια προσπαθήσαμε να χρησιμοποιήσουμε το FLAIR framework, το οποίο επιτρέπει την εφαρμογή διαφορετικών συνδυασμών ενσωματώσε- ων λέξεων (word embeddings). Η βασική έννοια του FLAIR είναι η εκπαίδευση ενός αμφίδρομου μοντέλου LSTM. Αυτό που προέκυψε ήταν ότι τα αποτελέσματα σχετι- κά με τις επιμέρους τιμές του F1 σκορ για τις κλάσεις μειοψηφίας (minority classes) ήταν χαμηλές. Οι κλάσεις μειοψηφίας ήταν ετικέτες που υποδεικνύουν ότι μια λέξη βρίσκεται στο εσωτερικό ενός όρου που αποτελεί κάποιο χαρακτηριστικό είτε θετικό είτε αρνητικό, γιατί οι περισσότεροι όροι (aspect terms) αποτελούνται συνηθως μόνο απο μία λέξη. Εκτός από αυτό και για την περαιτέρω βελτίωση του αποτελέσματος, πραγματοποιήθηκε ένα up-sampling για τις λέξεις που ανήκουν σε κλάσεις μειοψηφίας, σε συνδυασμό με under-sampling των λεξεων που ανήκουν στην κλάση πλειοψηφίας (majority class), η οποία ήταν η ετικέτα που υποδεικνύει λέξεις εκτός κάποιου χα- ρακτηριστικού που χαρακτηρίζει κάποια ξενοδοχειακή μονάδα (’O’, outside aspect). Οι επιδόσεις του μοντέλου ήταν εμφανώς καλύτερες και οι τιμές της βαθμολογίας F1 βελτιώθηκαν ικανοποιητικά. Τέλος, για να βελτιώσουμε περαιτέρω την πρόβλεψη των κλάσεων που αφορούν λέξεις που βρίσκονται στο εσωτερικό μιας φράσης που αφορά κάποιο χαρακτηριστι- κό, δημιουργήσαμε έναν ταξινομητή νευρωνικών δικτύων που προβλέπει εάν η επόμενη λέξη μιας ακολουθίας ανήκει ή όχι στον προηγούμενο όρο που εντοπίστηκε και αφορά κάποιο χαρακτηριστικό. Η είσοδος στο νευρωνικό δίκτυο είναι οι ενσωματώσεις για κάθε λέξη (word embeddings) που εξάγονται από τη ρύθμιση του BERT και το μο- ντέλο προσπαθεί να ταξινομήσει κάθε λέξη είτε εντός είτε εκτός της φράσης που αφορά κάποιο χαρακτηριστικό ενός ξενοδοχείου. Συνοψίζοντας, θα μπορούσαμε να πούμε ότι το μοντέλο εκτελεί εναν επαναπροσδιορισμό των φράσεων που αποτελούνται απο παρα- πάνω από μία λέξεις για να αποτυπώσει καλύτερα το χαρακτηριστικό του ξενοδοχείου στο οποίο αναφέρεται ο το συναίσθημα που εξάγεται. Ονομάζουμε αυτό το δίκτυο σαν Aspect Corrector Network, και όλη η προσέγγιση θα μπορούσε να αποτελεί μία βελτίωση του μοντέλου BERT, και ονομάζεται BERT with Aspect Corrector Net- work, (BERT-ACN). Ολόκληρη η μεθοδολογία και τα πειράματα που εκτελέστηκαν περιγράφονται λεπτομερώς στα κεφάλαια 3 και 4.el


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα
Except where otherwise noted, this item's license is described as
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα