Ηλεκτρονικό εμπόριο με γνώμονα το λογισμικό: Βελτιστοποίηση Ευχρηστίας, Εμπειρίας Χρήστη, Προσβασιμότητας και Επισκεψιμότητας βάσει Μηχανικής Μάθησης, Επεξεργασίας Φυσικής Γλώσσας, Μεγάλων Γλωσσικών Μοντέλων και τεχνικών Βελτιστοποίησης Μηχανών Αναζήτησης
Software-Driven E-commerce: Enhancing Usability, User Experience, Accessibility, and Traffic Optimization through Machine Learning, Natural Language Processing, Large Language Models, and Search Engine Optimization Techniques
Διδακτορική διατριβή
Συγγραφέας
Ρουμελιώτης, Κωνσταντίνος
Ημερομηνία
2024-05Επιβλέπων
Τσελίκας, ΝικόλαοςΛέξεις κλειδιά
Βελτιστοποίηση Μηχανών Αναζήτησης ; Επεξεργασία Φυσικής Γλώσσας ; Επιταχυνόμενες Σελίδες για Κινητές Συσκευές ; Ηλεκτρονικό Εμπόριο ; Ικανοποίηση Πελατών ; Λεπτομερής Ρύθμιση Μοντέλων ; Μάθηση Μοντέλων με Ελάχιστα Δεδομένα ; Μεγάλα Γλωσσικά Μοντέλα ; Μη Εποπτευόμενη Μάθηση ; Μηχανική Μάθηση ; Μοντελοποιητικός Χειρισμός Αποχώρησης ; Οργανική Κίνηση ; Προ-εκπαιδευμένα Μοντέλα ; Προοδευτικές Εφαρμογές Ιστού ; Προσβασιμότητα Ιστού ; Συστήματα ΣύστασηςΠερίληψη
This thesis examines the techniques and technologies that can lead to a more optimized, more
accessible, and more sustainable WEB and E-commerce. The development of software tools in both
PHP and Python programming languages is undertaken, leveraging advanced Large Language Models
(LLMs) and Natural Language Processing (NLP) to automate E-commerce processes previously
deemed inaccessible. To confirm and enhance the results of the research, data analysis tools, predictive
modeling, and Machine Learning (ML) algorithms were utilized. Throughout this research, all the
aforementioned technologies are harmoniously combined, leading to an E-commerce that will not only
survive but thrive in the future's intense competition.
This research is divided into four distinct chapters, each specialized in one of the
aforementioned technologies. The investigation begins with LLMs, exploring ways to integrate them
into E-commerce and how their advanced Artificial Intelligence (ΑΙ) and NLP capabilities can automate
E-commerce processes. Subsequently, an exploration of Web Accessibility is undertaken, highlighting
its status as an emerging domain for future consideration within the virtual landscape. This occurs
notwithstanding the escalating demand for an enhanced level of accessibility on the web. Progressive
Web Apps (PWA), a new web technology relying on cutting-edge technologies to transform web pages,
particularly E-commerce, into a multi-device tool, increasing accessibility and usability, are then
explored. Subsequently, an evaluation of PWAs regarding accessibility and their ability to deliver on
promises is conducted. Subsequent to the ongoing research, each aspect of Search Engine Optimization
(SEO) is systematically examined, exploring opportunities within diverse domains under E-commerce
umbrella, including retail E-commerce and service-oriented sectors such as booking platforms. This
involves identifying SEO techniques and technologies that exhibit heightened efficacy in securing
elevated rankings on search engines and fostering increased organic traffic. Another technology,
Accelerated Mobile Pages (AMP), and how it contributes to the growth of an E-commerce's visibility is
finally explored.
During the exploration of LLMs, the initial focus was on investigating NLP and its capacity for
understanding human language, the Generative Pre-trained Transformer (GPT) architecture, and its
innovative use of transformers and self-attention mechanisms to process input sequences. This
encompassed the pre-training phase involving billion parameters utilized in the training of GPT
models, as well as their capability to undergo fine-tuning for domain-specific tasks. Subsequently,
specific attention was given to GPT-3.5, GPT-4, and LLaMA-2 models. Their integration into Ecommerce
was scrutinized, and potential enhancements, such as automation, were explored to
significantly improve both functional and customer-centered aspects of online commerce. It's important
to note that this exploration went beyond LLMs, delving into renowned NLP models such as BERT and
RoBERTa. Additionally, unsupervised and supervised learning algorithms like k-means clustering,
content-based filtering (CBF), hierarchical clustering, as well as logistic regression and neural network
algorithms were examined. To achieve the research objectives, Chrome Apps and flask-based APIs
were developed using Python and JavaScript. The aforementioned models underwent fine-tuning
through few-shot learning tailored for specific domains, providing valuable insights into the
integration of LLMs and NLP within the realm of E-commerce. The focus extended to hot topics,
including sentiment analysis, recommender systems, sustainable purchasing decisions, and churn
modeling. This comprehensive examination aimed to uncover the practical applications and benefits of
leveraging advanced language models for optimizing the E-commerce landscape.
In the examination of Web Accessibility, through a critical review of Web Content Accessibility
Guidelines (WCAG), each design principle, guideline, check point and success criterion were identified
and presented in detail. Limitations in WCAG were identified in terms of both Accessibility Guidelines
and efforts made by web developers and machine auditing tools. As the investigation progressed, a
shift in focus occurred towards an emerging web app technology known as PWAs. PWAs rely on a
blend of cutting-edge technologies such as service workers, app shell architecture, web app manifest,
and caching storage API for offline functionality. In a parallel critical evaluation, the advantages and limitations of adopting this innovative technology were explored. A sample of PWA websites and Ecommerce
platforms was selected, and a comparative analysis against their non-PWA counterparts was
manually conducted employing popular accessibility evaluation and auditing tools. Valuable insights
regarding the accessibility of PWAs compared to non-PWA websites were derived following sample
collection and a descriptive analysis utilizing Jupyter and Python. This study underscores the
imperative role of accessibility in the web landscape.
During the systematic literature review (SLR) in SEO, the necessity of SEO techniques and
technologies for the correct presence of E-commerces on the World Wide Web and for higher rankings
in the Search Engine Result Pages (SERPs) is established. The research is not limited to SEO Techniques;
instead, the use of existing web technologies to boost SEO is suggested. For the purpose of the research,
prototype tools in PHP and Python with crawler-like features were developed. These tools are designed
to analyze targeted web pages, extracting valuable insights into the SEO techniques utilized on those
pages. To simulate real-world conditions, these tools were connected to APIs, allowing them to retrieve
additional metrics such as the number of backlinks, Domain Authority (DA), keywords, search ranking
positions, responsive design, and website speed. Moreover, a pre-trained model was engineered
through the integration of ML and predictive algorithms into the software. This model facilitated the
precise prediction of the requisite number of backlinks and DA essential for a website to attain firstpage
ranking in search results, all while considering the intricacies of its competitive landscape. These
particular tools have been released as open-source on GitHub, providing non-specialized SEO teams
and business owners with the opportunity to implement SEO strategies and observe results through
the software's recommendations. To confirm the tools' effectiveness and obtain more concrete insights
into which SEO techniques are more efficient, case studies were conducted on specific domains within
live E-commerce platforms.
Following the research, the rapid growth of the mobile phone industry was observed, leading
to the exploration of alternative methods for developing web apps that are more mobile-friendly. One
technology that captured the interest of webmasters was AMP. By utilizing existing technologies and
imposing certain restrictions, AMP aimed to create pre-loaded web pages with advantages in terms of
load time. These pages not only offered a reduction in page size but also improved rankings in search
results, resulting in increased organic traffic due to their speed and user-friendliness. To ascertain
whether the promised speed and ranking benefits are indeed delivered by AMP, a comparative analysis
on the pages of a live E-commerce site was conducted in comparison to the corresponding pages of the
same E-commerce site created using AMP technology.
Περίληψη
Η παρούσα διατριβή εξετάζει τις τεχνικές και τεχνολογίες που μπορούν να οδηγήσουν σε
ένα πιο βελτιστοποιημένο, πιο προσβάσιμο και πιο βιώσιμο παγκόσμιο ιστό και ηλεκτρονικό
εμπόριο. Για τους σκοπούς της έρευνας, αναπτύχθηκαν εργαλεία λογισμικού τόσο σε γλώσσα
προγραμματισμού PHP όσο και σε Python, ενώ χρησιμοποιήθηκαν προηγμένα Μεγάλα Γλωσσικά
Μοντέλα (LLMs) και μοντέλα Επεξεργασίας Φυσικής Γλώσσας (NLP) για την αυτοματοποίηση
διαδικασιών ηλεκτρονικού εμπορίου που προηγουμένως θεωρούνταν δυσπρόσιτες. Για να
επιβεβαιωθούν και να ενισχυθούν τα αποτελέσματα της έρευνας, χρησιμοποιήθηκαν εργαλεία
ανάλυσης δεδομένων, προγνωστική μοντελοποίηση και αλγόριθμοι μηχανικής μάθησης. Καθ’
όλη τη διάρκεια αυτής της έρευνας, όλες οι προαναφερόμενες τεχνολογίες συνδυάζονται
αρμονικά, οδηγώντας σε ένα E-commerce που όχι μόνο θα επιβιώσει αλλά θα ακμάσει στον έντονο
ανταγωνισμό του μέλλοντος.
Η παρούσα έρευνα διαιρείται σε τέσσερα διακριτά κεφάλαια, το καθένα εξειδικευμένο σε
μία από τις προαναφερθείσες τεχνολογίες. Η έρευνα ξεκινά με τα Μεγάλα Γλωσσικά Μοντέλα
(LLMs), εξερευνώντας τρόπους ενσωμάτωσής τους στο ηλεκτρονικό εμπόριο και πώς οι
προηγμένες ικανότητες Τεχνητής Νοημοσύνης (ΤΝ) και Επεξεργασίας Φυσικής Γλώσσας
μπορούν να αυτοματοποιήσουν τις διαδικασίες του ηλεκτρονικού εμπορίου. Στη συνέχεια, γίνεται
μια έρευνα της Προσβασιμότητας στον Ιστό, επισημαίνοντας τη θέση της ως αναδυόμενου πεδίου
για το μέλλον. Έπειτα, εξετάζονται οι Προοδευτικές Εφαρμογές Ιστού (PWA), μια νέα τεχνολογία
ιστού που βασίζεται σε προηγμένες τεχνολογίες για τον μετασχηματισμό των ιστοσελίδων, ειδικά
του ηλεκτρονικού εμπορίου, σε ένα εργαλείο για πολλαπλές συσκευές, αυξάνοντας την
προσβασιμότητα και τη χρηστικότητα τους. Στη συνέχεια, πραγματοποιείται μια αξιολόγηση των
PWA σχετικά με την προσβασιμότητα που προσφέρουν. Σε συνέχεια της έρευνας, εξετάζεται
συστηματικά κάθε πτυχή της Βελτιστοποίησης Μηχανών Αναζήτησης (SEO), εξερευνώντας
ευκαιρίες σε διάφορους τομείς κάτω από την ομπρέλα του ηλεκτρονικού εμπορίου,
συμπεριλαμβανομένων του λιανικού ηλεκτρονικού εμπορίου και των τομέων που παρέχουν
υπηρεσίες, όπως οι πλατφόρμες κρατήσεων. Ξεκινώντας με την αναγνώριση των τεχνικών και
τεχνολογιών SEO, εντοπίζονται εκείνες οι τεχνικές που είναι πιο αποτελεσματικές για την
εξασφάλιση υψηλότερης κατάταξης στα αποτελέσματα αναζήτησης και αυξημένης οργανικής
επισκεψιμοτητας. Τέλος, εξετάζεται η τεχνολογία Επιταχυνόμενες Σελίδες για Κινητά (AMP) και
πώς συμβάλλει στην αύξηση της επισκεψιμότητας σε πλατφόρμες ηλεκτρονικού εμπορίου.
Κατά την έρευνα των Μεγάλων Γλωσσικών Μοντέλων (LLMs), ερευνήθηκε αρχικά η
Επεξεργασία Φυσικής Γλώσσας (NLP) και η ικανότητά της να κατανοεί την ανθρώπινη γλώσσα,
την αρχιτεκτονική του Generative Pre-trained Transformer (GPT) και την καινοτόμο χρήση των
transformers και των μηχανισμών αυτο-προσοχής για την επεξεργασία ακολουθιών εισόδου.
Ερευνήθηκε παράλληλα η φάση της προ-εκπαίδευσης που περιλαμβάνει ένα δισεκατομμύριο
παραμέτρους που χρησιμοποιούνται κατά την προ-εκπαίδευση των μοντέλων GPT, καθώς και τη
δυνατότητά τους να υποστούν λεπτομερή ρύθμιση (FT) για εργασίες που αφορούν
συγκεκριμένους τομείς. Στη συνέχεια, η έρευνα ειδικεύτηκε στα μοντέλα GPT-3.5, GPT-4 και
LLaMA-2, εξετάζοντας την ενσωμάτωσή τους στο ηλεκτρονικό εμπόριο και τις πιθανές
βελτιώσεις, συμπεριλαμβανομένης της αυτοματοποίησης, που θα μπορούσαν να προσφέρουν για
τη βελτίωση των λειτουργιών και των πελατοκεντρικών πτυχών του ηλεκτρονικού εμπορίου.
Αξίζει να σημειωθεί ότι η παρούσα έρευνα υπερβαίνει τα LLMs, καθώς εξετάστηκαν λεπτομερώς
διάσημα μοντέλα NLP, όπως το BERT και το RoBERTa. Επιπλέον, εξετάστηκαν αλγόριθμοι μη
εποπτευόμενης και εποπτευόμενης μάθησης, όπως οι ομαδοποιήσεις k-means, το φιλτράρισμα
βασισμένο στο περιεχόμενο (CBF), οι ιεραρχικές ομαδοποιήσεις, καθώς και οι αλγόριθμοι
λογιστικής παλινδρόμησης και νευρωνικών δικτύων. Για τους σκοπούς της έρευνας,
δημιουργήθηκαν εφαρμογές Chrome και APIs βασισμένα σε Flask χρησιμοποιώντας Python και
JavaScript. Τα προαναφερθέντα μοντέλα υπέστησαν λεπτομερή ρύθμιση (FT) για συγκεκριμένους
τομείς, παρέχοντας αξιόλογα αποτελέσματα για την ενσωμάτωση των LLMs και NLP στον τομέα του ηλεκτρονικού εμπορίου. Η έρευνα εστίασε σε κορυφαία θέματα, συμπεριλαμβανομένης της
ανάλυσης συναισθημάτων, συστημάτων σύστασης, συστημάτων απόφασης βιώσιμων αγορών
και του μοντελοποιητικού χειρισμού αποχώρησης. Αυτή η σφαιρική εξέταση είχε ως στόχο την
αποκάλυψη όλων εκείνων πρακτικών εφαρμογών και του οφέλους από τη χρήση προηγμένων
μοντέλων γλώσσας για τη βελτιστοποίηση του ηλεκτρονικού εμπορίου.
Κατά την εξέταση της προσβασιμότητας στον Ιστό, μέσω μιας κριτικής ανασκόπησης των
Οδηγιών Προσβασιμότητας Περιεχομένου του Ιστού (WCAG), αναγνωρίστηκαν και
παρουσιάστηκαν λεπτομερώς κάθε αρχή σχεδίασης, οδηγία, σημείο ελέγχου και κριτήριο
επιτυχίας. Ως αποτέλεσμα της έρευνας, εντοπίστηκαν περιορισμοί στα WCAG τόσο όσον αφορά
τις οδηγίες προσβασιμότητας, όσο και στις προσπάθειες των προγραμματιστών ιστού και τα
εργαλεία αυτοματοποιημένου ελέγχου. Καθώς η έρευνα προχωρούσε, μια αναδυόμενη
τεχνολογία εφαρμογής ιστού που είναι γνωστή ως Προοδευτικές Εφαρμογές Ιστού (PWAs)
ερευνήθηκε σε βάθος. Οι PWAs βασίζονται σε έναν συνδυασμό προηγμένων τεχνολογιών, όπως
οι υπηρεσίες service workers, η αρχιτεκτονική του κελύφους εφαρμογής, το μανιφέστο της
εφαρμογής ιστού και η αποθήκευση προσωρινής μνήμης για λειτουργία εκτός σύνδεσης. Κατά τη
διάρκεια μιας παράλληλης κριτικής αξιολόγησης, εξετάστηκαν τα πλεονεκτήματα και οι
περιορισμοί της υιοθέτησης αυτής της καινοτόμου τεχνολογίας. Συνδυάζοντας τις γνώσεις που
αποκομίστηκαν σχετικά με την Προσβασιμότητα και τις PWAs, επιλέχθηκε ένα δείγμα ιστοτόπων
και πλατφορμών ηλεκτρονικού εμπορίου που χρησιμοποιούν την τεχνολογία αυτή.
Χρησιμοποιώντας δημοφιλή εργαλεία αξιολόγησης προσβασιμότητας και εργαλεία ελέγχου,
διενεργήθηκε χειροκίνητη συγκριτική ανάλυση έναντι των αντίστοιχων μη-PWA. Μετά τη
συλλογή δειγμάτων και την περιγραφική ανάλυση με τη χρήση Jupyter και Python, η έρευνα
κατέληξε σε πολύτιμα αποτελέσματα σχετικά με την προσβασιμότητα των PWAs σε σύγκριση με
τους ιστότοπους που δεν χρησιμοποιούν PWA. Αυτή η μελέτη υπογραμμίζει τον απαραίτητο ρόλο
της προσβασιμότητας στον ιστό.
Κατά τη διάρκεια της συστηματικής ανασκόπησης της βιβλιογραφίας (SLR) στη
Βελτιστοποίηση Μηχανών Αναζήτησης (SEO), τονίστηκε η αναγκαιότητα των τεχνικών και
τεχνολογιών SEO τόσο για τη σωστή παρουσία των ηλεκτρονικών καταστημάτων στον
Παγκόσμιο Ιστό όσο και για υψηλότερες κατατάξεις στα αποτελέσματα αναζήτησης οργανικού
τύπου (SERPs). Η παρούσα έρευνα ωστόσο δεν περιορίζεται μόνο στις υπάρχουσες Τεχνικές SEO.
Αντίθετα, προτείνεται η χρήση υπαρχουσών τεχνολογιών ιστού για την ενίσχυση του SEO. Για
τους σκοπούς της έρευνας, δημιουργήθηκαν πρωτότυπα εργαλεία σε PHP και Python με
χαρακτηριστικά παρόμοια με αυτά ενός crawler. Αυτά τα εργαλεία αναλύουν στοχευμένα
ιστοσελίδες, εξάγοντας πολύτιμα στοιχεία σχετικά με τις τεχνικές SEO που χρησιμοποιούνται σε
αυτές. Για να καλυφθούν οι τρέχουσες ανάγκες στο SEO, τα συγκεκριμένα εργαλεία
συνδυάστηκαν με APIs, επιτρέποντάς τους να ανακτούν επιπλέον δεδομένα, όπως ο αριθμός των
backlinks, η εξουσία του τομέα (DA), λέξεις-κλειδιά, θέσεις στις αναζητήσεις, σχεδιασμό για
πολλαπλές συσκευές και ταχύτητα της ιστοσελίδας. Επιπλέον, μέσω της ενσωμάτωσης της
μηχανικής μάθησης και αλγορίθμων πρόβλεψης στα λογισμικά αυτά, δημιουργήθηκε ένα προ-
εκπαιδευμένο μοντέλο. Αυτό το μοντέλο διευκόλυνε την ακριβή πρόβλεψη του απαραίτητου
αριθμού backlinks και της εξουσίας του τομέα (DA) που πρέπει να έχει μια ιστοσελίδα για να
κερδίσει την κατάταξη στην πρώτη σελίδα των αποτελεσμάτων αναζήτησης, λαμβάνοντας υπόψη
το ανταγωνιστικό της περιβάλλον. Τα εργαλεία που δημιουργήθηκαν για τις ανάγκες της έρευνας
έχουν δημοσιευτεί ως ανοικτού κώδικα στο GitHub, παρέχοντας σε μη-ειδικευμένες ομάδες SEO
και ιδιοκτήτες επιχειρήσεων τη δυνατότητα να υλοποιήσουν στρατηγικές SEO και να
παρατηρήσουν τα αποτελέσματα μέσω των συστάσεων του λογισμικού. Για να επιβεβαιωθεί η
αποτελεσματικότητα των εργαλείων, καθώς και για να βρεθούν ποιες από τις τεχνικές SEO είναι
πιο αποτελεσματικές, διεξήχθησαν μελέτες περιπτώσεων σε συγκεκριμένους τομείς
ηλεκτρονικού εμπορίου.
Στο τελευταίο στάδιο της έρευνας, παρατηρήθηκε η άνοδος της βιομηχανίας κινητών
συσκευών, που ώθησε τους διαχειριστές ιστού να εξερευνήσουν εναλλακτικές μεθόδους για την ανάπτυξη ιστοσελίδων που είναι περισσότερο φιλικές προς τις κινητές συσκευές. Μια τεχνολογία
που κέρδισε το ενδιαφέρον των διαχειριστών ιστού ήταν οι Επιταχυνόμενες Σελίδες Κινητών της
Google (AMP). Χρησιμοποιώντας υπάρχουσες τεχνολογίες και επιβάλλοντας κάποιους
περιορισμούς, οι AMP είχαν ως στόχο τη δημιουργία προ-φορτωμένων ιστοσελίδων με
πλεονεκτήματα όσον αφορά τον χρόνο φόρτωσης. Αυτές οι σελίδες προσφέρουν όχι μόνο μείωση
του μεγέθους της σελίδας, αλλά και βελτίωση των κατατάξεων στα αποτελέσματα αναζήτησης,
με αποτέλεσμα την αυξημένη οργανική επισκεψιμότητα λόγω της ταχύτητάς τους και της
φιλικότητάς τους προς τον χρήστη. Σε αυτήν τη μελέτη, για να εξακριβωθεί εάν οι AMP πράγματι
παρέχουν τα υποσχόμενα οφέλη σε ταχύτητα και κατάταξη, πραγματοποιήθηκε συγκριτική
ανάλυση στις σελίδες ενός ιστοτόπου ηλεκτρονικού εμπορίου σε σχέση με τις αντίστοιχες σελίδες
του ίδιου ιστοτόπου που χρησιμοποιούσαν την τεχνολογία AMP.