Data analysis as a decision support tool in Greek education
Η ανάλυση δεδομένων ως εργαλείο υποστήριξης αποφάσεων στην ελληνική εκπαίδευση
Διδακτορική διατριβή
Συγγραφέας
Παπαδόγιαννης, Ηλίας
Ημερομηνία
2023-10-12Επιβλέπων
Γουάλες, ΜανόληςΛέξεις κλειδιά
ανάλυση εκπαιδευτικών δεδομένων ; επιδόσεις μαθητών ; ίσες ευκαιρίες ; εκπαιδευτική πολιτικήΠερίληψη
This dissertation highlights the potential offered by the analysis of educational data in
primary and secondary education. Starting from a common issue in educational research—
the academic achievement of students—it emphasizes the potential for objective evaluation
and decision support provided by the use of data in centralized educational systems.
Central to this is the concept of equal opportunity education, which runs throughout the
thesis.
Since the industrial revolution, education has been seen as a tool for social mobility
and equal opportunities. States introduced compulsory public education and financed
it through taxation. A main objective remains equality of educational opportunities for
students through public provision and state control. But research has highlighted that
long-standing social inequalities are also reproduced through education systems, leading
to proposals for more inclusive education systems and educational interventions.
The evaluation of the effectiveness of education systems and the expression of views
in the public debate often reflect personal perceptions, which are not based on objective
evidence. Recently in Greece, systematic collection of educational data has become possible
with the introduction of a MIS for primary and secondary education, but the potential
for knowledge extraction from it has not yet been exploited. By examining student
achievement in Greece, this thesis highlights the potential benefit of using data analysis
in evidence-based decision-making and drawing objective conclusions. The use of these
tools provides critical knowledge for decision-making by policymakers and educational
administrators.
The majority of educational data analysis research on student achievement focuses
on higher education and online learning. Additionally, studies often use small sample
sizes, which may limit their generalizability. Longitudinal analyses, which could reveal
the long-term effects of educational interventions, are scarce in the literature. This thesis
analyzed the entire student population of the country, both statically and longitudinally,
drawing objective conclusions on dimensions of the education system as a whole as well as
individual educational interventions. In addition, it broadens the research scope to tional levels with different characteristics from higher education, which have a significant
impact on students and society.
The research questions of the thesis are related to students’ academic achievement.
The first research question focuses on the objective detection of different levels of student
achievement and forms the basis for further analyses. The second research question
examined the stability of the identified achievement levels over time. The third research
question examined the function of the school as an equal opportunity institution through
the impact of demographic (non-academic) characteristics, such as gender, guardian occupation,
and region of residence, on academic achievement. The fourth research question
examined the potential for objective evaluation of a specific educational intervention, that
of remedial teaching, in the light of equal opportunities for students. Finally, the fifth and
last research question examined the predictive power of GPA in estimating future achievement
against alternative, weighted metrics with different weights of courses.
To meet our research approach, we requested demographic and academic data of the
country’s students from the Ministry of Education. We obtained data of the entire student
population, from 5 of primary school to grade 3 of Junior High School. The data were: a)
Grades in all subjects b) The class of each student c) The overall Grade Point Average d)
The students’ absences e) The gender of the students (f) The profession of the guardian
(g) The education directorate to which each pupil belonged. The school years for which
we obtained data were from 2016-17 to 2018-19.
In this thesis, unsupervised learning was used to assess student achievement to reduce
researcher intervention. The algorithm added each student’s achievement level to
the dataset and ranked them by achievement level. This variable was used to answer remaining
research questions, such as student achievement differences by gender, region,
and guardian occupation. Finally, a longitudinal analysis of achievement levels from grade
to grade examined student achievement stability.
The thesis also showed that data analysis can yield meaningful conclusions from educational
data, even if it was not collected for research. It used national student data for the
first time to categorize them into four mathematically calculated academic achievement
categories. The longitudinal study of student achievement found stability over time, with
the highest and lowest performing students showing strong stability.
It was also found that the level of student achievement was influenced by non-academic
factors such as gender, region of residence, and the guardian’s occupation. The nonindependence
of achievement on non-academic characteristics provides clear evidence
in favor of the argument that the education system does not function as a system of equal
opportunities for students.
The research further found that remedial teaching had short- and long-term effects on
the improvement of students overall, but the improvement differed by the profession of the guardian, favoring more privileged students. This demonstrates the opposite effect of
remedial teaching from its objective, which is to enhance equal opportunities for pupils
who have socially limited opportunities.
In terms of contributions, this is the first research effort using data analysis at the
country level. Our study results relate to all students in the country without the need for
statistical inference. It was found that the use of educational data, which already exists
in the databases of the Ministry of Education even if not collected for a specific research
purpose, can lead to informed opinions on the functioning of the educational system. This
allows the ministry’s services to engage in in-depth analysis of education data to extract
new knowledge that is currently ”hidden” in the large volume of MIS data.
An approach has been developed, that of objective identification of achievement levels
through clustering, which can be used in other researches on student achievement, without
the need to study distributions of student grades.
It was found that there is an objective way of dividing achievement levels and characterizing
student achievement. From this procedure, specific and numerically stable
achievement levels emerge, highlighting corresponding stability in the set of factors affecting
achievement while posing challenges to educational policy.
As the data do not support the achievement of the target, the pursuit of an equal opportunities
school should continue. The differentiation in performance between students from
different social and economic backgrounds shows that further efforts are needed in order
for the school to function as a tool for social mobility and equal opportunities through
pupil achievement.
For the first time, using total data, the overachievement of girls compared to boys
has been confirmed. Similar studies have used data from student competitions, such as
PISA, with a limited number of students and subjects tested or small samples. The thesis
confirmed the findings for the first time at the country level, without the need to induce
the results.
Overall, through the evidence-based assessment of dimensions of the education system
and educational interventions, it became clear that the analysis of our country’s educational
data provides enormous potential for informing decision-making and evaluating
the outcomes of educational policies. Thus, the need to integrate information system data
into the decision-making process is emphasized, as well as the importance of promoting
data-based decision-making in education.
Περίληψη
H παρούσα διδακτορική διατριβή αναδεικνύει τις δυνατότητες που προσφέρει η Ανά
λυση Εκπαιδευτικών Δεδομένων στην πρωτοβάθμια και δευτεροβάθμια εκπαίδευση. Ξε-
κινώντας από ένα κοινό ζήτημα στην εκπαιδευτική έρευνα - την ακαδημαϊκή επίδοση των
μαθητών - δίνει έμφαση στις δυνατότητες αντικειμενικής αξιολόγησης και υποστήριξης
αποφάσεων, που παρέχει η χρήση δεδομένων στα κεντρικά οργανωμένα εκπαιδευτικά
συστήματα. Κεντρικό ρόλο διαδραματίζει η έννοια της εκπαίδευσης των ίσων ευκαιριών,
η οποία διαπερνά ολόκληρη τη διατριβή.
Από την εποχή της βιομηχανικής επανάστασης, η εκπαίδευση θεωρήθηκε ως εργαλείο
κοινωνικής κινητικότητας και παροχής ίσων ευκαιριών. Τα κράτη καθιέρωσαν την υποχρε-
ωτική δημόσια εκπαίδευση και την χρηματοδότησαν μέσω της φορολογίας. Βασικός
στόχος παραμένει η ισότητα των ευκαιριών στην εκπαίδευση για τους μαθητές, μέσω
της δημόσιας παροχής και του κρατικού ελέγχου. Η έρευνα όμως έχει αναδείξει ότι οι
διαχρονικές κοινωνικές ανισότητες αναπαράγονται και μέσω των εκπαιδευτικών συστημά-
των, οδηγώντας σε προτάσεις για πιο συμπεριληπτικά εκπαιδευτικά συστήματα και εκπαι-
δευτικές παρεμβάσεις.
Η αξιολόγηση της αποτελεσματικότητας των εκπαιδευτικών συστημάτων και η έκφρα-
ση απόψεων στο δημόσιο διάλογο συχνότατα αντικατοπτρίζει προσωπικές θεωρήσεις, οι
οποίες δεν στηρίζονται σε αντικειμενικά στοιχεία. Πρόσφατα στην Ελλάδα έγινε δυνατή η
συστηματική συλλογή εκπαιδευτικών δεδομένων για τους εμπλεκόμενους στη εκπαιδευ-
τική πολιτική, με την εισαγωγή ενός MIS για την πρωτοβάθμια και την δευτεροβάθμια
εκπαίδευση, αλλά οι δυνατότητες εξόρυξης γνώσης από αυτό δεν έχουν ακόμη αξιοποιηθεί.
Εξετάζοντας τις μαθητικές επιδόσεις των μαθητών στην Ελλάδα, η παρούσα διατριβή
αναδεικνύει το δυνητικό όφελος της χρήσης ανάλυσης δεδομένων στη τεκμηριωμένη
λήψη αποφάσεων και την εξαγωγή αντικειμενικών συμπερασμάτων. Η χρήση αυτών των
εργαλείων παρέχει κρίσιμη γνώση για τη λήψη αποφάσεων από τους υπεύθυνους χάραξης
πολιτικής και την εκπαιδευτική διοίκηση.
Η πλειονότητα των ερευνών της ανάλυσης εκπαιδευτικών δεδομένων σχετικά με τις
επιδόσεις των μαθητών επικεντρώνεται στην τριτοβάθμια εκπαίδευση και την online μά-
θηση. Η παρούσα διατριβή έρχεται να προφέρει την ανάλυση του συνολικού μαθητικού πληθυσμού της χώρας, στατικά και διαχρονικά, και την εξαγωγή αντικειμενικών συμπε-
ρασμάτων για διαστάσεις του εκπαιδευτικού συστήματος συνολικά καθώς και επιμέρους
εκπαιδευτικών παρεμβάσεων. Επιπλέον, διευρύνει το ερευνητικό πεδίο σε εκπαιδευτικές
βαθμίδες με διαφορετικά χαρακτηριστικά από τριτοβάθμια εκπαίδευση, οι οποίες έχουν
σημαντικό αντίκτυπο στους μαθητές και την κοινωνία.
Τα ερευνητικά ερωτήματα της διατριβής συνδέονται με την ακαδημαϊκή επίδοση των
μαθητών. Το πρώτο ερευνητικό ερώτημα επικεντρώνεται στον αντικειμενικό εντοπισμό
των διαφορετικών επιπέδων επίδοσής των μαθητών και αποτέλεσε τη βάση για τις περε-
ταίρω αναλύσεις. Στο δεύτερο ερευνητικό ερώτημα εξετάστηκε η σταθερότητα των επι-
πέδων επιδόσεων που εντοπίστηκαν, στην πάροδο του χρόνου. Στο τρίτο ερευνητικό
ερώτημα εξετάστηκε η λειτουργία του σχολείου ως θεσμού παροχής ίσων ευκαιριών, μέσα
από την επίδραση δημογραφικών (μη - ακαδημαϊκών) χαρακτηριστικών, όπως το φύλο, το
επάγγελμα του κηδεμόνα και η περιοχή διαμονής, στην ακαδημαϊκή επίδοση. Στο τέταρτο
ερευνητικό ερώτημα μελετήθηκε η δυνατότητα αντικειμενικής αξιολόγησης μιας συγκε-
κριμένης εκπαιδευτικής παρέμβασης, αυτής της ενισχυτικής διδασκαλίας, υπό το πρίσμα
των ίσων ευκαιριών για τους μαθητές. Τέλος, στο πέμπτο και τελευταίο ερευνητικό ερώ-
τημα εξετάστηκε η προβλεπτική ικανότητα του GPA στην εκτίμηση των μελλοντικών
επιδόσεων, έναντι εναλλακτικών - σταθμισμένων μετρικών, με διαφορετικές σταθμίσεις
των μαθημάτων.
Για την κάλυψη της ερευνητικής μας προσέγγισης, χρησιμοποιήθηκαν δεδομένα (δη-
μογραφικά και ακαδημαϊκά) των μαθητών της χώρας από το Υπουργείο Παιδείας. Λάβαμε
δεδομένα του συνόλου του μαθητικού πληθυσμού, από την 5η Δημοτικού μέχρι την 3η
Γυμνασίου. Τα δεδομένα αφορούσαν: a) Τους βαθμούς σε όλα τα μαθήματα b) Την τάξη
κάθε μαθητή c) Το γενικό μέσο όρο βαθμολογίας d) Τις απουσίες των μαθητών e) Το φύλο
των μαθητών f) Το επάγγελμα του κηδεμόνα g) Την Διεύθυνση Εκπαίδευσης που ανήκε
κάθε μαθητής. Τα σχολικά έτη για τα οποία λάβαμε δεδομένα ήταν από 2016-17 έως και
2018-19.
Στην παρούσα διατριβή χρησιμοποιήθηκε μη εποπτευόμενη μάθηση για τον προσδιορι-
σμό των επιπέδων επίδοσης των μαθητών, προκειμένου να ελαχιστοποιηθεί η παρέμβαση
του ερευνητή. Από τον αλγόριθμο προέκυψε μια νέα μεταβλητή, αυτή του επιπέδου
επίδοσης κάθε μαθητή, η οποία προστέθηκε στο σύνολο δεδομένων και ταξινόμησε τους
μαθητές στα επίπεδα επιδόσεων. Η μεταβλητή χρησιμοποιήθηκε για να εξεταστούν τα
υπόλοιπα ερευνητικά ερωτήματα όπως: οι διαφορές στις επιδόσεις με βάση δημογραφικά
χαρακτηριστικά των μαθητών, όπως το φύλο, η περιοχή και το επάγγελμα του κηδεμόνα.
Τέλος, έγινε διαχρονική ανάλυση του επιπέδου επίδοσης από τάξη σε τάξη, προκειμένου
να μελετηθεί η σταθερότητα των επιδόσεων των μαθητών κατά τη διάρκεια του χρόνου.
Η διατριβή κατέδειξε τις δυνατότητες της ανάλυσης δεδομένων για την εξαγωγή ουσι-
αστικών και χρήσιμων συμπερασμάτων από εκπαιδευτικά δεδομένα, ακόμα και αν αυτά δεν έχουν συλλεχθεί για το συγκεκριμένο ερευνητικό σκοπό. Χρησιμοποίησε για πρώτη
φορά, δεδομένα για όλους τους μαθητές σε εθνικό επίπεδο και τους κατέταξε σε τέσσερις,
μαθηματικά υπολογισμένες, κατηγορίες, με βάση τις ακαδημαϊκές τους επιδόσεις. Η
διαχρονική μελέτη των επιδόσεων των μαθητών έγινε με το συνδυασμό ομαδοποίησης με
περιγραφικές στατιστικές μεθόδους και διαπίστωσε σταθερότητα των επιδόσεων διαχρο-
νικά, με τους μαθητές με τις υψηλότερες και τις χαμηλότερες επιδόσεις να παρουσιάζουν
εντονότερη σταθερότητα.
Επίσης, διαπιστώθηκε ότι, το επίπεδο επίδοσης του μαθητή επηρεάζεται από μη ακαδη-
μαϊκούς παράγοντες όπως, το φύλο, η περιοχή κατοικίας και το επάγγελμα του κηδεμόνα.
Η μη ανεξαρτησία των επιδόσεων από μη ακαδημαϊκά χαρακτηριστικά παρέχει σαφείς
ενδείξεις υπέρ του επιχειρήματος ότι, το εκπαιδευτικό σύστημα δεν λειτουργεί ως ένα
σύστημα παροχής ίσων ευκαιριών για τους μαθητές.
Η έρευνα διαπίστωσε ακόμη ότι η ενισχυτική διδασκαλία είχε βραχυπρόθεσμα και
μακροπρόθεσμα αποτελέσματα στη βελτίωση των μαθητών συνολικά, πλην όμως η βελτί-
ωση αυτή διαφέρει με βάση το επάγγελμα του κηδεμόνα, ευνοώντας πιο προνομιούχους
μαθητές. Αυτό καταδεικνύει ένα αντίθετο αποτέλεσμα της ενισχυτικής διδασκαλίας από
την στόχευσή της, που αφορά στην ενίσχυση των ίσων ευκαιριών για μαθητές που έχουν
κοινωνικά, περιορισμένες δυνατότητες.
Σε επίπεδο συνεισφορών, πρόκειται για την πρώτη ερευνητική προσπάθεια με την
χρήση ανάλυσης δεδομένων, σε επίπεδο χώρας. Τα αποτελέσματα των ερευνών μας
αφορούν το σύνολο των μαθητών της χώρας, χωρίς την ανάγκη στατιστικής επαγωγής.
Διαπιστώθηκε ότι η χρήση εκπαιδευτικών δεδομένων, τα οποία υπάρχουν ήδη στις βάσεις
δεδομένων του Υπουργείου Παιδείας ακόμη και στην περίπτωση που δεν έχουν συλλεγεί
για το συγκεκριμένο ερευνητικό σκοπό, μπορεί να οδηγήσει σε τεκμηριωμένες απόψεις
για τη λειτουργία του εκπαιδευτικού συστήματος. Αυτό επιτρέπει στις υπηρεσίες του
υπουργείου να ασχοληθούν σε βάθος με την ανάλυση εκπαιδευτικών δεδομένων για την
εξαγωγή νέας γνώσης, που για την ώρα «κρύβεται» στο μεγάλο όγκο δεδομένων του MIS.
Αναπτύχθηκε μια προσέγγιση, αυτή του αντικειμενικού προσδιορισμού επίπεδων επί-
δοσης, μέσω ομαδοποίησης, η οποία μπορεί να χρησιμοποιηθεί και σε άλλες έρευνες
σχετικά με τη μαθητική επίδοση, χωρίς να είναι απαραίτητη η μελέτη κατανομών της
βαθμολογίας των μαθητών.
Διαπιστώθηκε ότι υπάρχει αντικειμενικός τρόπος χωρισμού των επιπέδων επίδοσης
και χαρακτηρισμού των επιδόσεων των μαθητών, από τον οποίο προκύπτουν συγκεκριμέ-
να και σταθερά σε αριθμό επίπεδα επίδοσης, αναδεικνύοντας αντίστοιχη σταθερότητα στο
σύνολο των παραγόντων που επιδρούν στην επίδοση και θέτοντας παράλληλα προκλήσεις
στην εκπαιδευτική πολιτική.
Η προσπάθεια για ένα σχολείο ίσων ευκαιριών θα πρέπει να συνεχιστεί, αφού η επίτευ-
ξη του στόχου δεν επιβεβαιώθηκε από τα δεδομένα. Η διαφοροποίηση των επιδόσεων μεταξύ μαθητών από διαφορετικά κοινωνικά και οικονομικά υπόβαθρα, δείχνει ότι πρέπει
να υπάρξουν επιπλέον προσπάθειες, προκειμένου το σχολείο να λειτουργήσει σαν εργαλείο
κοινωνικής κινητικότητας και παροχής ίσων ευκαιριών, μέσω των μαθητικών επιδόσεων.
Επιβεβαιώθηκε για πρώτη φορά και με χρήση συνολικών δεδομένων, η υπεραπόδοση
των κοριτσιών σε σχέση με τα αγόρια. Οι αντίστοιχες έρευνες αφορούσαν δεδομένα
μαθητικών διαγωνισμών, όπως το PISA, με περιορισμένο αριθμό μαθητών και μαθημάτων
που εξετάζονται ή μικρά δείγματα. Η διατριβή επιβεβαίωσε τα ευρήματα για πρώτη φορά
σε επίπεδο χώρας, χωρίς την ανάγκη επαγωγής των αποτελεσμάτων.
Συνολικά, μέσω της τεκμηριωμένης εκτίμησης για διαστάσεις του εκπαιδευτικού συ-
στήματος και εκπαιδευτικές παρεμβάσεις, έγινε σαφές ότι η ανάλυση των εκπαιδευτικών
δεδομένων της χώρας μας παρέχει τεράστιες δυνατότητες τεκμηρίωσης των αποφάσεων
και αξιολόγησης των αποτελεσμάτων των εκπαιδευτικών πολιτικών. Τονίζεται έτσι, η
ανάγκη ενσωμάτωσης των δεδομένων του πληροφοριακού συστήματος στη διαδικασία
λήψης αποφάσεων, καθώς και η σημασία της προώθησης της λήψης αποφάσεων με βάση
τα δεδομένα στην εκπαίδευση.