Συσχέτιση δεδομένων από την ειδησεογραφία με μετρήσεις αιωρούμενων σωματιδίων (ΡΜ), με χρήση τεχνικών ανάλυσης δεδομένων, επεξεργασίας φυσικής γλώσσας και μηχανικής μάθησης
Μεταπτυχιακή διπλωματική εργασία
Author
Νικολέτος, Σωτήριος
Date
2024-05-17Advisor
Ραυτοπούλου, ΠαρασκευήAbstract
Τα αιωρούμενα σωματίδια (Particulate Matter) είναι μικρού μεγέθους στερεά ή υγρά αιωρήματα (π.χ. αφρικανική σκόνη, καπνός τζακιών, άμμος από
χωματουργικές εργασίες κ.α.) που βρίσκονται διασκορπισμένα στην ατμόσφαιρα. Σύμφωνα με τον Παγκόσμιο Οργανισμό Υγείας, η συστηματική
έκθεση σε αυξημένες συγκεντρώσεις αιωρούμενων σωματιδίων με διάμετρο
1μm, 2.5μm και 10μm έχει αρνητική επίδραση στην ανθρώπινη υγεία. Πιο
συγκεκριμένα, τα αιωρούμενα μικροσωματίδια και η είσοδος τους στον οργανισμό μέσω της αναπνοής μπορούν να προκαλέσουν εγκεφαλικά επεισόδια,
καρδιακά προβλήματα, καρκίνο στους πνεύμονες και άλλες ασθένειες που
συνδέονται με την καρδιά και το αναπνευστικό και τελικά είναι υπεύθυνα
για το 20% των θανάτων παγκοσμίως.
Στην παρούσα εργασία, χρησιμοποιώντας τεχνικές εξόρυξης και ανάλυσης δεδομένων, καθώς και τεχνικές επεξεργασίας φυσικής γλώσσας προκειμένου να ανακτήσουμε γεγονότα από την ειδησεογραφία που ενδέχεται
να προκαλέσουν αυξημένες συγκεντρώσεις αιωρούμενων σωματιδίων. Τα
δεδομένα αυτά συνδέονται με μετρήσεις ειδικών σταθμών που είναι εγκατεστημένοι σε αστικά κέντρα και καταγράφουν τις συγκεντρώσεις των αιωρούμενων σωματιδίων ανά τακτά χρονικά διαστήματα. Στόχος μας είναι να
συσχετίσουμε τα γεγονότα με τις πραγματικές μετρήσεις από τους σταθμούς
και να μελετήσουμε πώς τελικά επιδρούν στην αέρια ρύπανση των πόλεων.
Στα πλαίσια της εργασίας, η μελέτη περίπτωσης αφορά στην Πάτρα και τα
ειδησεογραφικά δεδομένα ανακτώνται από την ιστοσελίδα thebest.gr. Τα
αποτελέσματα αφορούν σε μετρήσεις των σωματιδίων PM2.5, καθώς είναι
τα πιο επιβλαβή για την υγεία, και το χρονικό διάστημα 2018 έως 2023.
Abstract
Particulate Matter are small-sized solid or liquid suspensions (e.g. African
dust, smoke from fireplaces, sand from earthworks, etc.) that are dispersed
in the atmosphere. According to the World Health Organization, systematic
exposure to increased concentrations of suspended particles with a diameter
of 1μm, 2.5μm and 10μm has a negative effect on human health. More
specifically, suspended particulates and their entry into the body through
breathing can cause strokes, heart problems, lung cancer and other diseases
related to the heart and respiratory system and are ultimately responsible
for 20% of deaths worldwide.
In this work, we use data mining and data analysis techniques, as well
as natural language processing in order to retrieve events from the news
that may cause increased concentrations of suspended particles. These
data are linked to measurements of special stations that are installed
in urban centers and record the concentrations of suspended particles
at regular intervals. Our aim is to correlate the events with the actual
measurements from the stations and study how they ultimately affect air
pollution in cities. In the framework of the work, the case study concerns
Patras and the news data is retrieved from the website thebest.gr. The
results concern measurements of PM2.5 particles, as they are the most
harmful to health, and the time period between 2018 and 2023.