A study of incremental checkpointing in distributed stream processing systems
Φόρτωση...
Ημερομηνία
Συγγραφείς
Chronarakis, Aristidis
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής
Περίληψη
Τύπος
Είδος δημοσίευσης σε συνέδριο
Είδος περιοδικού
Είδος εκπαιδευτικού υλικού
Όνομα συνεδρίου
Όνομα περιοδικού
Όνομα βιβλίου
Σειρά βιβλίου
Έκδοση βιβλίου
Συμπληρωματικός/δευτερεύων τίτλος
Περιγραφή
Cost-efficient fault-tolerance approaches for distributed stream processing systems rely
on state checkpointing to recover continuous queries featuring stateful operators after
a crash. Incremental checkpointing reduces the overhead of state checkpointing by
continuously logging state updates in an incremental fashion. This thesis conducts
an experimental study of incremental checkpointing in a distributed stream processing
system, focusing on the performance and recovery-time characteristics as well as
tradeoffs in this approach. The experimental analysis is supported by load-generating
tools and benchmarks featuring stateful operators such as aggregate and join, developed
in the context of this thesis. Experimental results validate the low overhead of
incremental checkpointing and expose a recovery-time vs. compaction-cost tradeoff
that allows tuning the system to the desired performance-availability operating point.
Τα συστήματα επεξεργασίας ροών δεδομένων βασίζονται σε τελεστές οι οποίοι υπολογίζουν ενδιάμεσα αποτελέσματα ενός μεγαλύτερου υπολογισμού. Καθώς τα ενδιάμεσα αποτελέσματα μπορεί να συσσωρεύονται επί μεγάλα χρονικά διαστή- ματα, τα συστήματα επεξεργασίας ροών δεδομένων πρέπει να προσφέρουν ανοχή σε σφάλματα και ανάκαμψη της αποθηκευμένες κατάστασης. Οικονομικά αποδοτι- κές προσεγγίσεις ανοχής σε σφάλματα σε συστήματα επεξεργασίας ροών δεδομένων βασίζονται στην δημιουργία σημείων ελέγχου της κατάστασης του συνόλου των τελε- στών που υλοποιούν την συνεχή επεξεργασία των δεδομένων. Μια κλασική τεχνική βασίζεται στην ιδέα της περιοδικής καταγραφής όλης της κατάστασης των τελεστών, η οποία όμως δεν ενδείκνυται σε περιπτώσεις που πρέπει να καταγράψουμε με- γάλο όγκο κατάστασης. Εναλλακτικά μια τεχνική που έχει προταθεί βασίζεται στη περιοδική δημιούργια σημείων ελέγχου που περιέχουν μόνο τις διαφορές σε σχέση με το προηγούμενο σημείο ελέγχου, με την προϋπόθεση ότι ο σχηματισμός της κα- τάστασης του συνόλου των τελεστών χρειάζεται το συνδυασμο επιμέρους σημείων ελέγχου. Μια τρίτη τεχνική βασίζεται στη προοδευτική παραγωγή σημείων ελέγχου με συνεχή καταγραφή των αλλαγών κατάστασης. Η τεχνική αυτή έχει αποδειχθεί ότι μπορεί να μειώσει την επιβάρυνση στην απόδοση κατά τη διαδικασία παραγω- γής τους. Η παρούσα διπλωματική εργασία διεξάγει μια πειραματική μελέτη της προοδευτικής παραγωγής σημείων ελέγχου στο κατανεμημένο σύστημα επεξεργα- σίας ροών δεδομένων Apache Samza το οποίο κάνει χρήση ενός τοπικού και ενός απομακρυσμένου μέσου για την αποθήκευση της κατάστασης του συνόλου των τελεστών. Μάλιστα εστιάζουμε στα χαρακτηριστικά απόδοσης σχετικά με το τοπικό μέσο αλλα και στο χρόνο ανάκτησης απο το το απομακρυσμένο μέσο σε περιπτώ- σεις που το τοπικό μέσο δεν είναι διαθέσιμο. Για να υποστηριχθεί η πειραματική μελέτη αναπτύχθηκαν εργαλεία παραγωγής συνθετικού φόρτου και τυπικές εφαρ- μογές βασισμένες σε βασικούς τελεστές συσσώρευσης κατάστασης όπως οι aggregate και join. Τα πειραματικά αποτελέσματα υποδεικνύουν χαμηλή επιβάρυνση των προοδευτικών σημείων ελέγχου στην απόδοση του συστήματος και αναδεικνύουν την σχέση μεταξύ του κόστους συμπίεσης της δομής των σημείων ελέγχου και του χρόνου ανάκαμψης, η οποία επιτρέπει ρύθμιση του συστήματος στο επιθυμητό ση- μείο λειτουργίας-απόδοσης. Η παρούσα διπλωματική εργασία συγκρίνει θεωρητικά την προσέγγιση που υλοποιεί το Apache Samza με μια προγενέστερη προσέγγιση προοδευτικής παραγωγής σημείων ελέγχου, την continuous eventual checkpointing (CEC), αναδεικνύοντας τις ομοιότητες και διαφορές των δύο προσεγγίσεων. Τέλος στα πλαίσια μελλοντικής δουλείας προτείνονται σε θεωρητικό επίπεδο δύο υλοποι- ήσεις με την πρώτη να έχει να κάνει με έναν πράκτορα ο οποίος θα βελτιστοποιεί τη λειτουργία της συμπίεσης με βάση περιορισμούς του χρήστη όσον αφορά είτε το επιθυμητό μέγεθος της δομής των σημείων ελέγχου είτε τους επιθυμητούς υπολο- γιστικούς πόρους που είναι διατεθειμένος να διαθέσει για τη συμπίεση. Η δεύτερη προτεινόμενη υλοποίηση έχει να κάνει με την παροχή εγγυήσεων για την επεξεργα- σία των δεδομένων ακριβώς μια φορά (exactly once) στο Apache Samza κατά την ανάκαμψη από σφάλματα.
Τα συστήματα επεξεργασίας ροών δεδομένων βασίζονται σε τελεστές οι οποίοι υπολογίζουν ενδιάμεσα αποτελέσματα ενός μεγαλύτερου υπολογισμού. Καθώς τα ενδιάμεσα αποτελέσματα μπορεί να συσσωρεύονται επί μεγάλα χρονικά διαστή- ματα, τα συστήματα επεξεργασίας ροών δεδομένων πρέπει να προσφέρουν ανοχή σε σφάλματα και ανάκαμψη της αποθηκευμένες κατάστασης. Οικονομικά αποδοτι- κές προσεγγίσεις ανοχής σε σφάλματα σε συστήματα επεξεργασίας ροών δεδομένων βασίζονται στην δημιουργία σημείων ελέγχου της κατάστασης του συνόλου των τελε- στών που υλοποιούν την συνεχή επεξεργασία των δεδομένων. Μια κλασική τεχνική βασίζεται στην ιδέα της περιοδικής καταγραφής όλης της κατάστασης των τελεστών, η οποία όμως δεν ενδείκνυται σε περιπτώσεις που πρέπει να καταγράψουμε με- γάλο όγκο κατάστασης. Εναλλακτικά μια τεχνική που έχει προταθεί βασίζεται στη περιοδική δημιούργια σημείων ελέγχου που περιέχουν μόνο τις διαφορές σε σχέση με το προηγούμενο σημείο ελέγχου, με την προϋπόθεση ότι ο σχηματισμός της κα- τάστασης του συνόλου των τελεστών χρειάζεται το συνδυασμο επιμέρους σημείων ελέγχου. Μια τρίτη τεχνική βασίζεται στη προοδευτική παραγωγή σημείων ελέγχου με συνεχή καταγραφή των αλλαγών κατάστασης. Η τεχνική αυτή έχει αποδειχθεί ότι μπορεί να μειώσει την επιβάρυνση στην απόδοση κατά τη διαδικασία παραγω- γής τους. Η παρούσα διπλωματική εργασία διεξάγει μια πειραματική μελέτη της προοδευτικής παραγωγής σημείων ελέγχου στο κατανεμημένο σύστημα επεξεργα- σίας ροών δεδομένων Apache Samza το οποίο κάνει χρήση ενός τοπικού και ενός απομακρυσμένου μέσου για την αποθήκευση της κατάστασης του συνόλου των τελεστών. Μάλιστα εστιάζουμε στα χαρακτηριστικά απόδοσης σχετικά με το τοπικό μέσο αλλα και στο χρόνο ανάκτησης απο το το απομακρυσμένο μέσο σε περιπτώ- σεις που το τοπικό μέσο δεν είναι διαθέσιμο. Για να υποστηριχθεί η πειραματική μελέτη αναπτύχθηκαν εργαλεία παραγωγής συνθετικού φόρτου και τυπικές εφαρ- μογές βασισμένες σε βασικούς τελεστές συσσώρευσης κατάστασης όπως οι aggregate και join. Τα πειραματικά αποτελέσματα υποδεικνύουν χαμηλή επιβάρυνση των προοδευτικών σημείων ελέγχου στην απόδοση του συστήματος και αναδεικνύουν την σχέση μεταξύ του κόστους συμπίεσης της δομής των σημείων ελέγχου και του χρόνου ανάκαμψης, η οποία επιτρέπει ρύθμιση του συστήματος στο επιθυμητό ση- μείο λειτουργίας-απόδοσης. Η παρούσα διπλωματική εργασία συγκρίνει θεωρητικά την προσέγγιση που υλοποιεί το Apache Samza με μια προγενέστερη προσέγγιση προοδευτικής παραγωγής σημείων ελέγχου, την continuous eventual checkpointing (CEC), αναδεικνύοντας τις ομοιότητες και διαφορές των δύο προσεγγίσεων. Τέλος στα πλαίσια μελλοντικής δουλείας προτείνονται σε θεωρητικό επίπεδο δύο υλοποι- ήσεις με την πρώτη να έχει να κάνει με έναν πράκτορα ο οποίος θα βελτιστοποιεί τη λειτουργία της συμπίεσης με βάση περιορισμούς του χρήστη όσον αφορά είτε το επιθυμητό μέγεθος της δομής των σημείων ελέγχου είτε τους επιθυμητούς υπολο- γιστικούς πόρους που είναι διατεθειμένος να διαθέσει για τη συμπίεση. Η δεύτερη προτεινόμενη υλοποίηση έχει να κάνει με την παροχή εγγυήσεων για την επεξεργα- σία των δεδομένων ακριβώς μια φορά (exactly once) στο Apache Samza κατά την ανάκαμψη από σφάλματα.
Περιγραφή
Λέξεις-κλειδιά
Distributed data stream processing, Checkpointing, High availability, Κατανεμημένη επεξεργασία ροών δεδομένων, Παραγωγή σημείων ελέγχου, Υψηλή διαθεσιμότητα
Θεματική κατηγορία
Data processing
Παραπομπή
Σύνδεσμος
Γλώσσα
en
Εκδίδον τμήμα/τομέας
Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής
Όνομα επιβλέποντος
Μαγκούτης, Κωνσταντίνος
Εξεταστική επιτροπή
Δημακόπουλος, Βασίλειος
Μαγκούτης, Κωνσταντίνος
Πιτουρά, Ευαγγελία
Μαγκούτης, Κωνσταντίνος
Πιτουρά, Ευαγγελία
Γενική Περιγραφή / Σχόλια
Ίδρυμα και Σχολή/Τμήμα του υποβάλλοντος
Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής
Πίνακας περιεχομένων
Χορηγός
Βιβλιογραφική αναφορά
Βιβλιογραφία: σ. 44-46
Ονόματα συντελεστών
Αριθμός σελίδων
57 σ.
Λεπτομέρειες μαθήματος
item.page.endorsement
item.page.review
item.page.supplemented
item.page.referenced
Άδεια Creative Commons
Άδεια χρήσης της εγγραφής: Attribution-NonCommercial-NoDerivs 3.0 United States