Detection of predictable temporal changes in multidimensional biological sequences
Φόρτωση...
Ημερομηνία
Συγγραφείς
Τιμονίδης, Νέστωρ
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής
Περίληψη
Τύπος
Είδος δημοσίευσης σε συνέδριο
Είδος περιοδικού
Είδος εκπαιδευτικού υλικού
Όνομα συνεδρίου
Όνομα περιοδικού
Όνομα βιβλίου
Σειρά βιβλίου
Έκδοση βιβλίου
Συμπληρωματικός/δευτερεύων τίτλος
Περιγραφή
This work investigates the predictability of interesting temporal changes between the
various states of a longitudinal microbiome dataset, whilst those changes occur at
time-points subsequent to the analyzed ones. Predictability has been defined as the
generalization performance of an optimal classification system built using a given
dataset and tested with a given measure. The temporal dataset used was a longitudinal
microbiome dataset containing information about the evolution of the relative
abundances of the vaginal microbiome of a number of women. Initially, the analysis
focused on the prediction of double changes in microbial composition (named
as spikes), given the population relative abundances in previous time instances. The
constructed datasets were classified using several methods with accuracy about 70%
for the prediction of spikes.
Next we searched for subsets of the datasets being more predictable than the complete
dataset. A continuous measure describing the amount of temporal change between
consecutive time-points, named spikeness was estimated for all time-points.
The dataset examples were ranked based on spikeness and data subsets were created
containing top-ranked positive and bottom-ranked negative examples. The classification
system used for measuring predictability (called black-box classifier), consisted
of a set of various classification models as well as external model parameters and the
output classification result for each data subset was obtained from the best performing
model. Based on the above ideas, a new automatic way of detecting predictable temporal
changes has been proposed. An approach called rank-based predictability was applied
for estimating the predictability of gradually increasing subsets of the dataset,
which were selected based on the ranking of the examples. The methodology is based
on first transforming the time series into symbolic ones using clustering techniques
and then defining patterns of temporal change using a symbolic representation. Then
a two-class dataset was constructed given a pattern of temporal changes and its prediction
features. As a second step, the rank-based predictability approach was applied
to this dataset, as a way of estimating the predictability of temporal patterns. Patterns
of temporal changes with predictability greater than a user-specified threshold were
considered predictable. The experimental results using four temporal patterns indicated
that all temporal patterns were predictable for subsets having a high coverage
of the positive examples. Moreover, the results indicated that the predictability of the
rank-based subsets was always greater than the average predictability of randomly
selected subsets.
Στην εργασία αυτή μελετάται η δυνατότητα πρόβλεψης μεταβάσεων μεταξύ των διαφόρων καταστάσεων ενός χρονικά εξελισσόμενου μικροβιωματικού συνόλου δε- δομένων. Ως προβλεψιμότητα ενός συνόλου δεδομένων ταξινόμησης ορίζεται η γε- νικευτική ικανότητα ενός βέλτιστου συστήματος ταξινόμησης, κατασκευασμένου με την χρήση του συνόλου δεδομένων και αξιολογούμενου με μία καθορισμένη με- τρική. Στην εργασία αξιοποιήθηκε ένα μικροβιωματικό σύνολο δεδομένων, το οποίο περιείχε πληροφορίες για την εξέλιξη του κολπικού μικροβιώματος ενός πλήθους γυ- ναικών. Η ανάλυση σε αρχική φάση εστίασε στην πρόβλεψη διπλών μεταβολών στην μικροβιωματική σύνθεση (ορισμένες ως spikes), με δεδομένες τις σχετικές αφθονίες των πληθυσμών σε προγενέστερες χρονικές στιγμές. Τα σύνολα δεδομένων που κα- τασκευάστηκαν, ταξινομήθηκαν με τη χρήση πολλαπλών μεθόδων ταξινόμησης με περίπου 70% ακρίβεια στην πρόβλεψη των spikes. Στην συνέχεια ασχοληθήκαμε με τον εντοπισμό υποσυνόλων ενός συνόλου δεδο- μένων, τα οποία ήταν πιο προβλέψιμα από το αρχικό σύνολο δεδομένων. Ορίστηκε μια συνεχής ποσότητα που ονομάστηκε spikeness, η οποία περιγράφει το μέγεθος των χρονικών μεταβολών μεταξύ των διαδοχικών χρονικών στιγμών. Τα παραδείγ- ματα των συνόλων δεδομένων κατατάχθηκαν με βάση το spikeness και δημιουρ- γήθηκαν υποσύνολα δεδομένων τα οποία περιείχαν κορυφαίας-κατάταξης θετικά και τελευταίας-κατάταξης αρνητικά παραδείγματα. Με τον τρόπο αυτό ορίστηκαν υποσύνολα με ανώτερη προβλεψιμότητα σε σχέση με το αρχικό σύνολο. Το σύστημα ταξινόμησης που αξιοποιήθηκε για την μέτρηση της προβλεψιμότητας (ονομάστηκε black-box classifier), απαρτίζονταν από ένα σύνολο διαφόρων μοντέλων ταξινόμη- σης καθώς και εξωτερικών παραμέτρων για τα μοντέλα, ενώ η έξοδος-αποτέλεσμα της ταξινόμησης για κάθε σύνολο δεδομένων λαμβάνονταν από το μοντέλο με την καλύτερη επίδοση. Με βάση τις παραπάνω ιδέες προτάθηκε μια νέα μέθοδος αυτόματου εντοπισμού προβλέψιμων χρονικών μεταβολών. Ορίστηκε καταρχήν μια προσέγγιση με το όνομα rank-based predictability για τον υπολογισμό της προβλεψιμότητας διαδοχικά αυξα- νόμενων υποσυνόλων ενός συνόλου δεδομένων ταξινόμησης, τα οποία επιλέχθηκαν με βάση την κατάταξη των παραδειγμάτων. Η προτεινόμενη γενική μεθοδολογία βα- σίζεται καταρχήν στην διακριτοποίηση των χρονοσειρών σε συμβολικές με την χρήση τεχνικών ομαδοποίησης και έπειτα στον καθορισμό μοτίβων χρονικών μεταβολών με την χρήση μιας συμβολικής αναπαράστασης. Στην συνέχεια, κατασκευάστηκε ένα σύνολο δεδομένων δύο κατηγοριών δοθέντος ενός μοτίβου χρονικών μεταβο- λών και των χαρακτηριστικών για την πρόβλεψη. Σαν δεύτερο βήμα, η προσέγγιση rank-based predictability εφαρμόστηκε στο σύνολο δεδομένων ούτως ώστε να υπο- λογίσει την προβλεψιμότητα των χρονικών μοτίβων. Μοτίβα χρονικών μεταβολών με προβλεψιμότητα μεγαλύτερη από ένα κατώφλι καθορισμένο από τον χρήστη, θε- ωρήθηκαν ως προβλέψιμα. Το πειραματικά αποτελέσματα με την χρήση τεσσάρων χρονικών μοτίβων υπέδειξαν πως όλα τα χρονικά μοτίβα ήταν προβλέψιμα για υπο- σύνολα με υψηλή κάλυψη των θετικών παραδειγμάτων. Επιπλέον, τα αποτελέσματα υπέδειξαν πως η προβλεψιμότητα των βασιζόμενων σε κατάταξη υποσυνόλων ήταν πάντοτε μεγαλύτερη από την μέση προβλεψιμότητα τυχαία επιλεγμένων υποσυνό- λων.
Στην εργασία αυτή μελετάται η δυνατότητα πρόβλεψης μεταβάσεων μεταξύ των διαφόρων καταστάσεων ενός χρονικά εξελισσόμενου μικροβιωματικού συνόλου δε- δομένων. Ως προβλεψιμότητα ενός συνόλου δεδομένων ταξινόμησης ορίζεται η γε- νικευτική ικανότητα ενός βέλτιστου συστήματος ταξινόμησης, κατασκευασμένου με την χρήση του συνόλου δεδομένων και αξιολογούμενου με μία καθορισμένη με- τρική. Στην εργασία αξιοποιήθηκε ένα μικροβιωματικό σύνολο δεδομένων, το οποίο περιείχε πληροφορίες για την εξέλιξη του κολπικού μικροβιώματος ενός πλήθους γυ- ναικών. Η ανάλυση σε αρχική φάση εστίασε στην πρόβλεψη διπλών μεταβολών στην μικροβιωματική σύνθεση (ορισμένες ως spikes), με δεδομένες τις σχετικές αφθονίες των πληθυσμών σε προγενέστερες χρονικές στιγμές. Τα σύνολα δεδομένων που κα- τασκευάστηκαν, ταξινομήθηκαν με τη χρήση πολλαπλών μεθόδων ταξινόμησης με περίπου 70% ακρίβεια στην πρόβλεψη των spikes. Στην συνέχεια ασχοληθήκαμε με τον εντοπισμό υποσυνόλων ενός συνόλου δεδο- μένων, τα οποία ήταν πιο προβλέψιμα από το αρχικό σύνολο δεδομένων. Ορίστηκε μια συνεχής ποσότητα που ονομάστηκε spikeness, η οποία περιγράφει το μέγεθος των χρονικών μεταβολών μεταξύ των διαδοχικών χρονικών στιγμών. Τα παραδείγ- ματα των συνόλων δεδομένων κατατάχθηκαν με βάση το spikeness και δημιουρ- γήθηκαν υποσύνολα δεδομένων τα οποία περιείχαν κορυφαίας-κατάταξης θετικά και τελευταίας-κατάταξης αρνητικά παραδείγματα. Με τον τρόπο αυτό ορίστηκαν υποσύνολα με ανώτερη προβλεψιμότητα σε σχέση με το αρχικό σύνολο. Το σύστημα ταξινόμησης που αξιοποιήθηκε για την μέτρηση της προβλεψιμότητας (ονομάστηκε black-box classifier), απαρτίζονταν από ένα σύνολο διαφόρων μοντέλων ταξινόμη- σης καθώς και εξωτερικών παραμέτρων για τα μοντέλα, ενώ η έξοδος-αποτέλεσμα της ταξινόμησης για κάθε σύνολο δεδομένων λαμβάνονταν από το μοντέλο με την καλύτερη επίδοση. Με βάση τις παραπάνω ιδέες προτάθηκε μια νέα μέθοδος αυτόματου εντοπισμού προβλέψιμων χρονικών μεταβολών. Ορίστηκε καταρχήν μια προσέγγιση με το όνομα rank-based predictability για τον υπολογισμό της προβλεψιμότητας διαδοχικά αυξα- νόμενων υποσυνόλων ενός συνόλου δεδομένων ταξινόμησης, τα οποία επιλέχθηκαν με βάση την κατάταξη των παραδειγμάτων. Η προτεινόμενη γενική μεθοδολογία βα- σίζεται καταρχήν στην διακριτοποίηση των χρονοσειρών σε συμβολικές με την χρήση τεχνικών ομαδοποίησης και έπειτα στον καθορισμό μοτίβων χρονικών μεταβολών με την χρήση μιας συμβολικής αναπαράστασης. Στην συνέχεια, κατασκευάστηκε ένα σύνολο δεδομένων δύο κατηγοριών δοθέντος ενός μοτίβου χρονικών μεταβο- λών και των χαρακτηριστικών για την πρόβλεψη. Σαν δεύτερο βήμα, η προσέγγιση rank-based predictability εφαρμόστηκε στο σύνολο δεδομένων ούτως ώστε να υπο- λογίσει την προβλεψιμότητα των χρονικών μοτίβων. Μοτίβα χρονικών μεταβολών με προβλεψιμότητα μεγαλύτερη από ένα κατώφλι καθορισμένο από τον χρήστη, θε- ωρήθηκαν ως προβλέψιμα. Το πειραματικά αποτελέσματα με την χρήση τεσσάρων χρονικών μοτίβων υπέδειξαν πως όλα τα χρονικά μοτίβα ήταν προβλέψιμα για υπο- σύνολα με υψηλή κάλυψη των θετικών παραδειγμάτων. Επιπλέον, τα αποτελέσματα υπέδειξαν πως η προβλεψιμότητα των βασιζόμενων σε κατάταξη υποσυνόλων ήταν πάντοτε μεγαλύτερη από την μέση προβλεψιμότητα τυχαία επιλεγμένων υποσυνό- λων.
Περιγραφή
Λέξεις-κλειδιά
Μηχανική μάθηση, Χρονικά εξελισσόμενα δεδομένα, Βιολογικές ακολουθίες, Πρόβλεψη χρονικών μεταβολών, Machine learning, Longitudinal data, Biological sequences, Prediction of temporal changes
Θεματική κατηγορία
Machine learning
Παραπομπή
Σύνδεσμος
Γλώσσα
en
Εκδίδον τμήμα/τομέας
Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής
Όνομα επιβλέποντος
Λύκας, Αριστείδης
Εξεταστική επιτροπή
Λύκας, Αριστείδης
Μπλέκας, Κωνσταντίνος
Βλάχος, Κωνσταντίνος
Μπλέκας, Κωνσταντίνος
Βλάχος, Κωνσταντίνος
Γενική Περιγραφή / Σχόλια
Ίδρυμα και Σχολή/Τμήμα του υποβάλλοντος
Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής
Πίνακας περιεχομένων
Χορηγός
Βιβλιογραφική αναφορά
Βιβλιογραφία : σ. 105-108
Ονόματα συντελεστών
Αριθμός σελίδων
108 σ.