Detection of predictable temporal changes in multidimensional biological sequences

Φόρτωση...
Μικρογραφία εικόνας

Ημερομηνία

Συγγραφείς

Τιμονίδης, Νέστωρ

Τίτλος Εφημερίδας

Περιοδικό ISSN

Τίτλος τόμου

Εκδότης

Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής

Περίληψη

Τύπος

Είδος δημοσίευσης σε συνέδριο

Είδος περιοδικού

Είδος εκπαιδευτικού υλικού

Όνομα συνεδρίου

Όνομα περιοδικού

Όνομα βιβλίου

Σειρά βιβλίου

Έκδοση βιβλίου

Συμπληρωματικός/δευτερεύων τίτλος

Περιγραφή

This work investigates the predictability of interesting temporal changes between the various states of a longitudinal microbiome dataset, whilst those changes occur at time-points subsequent to the analyzed ones. Predictability has been defined as the generalization performance of an optimal classification system built using a given dataset and tested with a given measure. The temporal dataset used was a longitudinal microbiome dataset containing information about the evolution of the relative abundances of the vaginal microbiome of a number of women. Initially, the analysis focused on the prediction of double changes in microbial composition (named as spikes), given the population relative abundances in previous time instances. The constructed datasets were classified using several methods with accuracy about 70% for the prediction of spikes. Next we searched for subsets of the datasets being more predictable than the complete dataset. A continuous measure describing the amount of temporal change between consecutive time-points, named spikeness was estimated for all time-points. The dataset examples were ranked based on spikeness and data subsets were created containing top-ranked positive and bottom-ranked negative examples. The classification system used for measuring predictability (called black-box classifier), consisted of a set of various classification models as well as external model parameters and the output classification result for each data subset was obtained from the best performing model. Based on the above ideas, a new automatic way of detecting predictable temporal changes has been proposed. An approach called rank-based predictability was applied for estimating the predictability of gradually increasing subsets of the dataset, which were selected based on the ranking of the examples. The methodology is based on first transforming the time series into symbolic ones using clustering techniques and then defining patterns of temporal change using a symbolic representation. Then a two-class dataset was constructed given a pattern of temporal changes and its prediction features. As a second step, the rank-based predictability approach was applied to this dataset, as a way of estimating the predictability of temporal patterns. Patterns of temporal changes with predictability greater than a user-specified threshold were considered predictable. The experimental results using four temporal patterns indicated that all temporal patterns were predictable for subsets having a high coverage of the positive examples. Moreover, the results indicated that the predictability of the rank-based subsets was always greater than the average predictability of randomly selected subsets.
Στην εργασία αυτή μελετάται η δυνατότητα πρόβλεψης μεταβάσεων μεταξύ των διαφόρων καταστάσεων ενός χρονικά εξελισσόμενου μικροβιωματικού συνόλου δε- δομένων. Ως προβλεψιμότητα ενός συνόλου δεδομένων ταξινόμησης ορίζεται η γε- νικευτική ικανότητα ενός βέλτιστου συστήματος ταξινόμησης, κατασκευασμένου με την χρήση του συνόλου δεδομένων και αξιολογούμενου με μία καθορισμένη με- τρική. Στην εργασία αξιοποιήθηκε ένα μικροβιωματικό σύνολο δεδομένων, το οποίο περιείχε πληροφορίες για την εξέλιξη του κολπικού μικροβιώματος ενός πλήθους γυ- ναικών. Η ανάλυση σε αρχική φάση εστίασε στην πρόβλεψη διπλών μεταβολών στην μικροβιωματική σύνθεση (ορισμένες ως spikes), με δεδομένες τις σχετικές αφθονίες των πληθυσμών σε προγενέστερες χρονικές στιγμές. Τα σύνολα δεδομένων που κα- τασκευάστηκαν, ταξινομήθηκαν με τη χρήση πολλαπλών μεθόδων ταξινόμησης με περίπου 70% ακρίβεια στην πρόβλεψη των spikes. Στην συνέχεια ασχοληθήκαμε με τον εντοπισμό υποσυνόλων ενός συνόλου δεδο- μένων, τα οποία ήταν πιο προβλέψιμα από το αρχικό σύνολο δεδομένων. Ορίστηκε μια συνεχής ποσότητα που ονομάστηκε spikeness, η οποία περιγράφει το μέγεθος των χρονικών μεταβολών μεταξύ των διαδοχικών χρονικών στιγμών. Τα παραδείγ- ματα των συνόλων δεδομένων κατατάχθηκαν με βάση το spikeness και δημιουρ- γήθηκαν υποσύνολα δεδομένων τα οποία περιείχαν κορυφαίας-κατάταξης θετικά και τελευταίας-κατάταξης αρνητικά παραδείγματα. Με τον τρόπο αυτό ορίστηκαν υποσύνολα με ανώτερη προβλεψιμότητα σε σχέση με το αρχικό σύνολο. Το σύστημα ταξινόμησης που αξιοποιήθηκε για την μέτρηση της προβλεψιμότητας (ονομάστηκε black-box classifier), απαρτίζονταν από ένα σύνολο διαφόρων μοντέλων ταξινόμη- σης καθώς και εξωτερικών παραμέτρων για τα μοντέλα, ενώ η έξοδος-αποτέλεσμα της ταξινόμησης για κάθε σύνολο δεδομένων λαμβάνονταν από το μοντέλο με την καλύτερη επίδοση. Με βάση τις παραπάνω ιδέες προτάθηκε μια νέα μέθοδος αυτόματου εντοπισμού προβλέψιμων χρονικών μεταβολών. Ορίστηκε καταρχήν μια προσέγγιση με το όνομα rank-based predictability για τον υπολογισμό της προβλεψιμότητας διαδοχικά αυξα- νόμενων υποσυνόλων ενός συνόλου δεδομένων ταξινόμησης, τα οποία επιλέχθηκαν με βάση την κατάταξη των παραδειγμάτων. Η προτεινόμενη γενική μεθοδολογία βα- σίζεται καταρχήν στην διακριτοποίηση των χρονοσειρών σε συμβολικές με την χρήση τεχνικών ομαδοποίησης και έπειτα στον καθορισμό μοτίβων χρονικών μεταβολών με την χρήση μιας συμβολικής αναπαράστασης. Στην συνέχεια, κατασκευάστηκε ένα σύνολο δεδομένων δύο κατηγοριών δοθέντος ενός μοτίβου χρονικών μεταβο- λών και των χαρακτηριστικών για την πρόβλεψη. Σαν δεύτερο βήμα, η προσέγγιση rank-based predictability εφαρμόστηκε στο σύνολο δεδομένων ούτως ώστε να υπο- λογίσει την προβλεψιμότητα των χρονικών μοτίβων. Μοτίβα χρονικών μεταβολών με προβλεψιμότητα μεγαλύτερη από ένα κατώφλι καθορισμένο από τον χρήστη, θε- ωρήθηκαν ως προβλέψιμα. Το πειραματικά αποτελέσματα με την χρήση τεσσάρων χρονικών μοτίβων υπέδειξαν πως όλα τα χρονικά μοτίβα ήταν προβλέψιμα για υπο- σύνολα με υψηλή κάλυψη των θετικών παραδειγμάτων. Επιπλέον, τα αποτελέσματα υπέδειξαν πως η προβλεψιμότητα των βασιζόμενων σε κατάταξη υποσυνόλων ήταν πάντοτε μεγαλύτερη από την μέση προβλεψιμότητα τυχαία επιλεγμένων υποσυνό- λων.

Περιγραφή

Λέξεις-κλειδιά

Μηχανική μάθηση, Χρονικά εξελισσόμενα δεδομένα, Βιολογικές ακολουθίες, Πρόβλεψη χρονικών μεταβολών, Machine learning, Longitudinal data, Biological sequences, Prediction of temporal changes

Θεματική κατηγορία

Machine learning

Παραπομπή

Σύνδεσμος

Γλώσσα

en

Εκδίδον τμήμα/τομέας

Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής

Όνομα επιβλέποντος

Λύκας, Αριστείδης

Εξεταστική επιτροπή

Λύκας, Αριστείδης
Μπλέκας, Κωνσταντίνος
Βλάχος, Κωνσταντίνος

Γενική Περιγραφή / Σχόλια

Ίδρυμα και Σχολή/Τμήμα του υποβάλλοντος

Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής

Πίνακας περιεχομένων

Χορηγός

Βιβλιογραφική αναφορά

Βιβλιογραφία : σ. 105-108

Ονόματα συντελεστών

Αριθμός σελίδων

108 σ.

Λεπτομέρειες μαθήματος

item.page.endorsement

item.page.review

item.page.supplemented

item.page.referenced