Robust incremental hidden conditional random fields for action recognition
Φόρτωση...
Ημερομηνία
Συγγραφείς
Μάστορα, Ερμιόνη
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής
Περίληψη
Τύπος
Είδος δημοσίευσης σε συνέδριο
Είδος περιοδικού
Είδος εκπαιδευτικού υλικού
Όνομα συνεδρίου
Όνομα περιοδικού
Όνομα βιβλίου
Σειρά βιβλίου
Έκδοση βιβλίου
Συμπληρωματικός/δευτερεύων τίτλος
Περιγραφή
Human action recognition is a challenging topic of computer vision research and
continues to receive a keen interest due to the variety of applications that can be used.
The creation of a supervised system able to understand and automatically recognize
low-level actions and high-level activities is the core problem that these applications
attempt to solve. A promising probabilistic graphical model that has been recently
proposed for the recognition task is Hidden Conditional Random Fields (HCRF).
However, the number of hidden variables that the model incorporates remains a
severe limitation of the HCRF due to the fact that the user is asked to make an
advance and intuitive assumption for this parameter.
In this thesis, we address this limitation by proposing a new model, called Robust
Incremental Hidden Conditional Random Fields (RI-HCRF), which estimates the
number of hidden states incrementally. Multiple Hidden Markov Models (HMM) are
created whose parameters are defined by the potentials of the original HCRF graph.
Starting from a small number of hidden states and increasing their number incrementally,
the Viterbi path is computed for each HMM. The method seeks for a sequence
of hidden states, where each variable participates in a maximum number of optimal
paths. Therefore, variables with low participation in optimal paths are rejected. In
addition, a robust mixture of Student’s t-distributions is imposed as a regularizer to
the parameters of the model.
The proposed method is tested in six publicly available datasets using different
feature representations. The a priori knowledge of the optimal number of hidden variables and the t-distributed parameters lead to a more robust estimation framework
for the classification task. The experiment results show that RI-HCRF estimates
successfully the number of hidden states and outperforms all state-of-the-art models
that were used as baseline.
Το πρόβλημα της αναγνώρισης ανθρώπινης κίνησης παραμένει μια μεγάλη πρό- κληση και αποτελεί ένα αρκετά ενεργό θέμα έρευνας για το πεδίο της μηχανι- κής όρασης. Η οπτική ανάλυση του περιεχομένου των εικονοσειρών κεντρίζει το ενδιαφέρον πολλών ερευνητών καθώς διαθέτει ένα μεγάλο εύρος εφαρμογών. Οι εφαρμογές αυτές περιλλαμβάνουν: συστήματα παρακολούθησης και καταγραφής εικόνας, ανάλυση αθλητικών βίντεο, συστήματα υγειονομικής περίθαλψης, αλληλε- πίδραση ανθρώπου-ρομπότ είτε ανθρώπου-υπολογιστή και πολλές ακόμη. Ο στόχος τους είναι η δημιουργία ενός συστήματος το οποίο είναι σε θέση να κατανοεί και αναγνωρίζει αυτόματα ενέργειες χαμηλού επιπέδου καθώς και υψηλού επιπέδου δραστηριότητες. Ωστόσο, η αναγνώριση πολύπλοκων ανθρώπινων δραστηριοτήτων στον πραγματικό κόσμο είναι μία δύσκολη διαδικασία λόγω της ομοιότητας κά- ποιων κινήσεων, των μεταβολών στο φόντο, της φωτεινότητα, της κλίμακα είτε της μερικής εμφάνισης των εικονιζόμενων ατόμων. Το πλήθος και η διάσταση των εικονοσειρών που είναι πλέον διαθέσιμα τα τε- λευταία χρόνια είναι αρκετά μεγάλα και η περιληπτική αναπαράσταση τους είναι πλέον απαραίτητη. Συνεπώς, οι εικονοσειρές θεωρούνται ως μία συλλογή από το- πικά χωροχρονικά χαρακτηριστικά. Διαχρονικά έχουν προταθεί πολλά μοντέλα για την αναγνώριση κίνησης αλλά πρόσφατα η έρευνα έχει στραφεί στην χρήση και τη δημιουργία νέων γραφικών μοντέλων. Τα κρυφά υπό συνθήκη τυχαία πεδία απο- τελούν ένα πιθανοτικό μοντέλο όπου οι εξαρτήσεις μεταξύ των χωροχρονικών χα- ρακτηριστικών μπορούν να αποτυπωθούν και να αναπαρασταθούν υπό την μορφή ενός γράφου. Το μοντέλο αυτό έχει επιτύχει μεγάλη αύξηση στο ποσοστό επιτυχίας πολλών συνόλων δεδομένων σε σχέση με παλιότερα μοντέλα όμως, έχει ένα βασικό μειονέκτημα. Ο καθορισμός του αριθμού των κρυμμένων καταστάσεων, όπου το μοντέλο περιλαμβάνει, είναι μία παράμετρος και ζητείται από τον χρήστη να την καθορίσει συνήθως ενστικτωδώς εκ των προτέρων. Στόχος αυτής της εργασίας είναι η εξάλειψη αυτού του μειονεκτήματος προτεί- νοντας ένα νέο μοντέλο, που ονομάζεται εύρωστα, αυξητικά, κρυφά, στοχαστικά υπό συνθήκη πεδία, η οποία προσθέτει στα κρυφά υπό συνθήκη πεδία μία αυξητική μέθοδο για την εκτίμηση του αριθμού των κρυμμένων καταστάσεων του μοντέλου. Για τον καθορισμό των κρυμμένων καταστάσεων δημιουργούνται πολλαπλά κρυμ- μένα Μαρκοβιανά μοντέλα όπου οι παράμετροι τους ορίζονται χρησιμοποιώντας τις συναρτήσεις του γραφήματος των κρυφών υπό συνθήκη πεδίων. Ξεκινώντας από ένα μικρό αριθμό κρυφών καταστάσεων και αυξάνοντας τον αριθμό τους σταδιακά, το βέλτιστο μονοπάτι (Viterbi) υπολογίζεται για κάθε Μαρκοβιανό μοντέλο. Η μέθο- δος επιδιώκει μια αλληλουχία των κρυφών καταστάσεων, όπου κάθε κατάσταση συμμετέχει σε μεγάλο πλήθος βέλτιστων μονοπατιών. Ως εκ τούτου, οι καταστά- σεις με χαμηλή συμμετοχή στα βέλτιστα μονοπάτια απορρίπτονται. Επιπλέον, η εύρωστη μεικτή κατανομή Student t προστίθεται στο μοντέλο ως την κατανομή που ακολουθούν οι παράμετροι του. Η απόδοση της προτεινόμενης μεθόδου έχει εκτιμηθεί σε έξι σύνολα δεδομένων όπου για κάθε σύνολο χρησιμοποιήθηκαν διαφορετικά χωροχρονικά χαρακτηριστικά για την αναπαράστασή τους. Η προτεινόμενη μέθοδος εξετάζεται στην αναγνώριση χειρονομιών, κινήσεων, δραστηριοτήτων, εκδηλώσεων και κατηγοριών συμπεριφο- ράς. Ως αποτέλεσμα, συμπαιραίνουμε πως η εκ των προτέρων γνώση του βέλτιστου αριθμού των κρυμμένων καταστάσεων και οι Student t κατανεμημένες παράμετροι οδήγησαν σε ένα πιο εύρωστο μοντέλο ταξινόμησης. Τα αποτελέσματα των πει- ραμάτων δείχνουν ότι το μοντέλο μας προσδιορίζει με επιτυχία τον αριθμό των κρυμμένων καταστάσεων και ξεπερνά την απόδοση όλων των μοντέλων που χρησι- μοποιήθηκαν για σύγκριση.
Το πρόβλημα της αναγνώρισης ανθρώπινης κίνησης παραμένει μια μεγάλη πρό- κληση και αποτελεί ένα αρκετά ενεργό θέμα έρευνας για το πεδίο της μηχανι- κής όρασης. Η οπτική ανάλυση του περιεχομένου των εικονοσειρών κεντρίζει το ενδιαφέρον πολλών ερευνητών καθώς διαθέτει ένα μεγάλο εύρος εφαρμογών. Οι εφαρμογές αυτές περιλλαμβάνουν: συστήματα παρακολούθησης και καταγραφής εικόνας, ανάλυση αθλητικών βίντεο, συστήματα υγειονομικής περίθαλψης, αλληλε- πίδραση ανθρώπου-ρομπότ είτε ανθρώπου-υπολογιστή και πολλές ακόμη. Ο στόχος τους είναι η δημιουργία ενός συστήματος το οποίο είναι σε θέση να κατανοεί και αναγνωρίζει αυτόματα ενέργειες χαμηλού επιπέδου καθώς και υψηλού επιπέδου δραστηριότητες. Ωστόσο, η αναγνώριση πολύπλοκων ανθρώπινων δραστηριοτήτων στον πραγματικό κόσμο είναι μία δύσκολη διαδικασία λόγω της ομοιότητας κά- ποιων κινήσεων, των μεταβολών στο φόντο, της φωτεινότητα, της κλίμακα είτε της μερικής εμφάνισης των εικονιζόμενων ατόμων. Το πλήθος και η διάσταση των εικονοσειρών που είναι πλέον διαθέσιμα τα τε- λευταία χρόνια είναι αρκετά μεγάλα και η περιληπτική αναπαράσταση τους είναι πλέον απαραίτητη. Συνεπώς, οι εικονοσειρές θεωρούνται ως μία συλλογή από το- πικά χωροχρονικά χαρακτηριστικά. Διαχρονικά έχουν προταθεί πολλά μοντέλα για την αναγνώριση κίνησης αλλά πρόσφατα η έρευνα έχει στραφεί στην χρήση και τη δημιουργία νέων γραφικών μοντέλων. Τα κρυφά υπό συνθήκη τυχαία πεδία απο- τελούν ένα πιθανοτικό μοντέλο όπου οι εξαρτήσεις μεταξύ των χωροχρονικών χα- ρακτηριστικών μπορούν να αποτυπωθούν και να αναπαρασταθούν υπό την μορφή ενός γράφου. Το μοντέλο αυτό έχει επιτύχει μεγάλη αύξηση στο ποσοστό επιτυχίας πολλών συνόλων δεδομένων σε σχέση με παλιότερα μοντέλα όμως, έχει ένα βασικό μειονέκτημα. Ο καθορισμός του αριθμού των κρυμμένων καταστάσεων, όπου το μοντέλο περιλαμβάνει, είναι μία παράμετρος και ζητείται από τον χρήστη να την καθορίσει συνήθως ενστικτωδώς εκ των προτέρων. Στόχος αυτής της εργασίας είναι η εξάλειψη αυτού του μειονεκτήματος προτεί- νοντας ένα νέο μοντέλο, που ονομάζεται εύρωστα, αυξητικά, κρυφά, στοχαστικά υπό συνθήκη πεδία, η οποία προσθέτει στα κρυφά υπό συνθήκη πεδία μία αυξητική μέθοδο για την εκτίμηση του αριθμού των κρυμμένων καταστάσεων του μοντέλου. Για τον καθορισμό των κρυμμένων καταστάσεων δημιουργούνται πολλαπλά κρυμ- μένα Μαρκοβιανά μοντέλα όπου οι παράμετροι τους ορίζονται χρησιμοποιώντας τις συναρτήσεις του γραφήματος των κρυφών υπό συνθήκη πεδίων. Ξεκινώντας από ένα μικρό αριθμό κρυφών καταστάσεων και αυξάνοντας τον αριθμό τους σταδιακά, το βέλτιστο μονοπάτι (Viterbi) υπολογίζεται για κάθε Μαρκοβιανό μοντέλο. Η μέθο- δος επιδιώκει μια αλληλουχία των κρυφών καταστάσεων, όπου κάθε κατάσταση συμμετέχει σε μεγάλο πλήθος βέλτιστων μονοπατιών. Ως εκ τούτου, οι καταστά- σεις με χαμηλή συμμετοχή στα βέλτιστα μονοπάτια απορρίπτονται. Επιπλέον, η εύρωστη μεικτή κατανομή Student t προστίθεται στο μοντέλο ως την κατανομή που ακολουθούν οι παράμετροι του. Η απόδοση της προτεινόμενης μεθόδου έχει εκτιμηθεί σε έξι σύνολα δεδομένων όπου για κάθε σύνολο χρησιμοποιήθηκαν διαφορετικά χωροχρονικά χαρακτηριστικά για την αναπαράστασή τους. Η προτεινόμενη μέθοδος εξετάζεται στην αναγνώριση χειρονομιών, κινήσεων, δραστηριοτήτων, εκδηλώσεων και κατηγοριών συμπεριφο- ράς. Ως αποτέλεσμα, συμπαιραίνουμε πως η εκ των προτέρων γνώση του βέλτιστου αριθμού των κρυμμένων καταστάσεων και οι Student t κατανεμημένες παράμετροι οδήγησαν σε ένα πιο εύρωστο μοντέλο ταξινόμησης. Τα αποτελέσματα των πει- ραμάτων δείχνουν ότι το μοντέλο μας προσδιορίζει με επιτυχία τον αριθμό των κρυμμένων καταστάσεων και ξεπερνά την απόδοση όλων των μοντέλων που χρησι- μοποιήθηκαν για σύγκριση.
Περιγραφή
Λέξεις-κλειδιά
Αναγνώριση δραστηριότητας, Κρυφά υπό συνθήκη πεδία, Γραφικό μοντέλο, Action recognition, Hidden conditional random fields, Graphical model
Θεματική κατηγορία
Action recognition
Παραπομπή
Σύνδεσμος
Γλώσσα
en
Εκδίδον τμήμα/τομέας
Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής
Όνομα επιβλέποντος
Νίκου, Χριστόφορος
Εξεταστική επιτροπή
Νίκου, Χριστόφορος
Λύκας, Αριστείδης
Μπλέκας, Κωνσταντίνος
Λύκας, Αριστείδης
Μπλέκας, Κωνσταντίνος
Γενική Περιγραφή / Σχόλια
Ίδρυμα και Σχολή/Τμήμα του υποβάλλοντος
Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής
Πίνακας περιεχομένων
Χορηγός
Βιβλιογραφική αναφορά
Βιβλιογράφία : σ. 67-75
Ονόματα συντελεστών
Αριθμός σελίδων
75 σ.