Human activity recognition using conditional random fields and privileged information
Φόρτωση...
Ημερομηνία
Συγγραφείς
Βρίγκας, Μιχαήλ
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής
Περίληψη
Τύπος
Είδος δημοσίευσης σε συνέδριο
Είδος περιοδικού
Είδος εκπαιδευτικού υλικού
Όνομα συνεδρίου
Όνομα περιοδικού
Όνομα βιβλίου
Σειρά βιβλίου
Έκδοση βιβλίου
Συμπληρωματικός/δευτερεύων τίτλος
Περιγραφή
Recognizing human activities from video sequences or still images is a challenging
task due to problems such as background clutter, partial occlusion, changes in scale,
viewpoint, lighting, and appearance. Many applications, including video surveillance
systems, human-computer interaction, and robotics for human behavior characterization,
require a multiple activity recognition system.
In the first part of this thesis, after a review of the state-of-the-art methods, a learningbased
framework for action representation and recognition relying on time series of optical
flow motion features is presented. In the learning step, the motion curves representing
each action are clustered using Gaussian mixture modeling (GMM). In the recognition
step, the optical flow curves of a probe sequence are also clustered using a GMM, then
each probe sequence is projected onto the training space and the probe curves are matched
to the learned curves using a non-metric similarity function based on the longest common
subsequence, which is robust to noise and provides an intuitive notion of similarity between
curves.
Next, a human behavior recognition method with an application to political speech
videos is presented. The behavior of a subject is modeled using a conditional random
field (CRF). To evaluate the performance of the model, a novel behavior dataset is introduced,
which includes low resolution video sequences depicting different people speaking
in the Greek parliament. The subjects of the Parliament dataset are labeled as friendly,
aggressive or neutral depending on the intensity of their political speech.
An extension of the aforementioned human behavior recognition method using multimodal
features is also presented. Individual and social behaviors of a subject are modeled
using a hidden conditional random field (HCRF). Each video is represented by a vector of
spatio-temporal visual features along with audio features. To remove irrelevant features
a feature pruning method based on the spatio-temporal neighborhood of each feature in
a video sequence is presented. The proposed framework assumes that human movements
are highly correlated with sound emissions and canonical correlation analysis is employed to find relationship between the audio and video features prior to fusion.
Besides the classical learning frameworks, a novel method based on the learning using
privileged information (LUPI) paradigm for recognizing complex human activities
is proposed that handles missing information during testing. A supervised probabilistic
approach that integrates LUPI into an HCRF model is presented. The proposed model
employs a self-training technique for automatic estimation of the regularization parameters
of the objective function. Moreover, the method provides robustness to outliers
by modeling the conditional distribution of the privileged information by a Student’s
t-density function. Different forms of additional information were investigated.
In many human activity recognition systems the size of the unlabeled training data
may be significantly large due to expensive human effort required for data annotation.
Moreover, the insufficient data collection process from heterogenous sources may cause
dissimilarities between training and testing data. To address these limitations, a novel
probabilistic approach that combines LUPI and active learning is proposed. A pool-based
privileged active learning approach is presented for semi-supervising learning of human
activities from multimodal labeled and unlabeled data.
In the last part of this dissertation, the LUPI paradigm is also investigated for solving
biometric applications such as facial expression recognition. As facial image sequences
may contain information for heterogeneous sources, facial data may be asymmetrically distributed
between training and testing, as it may be difficult to maintain the same quality
and quantity of information. To this end, a novel probabilistic classification method that
combined the LUPI framework and conditional random fields is proposed to indirectly
propagate knowledge from privileged to regular feature space. Each feature space owns
specific parameter settings, which are combined together through a Gaussian prior, to
train the proposed t-CRF+ model and allow the different tasks to share parameters and
improve classification performance.
Το πρόβλημα της αναγνώρισης και του εντοπισμού της ανθρώπινης δραστηριότητας α πό εικονοσειρές και απλές εικόνες, είναι μία δύσκολη διαδικασία, λόγω προβλημάτων όπως ύπαρξη θορύβου στα δεδομένα, αλλαγές στην κλίμακα, την φωτεινότητα και την εμφάνιση. Πολλές εφαρμογές παρακολούθησης εικονοσειρών, αλληλεπίδρασης ανθρώπου-υπολογιστή και διάφορα ρομποτικά συστήματα, απαιτούν αλγορίθμους για την αναγνώριση της ανθρώπι νης δραστηριότητας. Στο πρώτο μέρος της διατριβής, και ύστερα από μια λεπτομερή και διεξοδική ανάλυση των μεθοδολογιών αναγνώρισης της ανθρώπινης δραστηριότητας, περιγράφεται μια μέθοδος βασισμένη στην σύγκριση τροχιών για αναγνώριση της ανθρώπινης δραστηριότητας. Η μέ θοδος βασίζεται στην περιγραφή μιας ανθρώπινης δράσης από χρονοσειρές βασισμένες στην οπτική ροή. Αρχικά, στο βήμα εκπαίδευσης, οι καμπύλες κίνησης που αναπαριστούν μια δράση ομαδοποιούνται από μία μικτή κανονική κατανομή. Στη φάση της αναγνώρισης, οι καμπύλες κίνησης μιας καινούριας εικονοσειράς ομαδοποιούνται επίσης με μία μικτή κανονική κατανομή και το υπό κατηγοριοποίηση μοντέλο συγκρίνεται με όλα τα μοντέλα της βάσης εκπαίδευσης χρησιμοποιώντας ένα μέτρο ομοιότητας που βασίζεται στη μεγαλύτερη κοινή υπακολουθία μεταξύ των μέσων καμπυλών των μικτών κατανομών. Στη συνέχεια, παρουσιάζεται μια μέθοδος για την αναγνώριση της ανθρώπινης συμπερι φοράς σε πολιτικές ομιλίες. Η συμπεριφορά ενός ατόμου μοντελοποιείται χρησιμοποιώντας υπό συνθήκη τυχαία πεδία.Για την αξιολόγηση της απόδοσης του μοντέλου, δημιουργήθηκε ένα καινούριο σύνολο δεδομένων το οποίο αποτελείται από ομιλίες βουλευτών της ελληνικής βουλής και σε κάθε υποκείμενο ανατίθεται μία από τρεις κατηγορίες συμπεριφοράς, όπως φιλικός, επιθετικός και ουδέτερος. Έπειτα, παρουσιάζεται μια επέκταση της προαναφερθείσας μεθόδου, χρησιμοποιώντας δεδομένα από πολλαπλές πηγές. Η συμπεριφορά ενός ατόμου αναπαριστάται εισάγοντας ένα επίπεδο κρυμμένων καταστάσεων για την μοντελοποίηση των κρυμμένων δυναμικών του προβλήματος της αναγνώρισης. Επίσης, κάθε εικονοσειρά αναπαριστάται ταυτόχρονα με οπτικά χαρακτηριστικά και με χαρακτηριστικά ήχου. Για την απομάκρυνση περιττών χαρακτηριστικών που εμφανίζονται κυρίως λόγω θορύβου σε κάθε εικονοπλαίσιο, προτείνεται μια μέθοδος για την μείωση του αριθμού τους βασισμένη στην χωρική και χρονική γειτνίαση των σημείων αυτών. Για τον αυτόματο συγχρονισμό και την συγχώνευση των οπτικών και ηχητικών σημάτων χρησιμοποιήθηκε η μέθοδος της ανάλυσης κανονικής συσχέτισης. Τα περισσότερα μοντέλα ταξινόμησης δεν λαμβάνουν υπόψη τους την ανισορροπία που υπάρχει στην δομή των δεδομένων για εκπαίδευση και έλεγχο. Για το λόγο αυτό, προτείνεται ένα μοντέλο, το οποίο χρησιμοποιεί επιπλέον δεδομένα (προνομιακή πληροφορία) μόνο στην φάση της εκπαίδευσης, ενώ στην φάση του ελέγχου αυτή η πληροφορία δεν είναι διαθέσιμη. Η προτεινόμενη μέθοδος είναι βασισμένη στην εκπαίδευση με χρήση προνομιακής πληροφο ρίας και είναι ανθεκτική σε δεδομένα τα οποία δεν ακολουθούν το κυρίαρχο μοντέλο, όπως θόρυβος ή ελλιπή δεδομένα, μοντελοποιώντας την υπό συνθήκη κατανομή της προνομιακής πληροφορίας χρησιμοποιώντας την κατανομή Student's-t . Η συγκεκριμένη προσέγγιση είναι γενική και δεν περιορίζεται στην χρήση μόνο ενός είδους προνομιακής πληροφορίας. Επίσης, προτείνεται μία μέθοδος για αυτόματη εκτίμηση της τιμής των παραμέτρων ομαλοποίησης μέσα από μια διαδικασία αυτοεκπαίδευσης από το σύνολο δεδομένων. Σε πολλά συστήματα αναγνώρισης ανθρώπινης δραστηριότητας το μέγεθος των μη επι- σημασμένων δεδομένων εκπαίδευσης μπορεί να είναι σημαντικά μεγάλο, κυρίως λόγω της επίπονης και χρονοβόρας ανθρώπινης προσπάθειας για την περιγραφή των δεδομένων. Η ανεπαρκής, σε πολλές περιπτώσεις, διαδικασία συλλογής δεδομένων από ετερογενείς πηγές μπορεί να προκαλέσει ανομοιότητες μεταξύ των δεδομένων εκπαίδευσης και ελέγχου. Για την αντιμετώπιση αυτών των περιορισμών, προτείνεται μια νέα προσέγγιση, η οποία συν δυάζει τη μάθηση με τη χρήση προνομιακής πληροφορίας και την ενεργή μάθηση για την αναγνώριση ανθρώπινων δραστηριοτήτων από πολυτροπικά και μη χαρακτηρισμένα με κάποια ετικέτα δεδομένα. Στο τελευταίο μέρος της διατριβής, χρησιμοποιείται η προνομιακή πληροφορία για την επίλυση βιομετρικών εφαρμογών, όπως η αναγνώριση εκφράσεων του προπώπου. Καθώς οι εικόνες προσώπων μπορεί να περιέχουν ετερογενείς πληροφορίες, τα δεδομένα του προσώπου μπορεί να είναι ανομοιόμορφα κατανεμημένα μεταξύ της φάσης εκπαίδευσης και του ελέγ χου, και έτσι μπορεί να είναι είναι δύσκολο να διατηρηθεί η ίδια ποιότητα και ποσότητα των πληροφοριών. Για το λόγο αυτό, προτείνεται μια μέθοδος ταξινόμησης, η οποία συνδιάζει την προνομιακή πληροφορία και τα υπό συνθήκη τυχαία πεδία, για να να διαδώσει έμμεσα γνώση από τον προνομιακό στον αρχικό χώρο των δεδομένων. Κάθε χώρος έχει συγκεκρι μένες παραμέτρους, οι οποίες συνδέονται μεταξύ τους μέσω μιας Γκαουσιανής κατανομής, για να επιτρέψουν στις διαφορετικές διαδικασίες μάθησης να μοιραστούν τις διαφορετικές παραμέτρους και να βελτιώθει η ταξινόμηση.
Το πρόβλημα της αναγνώρισης και του εντοπισμού της ανθρώπινης δραστηριότητας α πό εικονοσειρές και απλές εικόνες, είναι μία δύσκολη διαδικασία, λόγω προβλημάτων όπως ύπαρξη θορύβου στα δεδομένα, αλλαγές στην κλίμακα, την φωτεινότητα και την εμφάνιση. Πολλές εφαρμογές παρακολούθησης εικονοσειρών, αλληλεπίδρασης ανθρώπου-υπολογιστή και διάφορα ρομποτικά συστήματα, απαιτούν αλγορίθμους για την αναγνώριση της ανθρώπι νης δραστηριότητας. Στο πρώτο μέρος της διατριβής, και ύστερα από μια λεπτομερή και διεξοδική ανάλυση των μεθοδολογιών αναγνώρισης της ανθρώπινης δραστηριότητας, περιγράφεται μια μέθοδος βασισμένη στην σύγκριση τροχιών για αναγνώριση της ανθρώπινης δραστηριότητας. Η μέ θοδος βασίζεται στην περιγραφή μιας ανθρώπινης δράσης από χρονοσειρές βασισμένες στην οπτική ροή. Αρχικά, στο βήμα εκπαίδευσης, οι καμπύλες κίνησης που αναπαριστούν μια δράση ομαδοποιούνται από μία μικτή κανονική κατανομή. Στη φάση της αναγνώρισης, οι καμπύλες κίνησης μιας καινούριας εικονοσειράς ομαδοποιούνται επίσης με μία μικτή κανονική κατανομή και το υπό κατηγοριοποίηση μοντέλο συγκρίνεται με όλα τα μοντέλα της βάσης εκπαίδευσης χρησιμοποιώντας ένα μέτρο ομοιότητας που βασίζεται στη μεγαλύτερη κοινή υπακολουθία μεταξύ των μέσων καμπυλών των μικτών κατανομών. Στη συνέχεια, παρουσιάζεται μια μέθοδος για την αναγνώριση της ανθρώπινης συμπερι φοράς σε πολιτικές ομιλίες. Η συμπεριφορά ενός ατόμου μοντελοποιείται χρησιμοποιώντας υπό συνθήκη τυχαία πεδία.Για την αξιολόγηση της απόδοσης του μοντέλου, δημιουργήθηκε ένα καινούριο σύνολο δεδομένων το οποίο αποτελείται από ομιλίες βουλευτών της ελληνικής βουλής και σε κάθε υποκείμενο ανατίθεται μία από τρεις κατηγορίες συμπεριφοράς, όπως φιλικός, επιθετικός και ουδέτερος. Έπειτα, παρουσιάζεται μια επέκταση της προαναφερθείσας μεθόδου, χρησιμοποιώντας δεδομένα από πολλαπλές πηγές. Η συμπεριφορά ενός ατόμου αναπαριστάται εισάγοντας ένα επίπεδο κρυμμένων καταστάσεων για την μοντελοποίηση των κρυμμένων δυναμικών του προβλήματος της αναγνώρισης. Επίσης, κάθε εικονοσειρά αναπαριστάται ταυτόχρονα με οπτικά χαρακτηριστικά και με χαρακτηριστικά ήχου. Για την απομάκρυνση περιττών χαρακτηριστικών που εμφανίζονται κυρίως λόγω θορύβου σε κάθε εικονοπλαίσιο, προτείνεται μια μέθοδος για την μείωση του αριθμού τους βασισμένη στην χωρική και χρονική γειτνίαση των σημείων αυτών. Για τον αυτόματο συγχρονισμό και την συγχώνευση των οπτικών και ηχητικών σημάτων χρησιμοποιήθηκε η μέθοδος της ανάλυσης κανονικής συσχέτισης. Τα περισσότερα μοντέλα ταξινόμησης δεν λαμβάνουν υπόψη τους την ανισορροπία που υπάρχει στην δομή των δεδομένων για εκπαίδευση και έλεγχο. Για το λόγο αυτό, προτείνεται ένα μοντέλο, το οποίο χρησιμοποιεί επιπλέον δεδομένα (προνομιακή πληροφορία) μόνο στην φάση της εκπαίδευσης, ενώ στην φάση του ελέγχου αυτή η πληροφορία δεν είναι διαθέσιμη. Η προτεινόμενη μέθοδος είναι βασισμένη στην εκπαίδευση με χρήση προνομιακής πληροφο ρίας και είναι ανθεκτική σε δεδομένα τα οποία δεν ακολουθούν το κυρίαρχο μοντέλο, όπως θόρυβος ή ελλιπή δεδομένα, μοντελοποιώντας την υπό συνθήκη κατανομή της προνομιακής πληροφορίας χρησιμοποιώντας την κατανομή Student's-t . Η συγκεκριμένη προσέγγιση είναι γενική και δεν περιορίζεται στην χρήση μόνο ενός είδους προνομιακής πληροφορίας. Επίσης, προτείνεται μία μέθοδος για αυτόματη εκτίμηση της τιμής των παραμέτρων ομαλοποίησης μέσα από μια διαδικασία αυτοεκπαίδευσης από το σύνολο δεδομένων. Σε πολλά συστήματα αναγνώρισης ανθρώπινης δραστηριότητας το μέγεθος των μη επι- σημασμένων δεδομένων εκπαίδευσης μπορεί να είναι σημαντικά μεγάλο, κυρίως λόγω της επίπονης και χρονοβόρας ανθρώπινης προσπάθειας για την περιγραφή των δεδομένων. Η ανεπαρκής, σε πολλές περιπτώσεις, διαδικασία συλλογής δεδομένων από ετερογενείς πηγές μπορεί να προκαλέσει ανομοιότητες μεταξύ των δεδομένων εκπαίδευσης και ελέγχου. Για την αντιμετώπιση αυτών των περιορισμών, προτείνεται μια νέα προσέγγιση, η οποία συν δυάζει τη μάθηση με τη χρήση προνομιακής πληροφορίας και την ενεργή μάθηση για την αναγνώριση ανθρώπινων δραστηριοτήτων από πολυτροπικά και μη χαρακτηρισμένα με κάποια ετικέτα δεδομένα. Στο τελευταίο μέρος της διατριβής, χρησιμοποιείται η προνομιακή πληροφορία για την επίλυση βιομετρικών εφαρμογών, όπως η αναγνώριση εκφράσεων του προπώπου. Καθώς οι εικόνες προσώπων μπορεί να περιέχουν ετερογενείς πληροφορίες, τα δεδομένα του προσώπου μπορεί να είναι ανομοιόμορφα κατανεμημένα μεταξύ της φάσης εκπαίδευσης και του ελέγ χου, και έτσι μπορεί να είναι είναι δύσκολο να διατηρηθεί η ίδια ποιότητα και ποσότητα των πληροφοριών. Για το λόγο αυτό, προτείνεται μια μέθοδος ταξινόμησης, η οποία συνδιάζει την προνομιακή πληροφορία και τα υπό συνθήκη τυχαία πεδία, για να να διαδώσει έμμεσα γνώση από τον προνομιακό στον αρχικό χώρο των δεδομένων. Κάθε χώρος έχει συγκεκρι μένες παραμέτρους, οι οποίες συνδέονται μεταξύ τους μέσω μιας Γκαουσιανής κατανομής, για να επιτρέψουν στις διαφορετικές διαδικασίες μάθησης να μοιραστούν τις διαφορετικές παραμέτρους και να βελτιώθει η ταξινόμηση.
Περιγραφή
Λέξεις-κλειδιά
Human activity recognition, Matching mixtures, Privileged information
Θεματική κατηγορία
Human activity recognition
Παραπομπή
Σύνδεσμος
Γλώσσα
en
Εκδίδον τμήμα/τομέας
Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής
Όνομα επιβλέποντος
Νίκου, Χριστόφορος
Εξεταστική επιτροπή
Νίκου, Χριστόφορος
Κακαδιάρης, Ιωάννης
Κόντης, Λυσίμαχος-Παύλος
Λύκας, Αριστείδης
Μπλέκας, Κωνσταντίνος
Αργυρός, Αντώνιος
Μπέμπης, Γεώργιος
Κακαδιάρης, Ιωάννης
Κόντης, Λυσίμαχος-Παύλος
Λύκας, Αριστείδης
Μπλέκας, Κωνσταντίνος
Αργυρός, Αντώνιος
Μπέμπης, Γεώργιος
Γενική Περιγραφή / Σχόλια
Ίδρυμα και Σχολή/Τμήμα του υποβάλλοντος
Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής
Πίνακας περιεχομένων
Χορηγός
Βιβλιογραφική αναφορά
Βιβλιογράφία : σ. 149-179
Ονόματα συντελεστών
Αριθμός σελίδων
179 σ.