Visual tracking in image sequences using mixture models
Φόρτωση...
Ημερομηνία
Συγγραφείς
Καραβασίλης, Βασίλειος
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής
Περίληψη
Τύπος
Είδος δημοσίευσης σε συνέδριο
Είδος περιοδικού
Είδος εκπαιδευτικού υλικού
Όνομα συνεδρίου
Όνομα περιοδικού
Όνομα βιβλίου
Σειρά βιβλίου
Έκδοση βιβλίου
Συμπληρωματικός/δευτερεύων τίτλος
Περιγραφή
An important field in computer vision is visual tracking, which is the procedure of generating
inference about motion of an object or target in a sequence of images. Solutions to
this problem have a variety of applications, some of them being surveillance, action and gesture
recognition, motion-based video compression, teleconferencing and video indexing. In
tracking problems, it is assumed that the model of the object is known and based on a set of
measurements in a video the object’s position should be estimated. In this thesis, we focus on
the application of clustering methods to model the target’s appearance and on the optimization
of a cost function to estimate the position of the target and we propose algorithms that improve
the state of the art performance or reduce the computational complexity of existing methods.
The first algorithm proposed in this thesis is an extension to the Differential Earth Mover’s
Distance (DEMD) algorithm for tracking. The contribution of this work is twofold. At first,
the representation of the object is accomplished by Gaussian mixture models (GMM) instead of
histogram signatures employed in the standard algorithm. This leads to reduced computational
cost for real time applications as the algorithm avoids the large dimensionality of histograms.
Also, the DEMD algorithm is combined with a Kalman filter to handle occlusions which is a
problem not addressed by the original algorithm.
The second algorithm is a variant of the mean shift algorithm where a Gaussian mixture
model is employed at each iteration to smooth the differences in the histogram bins representing
the appearance of the object. By these means, the algorithm is capable of handling color changes
due to variations in the illumination of the scene.
The next algorithm that is proposed herein also relies on Gaussian mixture modeling of the
target’s appearance. However, compared to the previous approach, the GMM parameters are
estimated in the first frame of the image sequence in order to define the appearance of the target.
In subsequent frames, the target’s position is estimated by maximizing the weighted likelihood
of the mixture model by assuming that pixels near the target’s geometric center contribute more
to the estimation of its position. The advantages of this method are a close-form update for the target’s position, a lower dimension of the target’s representation and a reduced computational
complexity. Moreover, an update framework is proposed in order to handle cases when the
target changes its color due to pose and illumination variations.
An algorithm robust to illumination changes is also proposed which employs only the hue
component of the target. As the hue component is periodic, a Gaussian mixture can not model it
properly and therefore, a mixture of von Mises distributions is used, which is a circular distribution
modeling accurately the hue component of an image. Moreover, the fact that the hue is one
dimensional is exploited to discretize it to a finite number of values, which may be computed a
priori, thus, speeding up the tracking procedure significantly.
Finally, a framework for visual object tracking based on clustering trajectories of image key
points is proposed. The main contribution of the method is that the trajectories are automatically
extracted from the image sequence and they are provided directly to a model-based clustering
approach. In most other methodologies, the latter constitutes a difficult part since the resulting
feature trajectories have a short duration, as the key points disappear and reappear due to occlusion,
illumination, viewpoint changes and noise. We present a sparse, translation invariant
regression mixture model for clustering trajectories of variable length. The overall scheme is
converted into a maximum a posteriori approach, where the Expectation–Maximization (EM)
algorithm is used for estimating the model parameters.
Ένα σημαντικό πεδίο στην περιοχή της υπολογιστικής όρασης είναι η οπτική παρακο λούθηση, που είναι η διαδικασία εκτίμησης της κίνησης ενός αντικειμένου ή στόχου σε μια ακολουθία εικόνων. Η επίλυση αυτού του προβλήματος έχει εφαρμογές στην επιτήρηση πε ριοχών, στην αναγνώριση των κινήσεων ή των χειρονομιών, στην συμπίεση βίντεο με βάση την κίνηση, στις τηλεδιασκέψεις και την κατηγοριοποίηση βίντεο. Στα προβλήματα οπτικής παρακολούθησης, το μοντέλο των αντικειμένων είναι συνήθως γνωστό, και με βάση κάποιες μετρήσεις κατά την διάρκεια του βίντεο, πρέπει να εκτιμηθεί η θέση του αντικειμένου. Η παρούσα εργασία, επικεντρώνεται στην χρήση μεθόδων ομαδοποίησης και πιο συγκεκριμένα στις μικτές κανονικές κατανομές, με σκοπό την μοντελοποίηση της εμφάνισης του στόχου και στην βελτιστοποίηση μιας συνάρτησης κόστους με σκοπό την εκτίμηση της θέσης του στόχου. Προτείνουμε αλγορίθμους που έχουν βελτιωμένη απόδοση σε σχέση με ήδη υπάρ- χουσες υλοποιήσεις ή μειώνουν την υπολογιστική πολυπλοκότητα ήδη υπαρχόντων μεθόδων. Ο πρώτος αλγόριθμος που προτείνεται στην παρούσα εργασία είναι μια επέκταση του αλ γόριθμου Differential Earth Mover’s Distance (DEMD). Η συνεισφορά αυτής της επέκτασης έχει δύο πλευρές. Αρχικά, για την αναπαράσταση του μοντέλου του αντικειμένου χρησι μοποιούνται μικτές κανονικές κατανομές αντί για υπογραφές ιστογράμματος που χρησιμο ποιούνται στον αρχικό αλγόριθμο. Με αυτό τον τρόπο μειώνεται το υπολογιστικό κόστος για εφαρμογές πραγματικού χρόνου, καθώς ο αλγόριθμος αποφεύγει την μεγάλη διάσταση ενός ιστογράμματος. Επίσης, ο αλγόριθμος DEMD συνδυάζεται με το φίλτρο Kalman για να μπορεί να χειριστεί αποκρύψεις του αντικειμένου, που είναι ένα πρόβλημα το οποίο δεν αντιμετωπίζει ο αρχικός αλγόριθμος. Ο δεύτερος αλγόριθμος είναι μια επέκταση του αλγορίθμου μέσης μετατόπισης στον ο ποίο μικτές κανονικές κατανομές χρησιμοποιούνται σε κάθε επανάληψη για να εξομαλύνουν τις διαφορές μεταξύ των στηλών του ιστογράμματος που μοντελοποιεί την εμφάνιση του αν τικειμένου. Με αυτό τον τρόπο, ο αλγόριθμος μπορεί να χειριστεί αλλαγές στο χρώμα του αντικειμένου που οφείλονται σε μεταβολές της φωτεινότητας της σκηνής. Ο επόμενος αλγόριθμος που προτείνεται βασίζεται επίσης σε μικτές κανονικές κατανομές για να μοντελοποιήσει την κατανομή του χρώματος του αντικειμένου. Ωστόσο, σε αντίθεση με την προηγούμενη προσέγγιση, οι παράμετροι της μικτής κανονικής κατανομής που πε ριγράφει την αναπαράσταση του αντικειμένου υπολογίζονται μόνο στην πρώτη εικόνα της εικονοσειράς. Στις υπόλοιπες εικόνες, η θέση του αντικειμένου υπολογίζεται μεγιστοποι ώντας τη σταθμισμένη πιθανοφάνεια του μικτού μοντέλου, με βάση την υπόθεση ότι τα εικονοστοιχεία κοντά στο γεωμετρικό κέντρο του αντικειμένου συνεισφέρουν πιο πολύ στον υπολογισμό της θέσης του. Τα πλεονεκτήματα αυτής της προσέγγισης είναι η κλειστή μορφή της εξίσωσης που εκτιμά την θέση του αντικειμένου, η αντιμετώπιση της μεγάλης διάστασης και οι μικρές απαιτήσεις σε υπολογιστική ισχύ. Επιπλέον, προτείνεται μια μέθοδος για την ενημέρωση του μοντέλου που αναπαριστά το αντικείμενο σε περιπτώσεις που το χρώμα του αντικειμένου αλλάζει λόγω μεταβολών στην επιφάνεια του αντικειμένου ή τον φωτισμό της σκηνής. Επίσης, προτείνεται ένα αλγόριθμος που είναι ευσταθής σε αλλαγές της φωτεινότητας επειδή χρησιμοποιεί μόνο την τιμή της απόχρωσης του στόχου. Επειδή η απόχρωση είναι πε ριοδική, δεν μπορεί να χρησιμοποιηθεί η μικτή κανονική κατανομή για να την μοντελοποιήσει επαρκώς. Για το λόγο αυτό, χρησιμοποιείται η μικτή κατανομή von Mises, που είναι περιο δική και μπορεί να μοντελοποιήσει με ακρίβεια την συνιστώσα της απόχρωσης μιας εικόνας. Επιπλέον, το γεγονός ότι οι η συνιστώσα της απόχρωσης είναι μονοδιάστατη χρησιμοποιείται για την διακριτοποίησή της μικτής κατανομής σε πεπερασμένο πλήθος τιμών, που μπορούν να υπολογιστούν εκ των προτέρων, και επομένως να βελτιώσουν την ταχύτητα εκτέλεσης του αλγορίθμου. Τέλος, προτείνεται ένας αλγόριθμος για την ανίχνευση πολλαπλών αντικειμένων που βα σίζεται στην ομαδοποίηση των τροχιών κάποιων σημείων ενδιαφέροντος των αντικειμένων. Η κύρια συνεισφορά της μεθόδου είναι ότι οι τροχιές υπολογίζονται αυτόματα από την ει κονοσειρά και χρησιμοποιούνται απευθείας στην διαδικασία κατηγοριοποίησης. Σε άλλες προσεγγίσεις, η κατηγοριοποίηση είναι δύσκολη γιατί οι τροχιές των σημείων ενδιαφέροντος μπορεί να έχουν μικρή διάρκεια, καθώς τα σημεία αυτά εξαφανίζονται και επανεμφανίζονται λόγω επικαλύψεων, αλλαγών στην φωτεινότητα, μεταβολή της θέσης θέασης και θόρυβο. Παρουσιάζουμε ένα αραιό, ανεπηρέαστο από την μετατόπιση μικτό μοντέλο παλινδρόμισης που χρησιμοποιείται για την κατηγοριοποίηση καμπυλών μεταβλητού μεγέθους. Η διαδικα σία ομαδοποίησης μεταφράζεται σε μια μεγιστοποίηση της εκ των υστέρων πιθανοφάνειας, όπου ο αλγόριθμος Expectation - Maximization (EM) χρησιμοποιείται για την εκτίμηση των παραμέτρων του μοντέλου.
Ένα σημαντικό πεδίο στην περιοχή της υπολογιστικής όρασης είναι η οπτική παρακο λούθηση, που είναι η διαδικασία εκτίμησης της κίνησης ενός αντικειμένου ή στόχου σε μια ακολουθία εικόνων. Η επίλυση αυτού του προβλήματος έχει εφαρμογές στην επιτήρηση πε ριοχών, στην αναγνώριση των κινήσεων ή των χειρονομιών, στην συμπίεση βίντεο με βάση την κίνηση, στις τηλεδιασκέψεις και την κατηγοριοποίηση βίντεο. Στα προβλήματα οπτικής παρακολούθησης, το μοντέλο των αντικειμένων είναι συνήθως γνωστό, και με βάση κάποιες μετρήσεις κατά την διάρκεια του βίντεο, πρέπει να εκτιμηθεί η θέση του αντικειμένου. Η παρούσα εργασία, επικεντρώνεται στην χρήση μεθόδων ομαδοποίησης και πιο συγκεκριμένα στις μικτές κανονικές κατανομές, με σκοπό την μοντελοποίηση της εμφάνισης του στόχου και στην βελτιστοποίηση μιας συνάρτησης κόστους με σκοπό την εκτίμηση της θέσης του στόχου. Προτείνουμε αλγορίθμους που έχουν βελτιωμένη απόδοση σε σχέση με ήδη υπάρ- χουσες υλοποιήσεις ή μειώνουν την υπολογιστική πολυπλοκότητα ήδη υπαρχόντων μεθόδων. Ο πρώτος αλγόριθμος που προτείνεται στην παρούσα εργασία είναι μια επέκταση του αλ γόριθμου Differential Earth Mover’s Distance (DEMD). Η συνεισφορά αυτής της επέκτασης έχει δύο πλευρές. Αρχικά, για την αναπαράσταση του μοντέλου του αντικειμένου χρησι μοποιούνται μικτές κανονικές κατανομές αντί για υπογραφές ιστογράμματος που χρησιμο ποιούνται στον αρχικό αλγόριθμο. Με αυτό τον τρόπο μειώνεται το υπολογιστικό κόστος για εφαρμογές πραγματικού χρόνου, καθώς ο αλγόριθμος αποφεύγει την μεγάλη διάσταση ενός ιστογράμματος. Επίσης, ο αλγόριθμος DEMD συνδυάζεται με το φίλτρο Kalman για να μπορεί να χειριστεί αποκρύψεις του αντικειμένου, που είναι ένα πρόβλημα το οποίο δεν αντιμετωπίζει ο αρχικός αλγόριθμος. Ο δεύτερος αλγόριθμος είναι μια επέκταση του αλγορίθμου μέσης μετατόπισης στον ο ποίο μικτές κανονικές κατανομές χρησιμοποιούνται σε κάθε επανάληψη για να εξομαλύνουν τις διαφορές μεταξύ των στηλών του ιστογράμματος που μοντελοποιεί την εμφάνιση του αν τικειμένου. Με αυτό τον τρόπο, ο αλγόριθμος μπορεί να χειριστεί αλλαγές στο χρώμα του αντικειμένου που οφείλονται σε μεταβολές της φωτεινότητας της σκηνής. Ο επόμενος αλγόριθμος που προτείνεται βασίζεται επίσης σε μικτές κανονικές κατανομές για να μοντελοποιήσει την κατανομή του χρώματος του αντικειμένου. Ωστόσο, σε αντίθεση με την προηγούμενη προσέγγιση, οι παράμετροι της μικτής κανονικής κατανομής που πε ριγράφει την αναπαράσταση του αντικειμένου υπολογίζονται μόνο στην πρώτη εικόνα της εικονοσειράς. Στις υπόλοιπες εικόνες, η θέση του αντικειμένου υπολογίζεται μεγιστοποι ώντας τη σταθμισμένη πιθανοφάνεια του μικτού μοντέλου, με βάση την υπόθεση ότι τα εικονοστοιχεία κοντά στο γεωμετρικό κέντρο του αντικειμένου συνεισφέρουν πιο πολύ στον υπολογισμό της θέσης του. Τα πλεονεκτήματα αυτής της προσέγγισης είναι η κλειστή μορφή της εξίσωσης που εκτιμά την θέση του αντικειμένου, η αντιμετώπιση της μεγάλης διάστασης και οι μικρές απαιτήσεις σε υπολογιστική ισχύ. Επιπλέον, προτείνεται μια μέθοδος για την ενημέρωση του μοντέλου που αναπαριστά το αντικείμενο σε περιπτώσεις που το χρώμα του αντικειμένου αλλάζει λόγω μεταβολών στην επιφάνεια του αντικειμένου ή τον φωτισμό της σκηνής. Επίσης, προτείνεται ένα αλγόριθμος που είναι ευσταθής σε αλλαγές της φωτεινότητας επειδή χρησιμοποιεί μόνο την τιμή της απόχρωσης του στόχου. Επειδή η απόχρωση είναι πε ριοδική, δεν μπορεί να χρησιμοποιηθεί η μικτή κανονική κατανομή για να την μοντελοποιήσει επαρκώς. Για το λόγο αυτό, χρησιμοποιείται η μικτή κατανομή von Mises, που είναι περιο δική και μπορεί να μοντελοποιήσει με ακρίβεια την συνιστώσα της απόχρωσης μιας εικόνας. Επιπλέον, το γεγονός ότι οι η συνιστώσα της απόχρωσης είναι μονοδιάστατη χρησιμοποιείται για την διακριτοποίησή της μικτής κατανομής σε πεπερασμένο πλήθος τιμών, που μπορούν να υπολογιστούν εκ των προτέρων, και επομένως να βελτιώσουν την ταχύτητα εκτέλεσης του αλγορίθμου. Τέλος, προτείνεται ένας αλγόριθμος για την ανίχνευση πολλαπλών αντικειμένων που βα σίζεται στην ομαδοποίηση των τροχιών κάποιων σημείων ενδιαφέροντος των αντικειμένων. Η κύρια συνεισφορά της μεθόδου είναι ότι οι τροχιές υπολογίζονται αυτόματα από την ει κονοσειρά και χρησιμοποιούνται απευθείας στην διαδικασία κατηγοριοποίησης. Σε άλλες προσεγγίσεις, η κατηγοριοποίηση είναι δύσκολη γιατί οι τροχιές των σημείων ενδιαφέροντος μπορεί να έχουν μικρή διάρκεια, καθώς τα σημεία αυτά εξαφανίζονται και επανεμφανίζονται λόγω επικαλύψεων, αλλαγών στην φωτεινότητα, μεταβολή της θέσης θέασης και θόρυβο. Παρουσιάζουμε ένα αραιό, ανεπηρέαστο από την μετατόπιση μικτό μοντέλο παλινδρόμισης που χρησιμοποιείται για την κατηγοριοποίηση καμπυλών μεταβλητού μεγέθους. Η διαδικα σία ομαδοποίησης μεταφράζεται σε μια μεγιστοποίηση της εκ των υστέρων πιθανοφάνειας, όπου ο αλγόριθμος Expectation - Maximization (EM) χρησιμοποιείται για την εκτίμηση των παραμέτρων του μοντέλου.
Περιγραφή
Λέξεις-κλειδιά
Sequences, Visual tracking
Θεματική κατηγορία
Sequences
Παραπομπή
Σύνδεσμος
Γλώσσα
en
Εκδίδον τμήμα/τομέας
Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής
Όνομα επιβλέποντος
Νίκου, Χριστόφορος
Εξεταστική επιτροπή
Νίκου, Χριστόφορος
Λύκας, Αριστείδης
Κόντης, Λυσίμαχος-Παύλος
Ζαφειρίου, Στέφανος
Μπλέκας, Κωνσταντίνος
Μητιανούδης, Νικόλαος
Κακαδιάρης, Ιωάννης
Λύκας, Αριστείδης
Κόντης, Λυσίμαχος-Παύλος
Ζαφειρίου, Στέφανος
Μπλέκας, Κωνσταντίνος
Μητιανούδης, Νικόλαος
Κακαδιάρης, Ιωάννης
Γενική Περιγραφή / Σχόλια
Ίδρυμα και Σχολή/Τμήμα του υποβάλλοντος
Πανεπιστήμιο Ιωαννίνων. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Η/Υ & Πληροφορικής
Πίνακας περιεχομένων
Χορηγός
Βιβλιογραφική αναφορά
Βιβλιογράφία : σ. 111-122
Ονόματα συντελεστών
Αριθμός σελίδων
151 σ.