Gender and age estimation without facial information from still images
Φόρτωση...
Ημερομηνία
Συγγραφείς
Chatzitzisi, Georgia
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής
Περίληψη
Τύπος
Είδος δημοσίευσης σε συνέδριο
Είδος περιοδικού
Είδος εκπαιδευτικού υλικού
Όνομα συνεδρίου
Όνομα περιοδικού
Όνομα βιβλίου
Σειρά βιβλίου
Έκδοση βιβλίου
Συμπληρωματικός/δευτερεύων τίτλος
Περιγραφή
For many computer vision applications, such as image understanding and human
identification, recognizing the gender and age of humans is an essential yet challenging
problem. In this thesis, the task is performed on pedestrian images, which are
usually captured in-the-wild with no near face-frontal information. In addition, images
of humans are acquired under different illumination conditions, yielding poor
visual quality, and different camera viewing angles, representing the pedestrian in
arbitrary body poses. Moreover, another difficulty in the problem originates from the
underlying class imbalance in real examples, especially for the age estimation problem.
The first scope of the thesis is to examine how different loss functions in convolutional
neural networks (CNN) perform under the class imbalance problem. The loss
functions include the cross entropy, which equally weighs each of the classes, the
focal loss, focusing on the misclassified examples, and their weighted variants, which
weigh the loss function according to the prior class distribution. For this purpose, as
a backbone, we employ a commonly used CNN architecture, the Residual Network
(ResNet). On top of that, we attempt to benefit from appearance-based attributes,
which are inherently present in the available data. We incorporate this knowledge
in an autoencoder, which we attach to our baseline CNN in order for the combined
model to jointly learn the features and increase the classification accuracy. Finally,
all of our experiments are evaluated on the publicly available PETA, RAP v2 and
PA100k datasets.
Σε πολλές εϕαρμογές της υπολογιστικής όρασης, όπως στην περιγραϕή εικόνων και στην ταυτοποίηση ανθρώπων, η αναγνώριση του ϕύλου και της ηλικίας είναι ιδιαίτερα καθοριστική, εν τούτοις αποτελεί ένα πρόβλημα με αρκετές προκλήσεις. Η παρούσα εργασία ασχολείται με εικόνες πεζών, οι οποίες συχνά στερούνται τη σημαντική πληροϕορία του προσώπου. Επίσης, οι εικόνες πεζών συχνά προκύπτουν από διαϕορετικές συνθήκες ϕωτεινότητας, οι οποίες παρέχουν ϕτωχή οπτική ποιό- τητα και διαϕορετικές γωνίες προβολής, οι οποίες οδηγούν σε αυθαίρετες στάσεις σώματος. Επιπλέον, άλλη μία δυσκολία στο πρόβλημα προέρχεται από την δυσα- ναλογία των κατηγοριών (class imbalance), ιδιαίτερα στο πρόβλημα της εκτίμησης της ηλικίας. Σε αυτή την εργασία, αρχικά, εξετάζουμε πώς διαϕορετικές συναρτή- σεις κόστους συμπεριϕέρονται στα Συνελικτικά Νευρωνικά Δίκτυα (CNN) υπό το πρόβλημα της δυσαναλογίας των κατηγοριών. Σε αυτές τις συναρτήσεις κόστους πε- ριλαμβάνονται η διασταυρωμένη εντροπία (cross entropy), η οποία εξίσου σταθμίζει κάθε κατηγορία, η εστιακή συνάρτηση κόστους (focal loss), η οποία επικεντρώνεται στα εσϕαλμένα ταξινομημένα παραδείγματα και στις σταθμισμένες παραλλαγές τους, οι οποίες λαμβάνουν υπ’ όψιν την εκ των προτέρων (prior) κατανομή των κα- τηγοριών. Για το σκοπό αυτό, σαν κορμό χρησιμοποιούμε ένα ευρέως γνωστό Συνε- λικτικό Νευρωνικό Δίκτυο, το Υπολειπόμενο Δίκτυο (Residual Network). Επιπλέον, αξιοποιούμε την ύπαρξη γνωρισμάτων εμϕάνισης, που υπάρχει ήδη στα διαθέσιμα δεδομένα. Εισάγουμε αυτή τη γνώση σε έναν αυτοκωδικοποιητή (autoencoder), τον οποίο συνδυάζουμε με το Συνελικτικό Νευρωνικό Δίκτυο, ώστε να γίνει μια από κοι- νού μάθηση των χαρακτηριστικών, που πιθανώς να οδηγήσει σε καλύτερη ακρίβεια κατηγοριοποίησης. Τέλος, όλα τα πειράματα αξιολογούνται στις βάσεις δεδομένων PETA, RAP v2 και PA100k.
Σε πολλές εϕαρμογές της υπολογιστικής όρασης, όπως στην περιγραϕή εικόνων και στην ταυτοποίηση ανθρώπων, η αναγνώριση του ϕύλου και της ηλικίας είναι ιδιαίτερα καθοριστική, εν τούτοις αποτελεί ένα πρόβλημα με αρκετές προκλήσεις. Η παρούσα εργασία ασχολείται με εικόνες πεζών, οι οποίες συχνά στερούνται τη σημαντική πληροϕορία του προσώπου. Επίσης, οι εικόνες πεζών συχνά προκύπτουν από διαϕορετικές συνθήκες ϕωτεινότητας, οι οποίες παρέχουν ϕτωχή οπτική ποιό- τητα και διαϕορετικές γωνίες προβολής, οι οποίες οδηγούν σε αυθαίρετες στάσεις σώματος. Επιπλέον, άλλη μία δυσκολία στο πρόβλημα προέρχεται από την δυσα- ναλογία των κατηγοριών (class imbalance), ιδιαίτερα στο πρόβλημα της εκτίμησης της ηλικίας. Σε αυτή την εργασία, αρχικά, εξετάζουμε πώς διαϕορετικές συναρτή- σεις κόστους συμπεριϕέρονται στα Συνελικτικά Νευρωνικά Δίκτυα (CNN) υπό το πρόβλημα της δυσαναλογίας των κατηγοριών. Σε αυτές τις συναρτήσεις κόστους πε- ριλαμβάνονται η διασταυρωμένη εντροπία (cross entropy), η οποία εξίσου σταθμίζει κάθε κατηγορία, η εστιακή συνάρτηση κόστους (focal loss), η οποία επικεντρώνεται στα εσϕαλμένα ταξινομημένα παραδείγματα και στις σταθμισμένες παραλλαγές τους, οι οποίες λαμβάνουν υπ’ όψιν την εκ των προτέρων (prior) κατανομή των κα- τηγοριών. Για το σκοπό αυτό, σαν κορμό χρησιμοποιούμε ένα ευρέως γνωστό Συνε- λικτικό Νευρωνικό Δίκτυο, το Υπολειπόμενο Δίκτυο (Residual Network). Επιπλέον, αξιοποιούμε την ύπαρξη γνωρισμάτων εμϕάνισης, που υπάρχει ήδη στα διαθέσιμα δεδομένα. Εισάγουμε αυτή τη γνώση σε έναν αυτοκωδικοποιητή (autoencoder), τον οποίο συνδυάζουμε με το Συνελικτικό Νευρωνικό Δίκτυο, ώστε να γίνει μια από κοι- νού μάθηση των χαρακτηριστικών, που πιθανώς να οδηγήσει σε καλύτερη ακρίβεια κατηγοριοποίησης. Τέλος, όλα τα πειράματα αξιολογούνται στις βάσεις δεδομένων PETA, RAP v2 και PA100k.
Περιγραφή
Λέξεις-κλειδιά
Machine learning, Computer vision, Convolutional neural networks, Human-attribute recognition, Μηχανική μάθηση, Υπολογιστική όραση, Συνελικτικά νευρωνικά δίκτυα, Αναγνώριση χαρακτηριστικών ανθρώπου
Θεματική κατηγορία
Machine learning
Παραπομπή
Σύνδεσμος
Γλώσσα
en
Εκδίδον τμήμα/τομέας
Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής
Όνομα επιβλέποντος
Νίκου, Χριστόφορος
Εξεταστική επιτροπή
Νίκου, Χριστόφορος
Λύκας, Αριστείδης
Μπλέκας, Κωνσταντίνος
Λύκας, Αριστείδης
Μπλέκας, Κωνσταντίνος
Γενική Περιγραφή / Σχόλια
Ίδρυμα και Σχολή/Τμήμα του υποβάλλοντος
Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής
Πίνακας περιεχομένων
Χορηγός
Βιβλιογραφική αναφορά
Βιβλιογραφία: σ. 59-63
Ονόματα συντελεστών
Αριθμός σελίδων
67 σ.
Λεπτομέρειες μαθήματος
item.page.endorsement
item.page.review
item.page.supplemented
item.page.referenced
Άδεια Creative Commons
Άδεια χρήσης της εγγραφής: Attribution-NonCommercial-NoDerivs 3.0 United States