Gender and age estimation without facial information from still images

dc.contributor.authorChatzitzisi, Georgiaen
dc.date.accessioned2020-08-27T10:13:50Z
dc.date.available2020-08-27T10:13:50Z
dc.identifier.urihttps://olympias.lib.uoi.gr/jspui/handle/123456789/30022
dc.identifier.urihttp://dx.doi.org/10.26268/heal.uoi.9913
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
dc.subjectMachine learningen
dc.subjectComputer visionen
dc.subjectConvolutional neural networksen
dc.subjectHuman-attribute recognitionen
dc.subjectΜηχανική μάθησηel
dc.subjectΥπολογιστική όρασηel
dc.subjectΣυνελικτικά νευρωνικά δίκτυαel
dc.subjectΑναγνώριση χαρακτηριστικών ανθρώπουel
dc.titleGender and age estimation without facial information from still imagesen
dc.titleΑναγνώριση του φύλου και της ηλικίας σε εικόνες χωρίς την πληροφορία του προσώπουel
heal.abstractFor many computer vision applications, such as image understanding and human identification, recognizing the gender and age of humans is an essential yet challenging problem. In this thesis, the task is performed on pedestrian images, which are usually captured in-the-wild with no near face-frontal information. In addition, images of humans are acquired under different illumination conditions, yielding poor visual quality, and different camera viewing angles, representing the pedestrian in arbitrary body poses. Moreover, another difficulty in the problem originates from the underlying class imbalance in real examples, especially for the age estimation problem. The first scope of the thesis is to examine how different loss functions in convolutional neural networks (CNN) perform under the class imbalance problem. The loss functions include the cross entropy, which equally weighs each of the classes, the focal loss, focusing on the misclassified examples, and their weighted variants, which weigh the loss function according to the prior class distribution. For this purpose, as a backbone, we employ a commonly used CNN architecture, the Residual Network (ResNet). On top of that, we attempt to benefit from appearance-based attributes, which are inherently present in the available data. We incorporate this knowledge in an autoencoder, which we attach to our baseline CNN in order for the combined model to jointly learn the features and increase the classification accuracy. Finally, all of our experiments are evaluated on the publicly available PETA, RAP v2 and PA100k datasets.en
heal.abstractΣε πολλές εϕαρμογές της υπολογιστικής όρασης, όπως στην περιγραϕή εικόνων και στην ταυτοποίηση ανθρώπων, η αναγνώριση του ϕύλου και της ηλικίας είναι ιδιαίτερα καθοριστική, εν τούτοις αποτελεί ένα πρόβλημα με αρκετές προκλήσεις. Η παρούσα εργασία ασχολείται με εικόνες πεζών, οι οποίες συχνά στερούνται τη σημαντική πληροϕορία του προσώπου. Επίσης, οι εικόνες πεζών συχνά προκύπτουν από διαϕορετικές συνθήκες ϕωτεινότητας, οι οποίες παρέχουν ϕτωχή οπτική ποιό- τητα και διαϕορετικές γωνίες προβολής, οι οποίες οδηγούν σε αυθαίρετες στάσεις σώματος. Επιπλέον, άλλη μία δυσκολία στο πρόβλημα προέρχεται από την δυσα- ναλογία των κατηγοριών (class imbalance), ιδιαίτερα στο πρόβλημα της εκτίμησης της ηλικίας. Σε αυτή την εργασία, αρχικά, εξετάζουμε πώς διαϕορετικές συναρτή- σεις κόστους συμπεριϕέρονται στα Συνελικτικά Νευρωνικά Δίκτυα (CNN) υπό το πρόβλημα της δυσαναλογίας των κατηγοριών. Σε αυτές τις συναρτήσεις κόστους πε- ριλαμβάνονται η διασταυρωμένη εντροπία (cross entropy), η οποία εξίσου σταθμίζει κάθε κατηγορία, η εστιακή συνάρτηση κόστους (focal loss), η οποία επικεντρώνεται στα εσϕαλμένα ταξινομημένα παραδείγματα και στις σταθμισμένες παραλλαγές τους, οι οποίες λαμβάνουν υπ’ όψιν την εκ των προτέρων (prior) κατανομή των κα- τηγοριών. Για το σκοπό αυτό, σαν κορμό χρησιμοποιούμε ένα ευρέως γνωστό Συνε- λικτικό Νευρωνικό Δίκτυο, το Υπολειπόμενο Δίκτυο (Residual Network). Επιπλέον, αξιοποιούμε την ύπαρξη γνωρισμάτων εμϕάνισης, που υπάρχει ήδη στα διαθέσιμα δεδομένα. Εισάγουμε αυτή τη γνώση σε έναν αυτοκωδικοποιητή (autoencoder), τον οποίο συνδυάζουμε με το Συνελικτικό Νευρωνικό Δίκτυο, ώστε να γίνει μια από κοι- νού μάθηση των χαρακτηριστικών, που πιθανώς να οδηγήσει σε καλύτερη ακρίβεια κατηγοριοποίησης. Τέλος, όλα τα πειράματα αξιολογούνται στις βάσεις δεδομένων PETA, RAP v2 και PA100k.el
heal.academicPublisherΠανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικήςel
heal.academicPublisherIDuoi
heal.accessfree
heal.advisorNameΝίκου, Χριστόφοροςel
heal.bibliographicCitationΒιβλιογραφία: σ. 59-63el
heal.classificationMachine learning
heal.committeeMemberNameΝίκου, Χριστόφοροςel
heal.committeeMemberNameΛύκας, Αριστείδηςel
heal.committeeMemberNameΜπλέκας, Κωνσταντίνοςel
heal.dateAvailable2020-08-27T10:14:51Z
heal.fullTextAvailabilitytrue
heal.languageen
heal.numberOfPages67 σ.
heal.publicationDate2020
heal.recordProviderΠανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικήςel
heal.typemasterThesis
heal.type.elΜεταπτυχιακή εργασίαel
heal.type.enMaster thesisen

Αρχεία

Πρωτότυπος φάκελος/πακέτο

Προβολή: 1 - 1 of 1
Φόρτωση...
Μικρογραφία εικόνας
Ονομα:
Μ.Ε CHATZITZISI GEORGIA 2020.pdf
Μέγεθος:
2.9 MB
Μορφότυπο:
Adobe Portable Document Format
Περιγραφή:

Φάκελος/Πακέτο αδειών

Προβολή: 1 - 1 of 1
Φόρτωση...
Μικρογραφία εικόνας
Ονομα:
license.txt
Μέγεθος:
1.71 KB
Μορφότυπο:
Item-specific license agreed upon to submission
Περιγραφή: