Σύνθεση κίνησης σε βίντεο μέσω εκμάθησης τοπικών μετασχηματισμών

dc.contributor.authorΤάγκα, Βιργινίαel
dc.date.accessioned2021-11-02T11:51:06Z
dc.date.available2021-11-02T11:51:06Z
dc.identifier.urihttps://olympias.lib.uoi.gr/jspui/handle/123456789/31444
dc.identifier.urihttp://dx.doi.org/10.26268/heal.uoi.11265
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
dc.subjectΝευρωνικά δίκτυαel
dc.subjectΔημιουργία βίντεοel
dc.titleΣύνθεση κίνησης σε βίντεο μέσω εκμάθησης τοπικών μετασχηματισμώνel
dc.titleImage animation by learning keypoints local transformationsen
heal.abstractΗ σύνθεση κίνησης σε βίντεο (animation) αποτελεί μία σημαντική εξέλιξη στον τομέα της υπολογιστικής όρασης με εφαρμογές, μεταξύ άλλων στον κινηματογράφο, σε βιντεοπαιχνίδια, γραφικά και οπτικά εφέ. Το πρόβλημα που πραγματεύεται η εργασία αυτή αφορά στην αναπαράσταση της κίνησης σε βίντεο σύμφωνα με τοπικούς μετασχηματισμούς που εφαρμόζονται σε συγκεκριμένα χαρακτηριστικά σημεία που έχουν εξαχθεί από τις εικόνες. Τα σημεία αυτά σχετίζονται με συγκεκριμένα μέρη του ανθρώπινου σώματος ή του προσώπου με συνέπεια η εφαρμογή να επικεντρώνεται σε κινήσεις του ανθρώπινου σώματος και σε εκφράσεις του προσώπου. Η πρόκληση εδώ είναι πως δεν έχουμε καμία εκ των προτέρων πληροφορία για τα δεδομένα και προσπαθούμε να υλοποιήσουμε αναπαράσταση κινήσεων στηριζόμενοι σε βίντεο που λειτουργούν ως οδηγοί. Πιο συγκεκριμένα, οι εικόνες του βίντεο μετασχηματίζονται σύμφωνα με τις κινήσεις των αντικειμένων στις αντίστοιχες εικόνες ενός βίντεο οδηγού. Αρχικά, αφού υπολογίσουμε τις συντεταγμένες των χαρακτηριστικών σημείων του σώματος ή του προσώπου μέσω ενός προεκπαιδευμένου μοντέλου, εισάγουμε ένα συνελικτικό νευρωνικό δίκτυο που υπολογίζει μέσω της οπτικής ροής ένα πυκνό πεδίο κίνησης το οποίο υποδεικνύει τον τρόπο που μετακινούνται τα χαρακτηριστικά σημεία και δημιουργεί μία μάσκα που φανερώνει ποια τμήματα των καρέ μπορούν να ανακατασκευαστούν μέσω γεωμετρικών μετασχηματισμών. Επιπλέον, υποδηλώνει τα τμήματα που δεν μπορούν να ανακτηθούν από την αρχική εικόνα και πρέπει να εκτιμηθούν. Στη συνέχεια, εκπαιδεύουμε ένα ανταγωνιστικό νευρωνικό δίκτυο το οποίο σύμφωνα με τις πληροφορίες που λαμβάνει από τις προηγούμενες εξόδους του δικτύου, παράγει νέες εικόνες με τέτοιο τρόπο ώστε να μοιάζουν όσο γίνεται περισσότερο σε εικόνες στόχους.el
heal.abstractVideo animation is one of the most important developments in Computer Vision field with various applications such as in cinema, video games, graphic and visual effects. In this project, we try to solve the problem of motion representation in videos according to local transformations applied to specific keypoints extracted from the images. These keypoints are related to specific parts of the human body or face, so the problem is focused on human body movements and facial expressions. The challenge is that we do not have any prior information about the data and we try to implement motion representation based on videos that act as guides. More specifically, the video images are transformed according to the movements of the objects in the corresponding images of a video guide. First, after calculating the coordinates of the keypoints of the body or face through a pre-trained model, we introduce a convolutional neural network that estimates a dense motion field through optical flow.The dense motion field indicates keypoints' movements and creates a mask that reveals which parts of the frames can be reconstructed through geometric transformations.In addition, it indicates the parts that can not be retrieved from the original image and should be evaluated and impainted. Next, we train a generative adversarial network which takes into account information from previous network outputs and generates new images that resemble as much as possible with the target frames.en
heal.academicPublisherΠανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικήςel
heal.academicPublisherIDuoi
heal.accessfree
heal.advisorNameΝίκου, Χριστόφοροςel
heal.bibliographicCitationΒιβλιογραφία: σ. 67-71el
heal.classificationΝευρωνικά δίκτυα
heal.committeeMemberNameΝίκου, Χριστόφοροςel
heal.committeeMemberNameΒρίγκας, Μιχαήλel
heal.committeeMemberNameΦούντος, Ιωάννηςel
heal.dateAvailable2021-11-02T11:52:06Z
heal.fullTextAvailabilitytrue
heal.languageel
heal.numberOfPages72 σ.
heal.publicationDate2021
heal.recordProviderΠανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικήςel
heal.typemasterThesis
heal.type.elΜεταπτυχιακή εργασίαel
heal.type.enMaster thesisen

Αρχεία

Πρωτότυπος φάκελος/πακέτο

Προβολή: 1 - 1 of 1
Φόρτωση...
Μικρογραφία εικόνας
Ονομα:
Μ.Ε. ΤΑΓΚΑ ΒΙΡΓΙΝΙΑ 2021.pdf
Μέγεθος:
6.71 MB
Μορφότυπο:
Adobe Portable Document Format
Περιγραφή:

Φάκελος/Πακέτο αδειών

Προβολή: 1 - 1 of 1
Φόρτωση...
Μικρογραφία εικόνας
Ονομα:
license.txt
Μέγεθος:
1.71 KB
Μορφότυπο:
Item-specific license agreed upon to submission
Περιγραφή: