Ταξινόμηση κειμένου με τεχνικές μηχανικής μάθησης.

Φόρτωση...
Μικρογραφία εικόνας

Ημερομηνία

Συγγραφείς

Στραβοράβδης, Σπυρίδων

Τίτλος Εφημερίδας

Περιοδικό ISSN

Τίτλος τόμου

Εκδότης

Τ.Ε.Ι. Ηπείρου, Σχολή Τεχνολογικών Εφαρμογών, Τμήμα Μηχανικών Πληροφορικής Τ.Ε.

Περίληψη

Τύπος

Είδος δημοσίευσης σε συνέδριο

Είδος περιοδικού

Είδος εκπαιδευτικού υλικού

Όνομα συνεδρίου

Όνομα περιοδικού

Όνομα βιβλίου

Σειρά βιβλίου

Έκδοση βιβλίου

Συμπληρωματικός/δευτερεύων τίτλος

Περιγραφή

Η ταξινόμηση κειμένου ή εγγράφων αποτελεί ένα πρόβλημα στην επιστήμη των υπολογιστών για ανάθεση δεδομένων σε μία ή περισσότερες κλάσεις ή κατηγορίες. Ένας τρόπος επίλυσης του είναι με μεθόδους επεξεργασίας φυσικής γλώσσας. Ο κλάδος αυτός ασχολείται με τις αλληλεπιδράσεις μεταξύ υπολογιστών και ανθρώπινης γλώσσας, συγκεκριμένα τον προγραμματισμό μηχανών για επεξεργασία και ανάλυση μεγάλου όγκου δεδομένων φυσικής γλώσσας. Για την επίτευξη του στόχου αυτού χρησιμοποιούνται διάφορες μέθοδοι, οι οποίες συνεχώς εξελίσσονται. Μία από αυτές είναι η ενσωμάτωση λέξεων (ή διάνυσμα λέξεων), η οποία συνήθως κάνει χρήση νευρωνικών δικτύων για να λειτουργήσει. Σκοπός της συγκεκριμένης εργασίας είναι να γίνει μία λεπτομερής και ξεκάθαρη αναφορά στην ταξινόμηση κειμένου και την επεξεργασία φυσικής γλώσσας, την ιστορική εξέλιξη τους και τις μεθόδους ή τεχνικές που χρησιμοποιούνται ευρέως στους συγκεκριμένους τομείς. Έπειτα γίνεται μνεία στην ενσωμάτωση λέξεων και παλιότερες μεθόδους που εφαρμόστηκαν για επίλυση των ίδιων προβλημάτων. Κατόπιν αναλύεται διεξοδικά η τεχνική Word2Vec, μία από τις πιο δημοφιλείς ενσωματώσεις λέξεων, τα μοντέλα που περιλαμβάνει, ο τρόπος λειτουργίας της και διάφορες μέθοδοι βελτιστοποίησης. Τέλος, γίνεται προγραμματιστική υλοποίηση του Word2Vec με τμηματοποίηση και παρουσίαση των βημάτων που απαιτούνται για τη χρήση της.
Text or document classification is a problem in computer science for data assignment to one or more classes or categories. One way to solve it is with natural language processing methods. This field deals with the interactions between computers and human language, in particular the programming of machines for processing and analyzing large amounts of natural language data. Various methods are used to achieve this goal, which are constantly evolving. One of these is word embedding (or word vector), which usually uses neural networks to function. The purpose of this paper is to make a detailed and clear reference to text classification and natural language processing, their historical development and the methods or techniques that are widely used in these specific fields. After that, the subject of word embedding is described and older methods used to solve the same problems before it. Then the Word2Vec technique, one of the most popular word embeddings, is examined along with the models it includes, its modus operandi and various optimization methods. Finally, a Word2Vec implementation is provided with a step-by-step presentation of the algorithm's internals.

Περιγραφή

Λέξεις-κλειδιά

Μηχανική μάθηση, Νευρωνικά δίκτυα

Θεματική κατηγορία

Επιστήμη Υπολογιστών, Τεχνητή νοημοσύνη

Παραπομπή

Σύνδεσμος

Πτυχιακή Εργασία

Γλώσσα

el

Εκδίδον τμήμα/τομέας

Τ.Ε.Ι. Ηπείρου, Σχολή Τεχνολογικών Εφαρμογών, Τμήμα Μηχανικών Πληροφορικής Τ.Ε.

Όνομα επιβλέποντος

Αδάμ, Σταύρος

Εξεταστική επιτροπή

Αντωνιάδης, Νικόλαος
Καρβέλης, Πέτρος

Γενική Περιγραφή / Σχόλια

Ίδρυμα και Σχολή/Τμήμα του υποβάλλοντος

Τ.Ε.Ι. Ηπείρου

Πίνακας περιεχομένων

Χορηγός

Βιβλιογραφική αναφορά

Στραβοράβδης, Σ., 2020. Ταξινόμηση κειμένου με τεχνικές μηχανικής μάθησης. Πτυχιακή εργασία. Άρτα: Τ.Ε.Ι. Ηπείρου. Σχολή Τεχνολογικών Εφαρμογών. Τμήμα Μηχανικών Πληροφορικής Τ.Ε.

Ονόματα συντελεστών

Αριθμός σελίδων

80

Λεπτομέρειες μαθήματος

item.page.endorsement

item.page.review

item.page.supplemented

item.page.referenced