Ομαδοποίηση κειμένων με βάση τα μεγάλα γλωσσικά μοντέλα

dc.contributor.authorΜπακαγιάννη, Γεωργίαel
dc.contributor.authorBakagianni, Georgiaen
dc.date.accessioned2024-11-22T07:35:55Z
dc.date.available2024-11-22T07:35:55Z
dc.identifier.urihttps://olympias.lib.uoi.gr/jspui/handle/123456789/38571
dc.identifier.urihttp://dx.doi.org/10.26268/heal.uoi.18276
dc.rightsDefault License
dc.subjectΟμαδοποίηση κειμένωνel
dc.subjectΜεγάλα γλωσσίκα μοντέλαel
dc.subjectText Clusteringen
dc.subjectLarge language modelsen
dc.titleΟμαδοποίηση κειμένων με βάση τα μεγάλα γλωσσικά μοντέλαel
dc.titleText clustering based on large language modelsen
dc.typemasterThesisen
heal.abstractΗ Ομαδοποίηση Κειμένων αποτελεί ένα βασικό πεδίο της Επεξεργασίας Φυσικής Γλώσσας (ΕΦΓ), με στόχο την ομαδοποίηση δεδομένων με βάση τις εγγενείς ομοιότητες, χωρίς τη χρήση προκαθορισμένων ετικετών κατηγορίας. Σε αντίθεση με την Κατηγοριοποίηση Κειμένων, η οποία χρησιμοποιεί εποπτευόμενη μάθηση, η ομαδοποίηση είναι ανεπίβλεπτη και αποκαλύπτει κρυμμένες δομές σε μη δομημένα δεδομένα, βοηθώντας στην εξαγωγή προτύπων και πληροφοριών από μεγάλες συλλογές κειμένων. Οι εφαρμογές της περιλαμβάνουν τη δημιουργία περιλήψεων, την ανίχνευση θεμάτων και την κατηγοριοποίηση. Παραδοσιακά, η διαδικασία αυτή περιλαμβάνει δύο στάδια: την αναπαράσταση του κειμένου ως αριθμητικά διανύσματα που αποτυπώνουν γλωσσικά χαρακτηριστικά, και την εφαρμογή ενός αλγορίθμου ομαδοποίησης για τη δημιουργία των ομάδων. Ωστόσο, οι παραγόμενες ετικέτες δεν είναι κατανοητές από τον άνθρωπο, απαιτώντας επιπλέον προσπάθεια για την εξαγωγή χρήσιμων πληροφοριών από τις ομάδες. Οι εξελίξεις στα μεγάλα γλωσσικά μοντέλα (LLMs), όπως το GPT-4, ανοίγουν νέες δυνατότητες για την ομαδοποίηση κειμένων, καθώς αυτά τα μοντέλα είναι ικανά όχι μόνο να κατανοούν, αλλά και να παράγουν συνεκτικό κείμενο. Η εκτενής εκπαίδευσή τους σε μεγάλα σώματα κειμένων με δισεκατομμύρια παραμέτρους προσφέρει τη δυνατότητα βελτίωσης της απόδοσης και της ερμηνείας των αποτελεσμάτων της ομαδοποίησης. Στη μελέτη αυτή, εξερευνούμε πώς μπορούν να αξιοποιηθούν οι δυνατότητες παραγωγής κειμένου των LLMs για την Ομαδοποίηση Κειμένων. Αρχικά, διερευνούμε την ενσωμάτωση των LLMs στην παραδοσιακή μεθοδολογία ομαδοποίησης, με στόχο τη βελτίωση της απόδοσης. Συγκεκριμένα, καθοδηγώντας τα LLMs με ρητές οδηγίες, εξάγεται για κάθε κείμενο μία ετικέτα, που αφορά το κείμενο και είναι σχετική με το κριτήριο με το οποίο γίνεται η ομαδοποίηση, όπως η πρόθεση του χρήστη, το συναίσθημα, το θέμα. Το επόμενο βήμα της μεθόδου είναι η αναπαράσταση των αρχικών κειμένων και των ετικετών ως αριθμητικά διανύσματα, τα οποία εισάγονται σε αλγόριθμους ομαδοποίησης, όπως ο Συσσωρευτικός Ιεραρχικός Αλγόριθμος Ομαδοποίησης (AHC) και ο K-Means. Η υβριδική αυτή μέθοδος η οποία χρησιμοποιεί και τα LLMs και την παραδοσιακή πρακτική στην Ομαδοποίηση Κειμένων όταν εκτελείται με τον AHC επιτυγχάνει την καλύτερη μέση απόδοση στα πειράματα που αναπτύξαμε πάνω σε έντεκα σώματα κειμένων και με δύο μετρικές αξιολόγησης. Επιπλέον, προτείνουμε μια νέα μέθοδο, στην οποία τα LLMs αναλαμβάνουν απευθείας την ομαδοποίηση, παρακάμπτοντας τις παραδοσιακές μεθόδους Ομαδοποίησης Κειμένων. Η μέθοδος εκτελείται σε δύο βήματα: Αρχικά, καθοδηγούμε το LLM με ρητές οδηγίες να εξάγει για κάθε κείμενο μια ετικέτα σχετική με το κριτήριο ομαδοποίησης, όπως ακριβώς στην προηγούμενη υβριδική μέθοδο. Δίνονται στο LLM οι ήδη παραχθείσες ετικέτες από προηγούμενα κείμενα, ώστε να τις λάβει υπόψη και να παράξει νέες μόνο όταν οι υπάρχουσες δεν συνάδουν με το κείμενο. Στη συνέχεια, το LLM καλείται να ομαδοποιήσει τις παραχθείσες ετικέτες με βάση ένα προκαθορισμένο πλήθος ομάδων. Αυτές οι ετικέτες σχηματίζουν τις ομάδες, προσφέροντας μεγαλύτερη διαφάνεια και καλύτερη ερμηνεία, καθώς οι ομάδες διαμορφώνονται βάσει του περιεχομένου και των χαρακτηριστικών που αναγνωρίζονται από τα LLMs. Η ερμηνεία των ετικετών αποτελεί σημαντικό πλεονέκτημα της άμεσης ομαδοποίησης κειμένων με χρήση LLMs, που απουσιάζει από τις καθιερωμένες μεθόδους. Παρόλα αυτά, αυτή η μέθοδος δεν υπερβαίνει σε απόδοση την υβριδική προσέγγιση που συνδυάζει τα LLMs με παραδοσιακούς αλγορίθμους, και δεν επιστρέφει πάντα το απαιτούμενο πλήθος ετικετών. Συνεπώς, απαιτείται περαιτέρω έρευνα για τη βελτίωση αυτής της μεθόδου.el
heal.abstractText clustering is a fundamental task in NLP, aimed at organizing documents into groups based on their content. Traditional clustering algorithms, such as K-Means and Agglomerative Clustering (AHC), have been widely used for this purpose, but their performance in text is often limited by the inherent challenges in language understanding and extracting meaningful representations from text. Recent advancements in LLMs have opened new possibilities for improving text clustering, by leveraging their powerful language understanding and generation capabilities. This study explores the role of LLMs in enhancing the text clustering task, both through pre-clustering interventions, where LLM-generated labels are applied to traditional clustering methods, and through direct application of LLMs for text clustering. We introduce a pre-clustering approach where LLMs generate cluster labels that inform traditional clustering algorithms, significantly boosting performance. Our experiments, conducted on 11 diverse datasets, demonstrate that this approach outperforms all developed clustering methods, including those that rely on traditional clustering algorithms with earlier text representations and more recent contextual embeddings, as well as LLM-based methods that generate key phrases that inform traditional clustering algorithms. Furthermore, we examine the direct clustering potential of LLMs, which, although not always capable of producing the exact number of required clusters, achieves the second-highest average NMI and provides human-readable labels that enhance interpretability, particularly in domains requiring clarity. Our findings highlight the dual benefits of LLMs in text clustering: improving both clustering performance and the interpretability of results, making LLMs valuable tools for advancing the text clustering task.en
heal.academicPublisherΠανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικήςel
heal.academicPublisherIDuoiel
heal.accessfreeel
heal.advisorNameLikas, Aristidisen
heal.classificationΕπεξεργασία φυσικής γλώσσας (Πληροφορική)el
heal.classificationNatural language processing (Computer science)en
heal.committeeMemberNameLikas, Aristidisen
heal.committeeMemberNameΛύκας, Αριστείδηςel
heal.committeeMemberNameBlekas, Konstantinosen
heal.committeeMemberNameΜπλέκας, Κωνσταντίνοςel
heal.committeeMemberNameVlachos, Konstantinosen
heal.committeeMemberNameΒλάχος, Κωνσταντίνοςel
heal.dateAvailable2024-11-22T07:36:55Z
heal.fullTextAvailabilitytrue
heal.languageenel
heal.numberOfPages62el
heal.publicationDate2024-11
heal.recordProviderΠανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής.el
heal.typemasterThesisel
heal.type.elΜεταπτυχιακή εργασίαel
heal.type.enMaster thesisen

Αρχεία

Πρωτότυπος φάκελος/πακέτο

Προβολή: 1 - 1 of 1
Φόρτωση...
Μικρογραφία εικόνας
Ονομα:
Μ.Ε. Μπακαγιάννη Γεωργία (2024).pdf
Μέγεθος:
351.29 KB
Μορφότυπο:
Adobe Portable Document Format
Περιγραφή:

Φάκελος/Πακέτο αδειών

Προβολή: 1 - 1 of 1
Φόρτωση...
Μικρογραφία εικόνας
Ονομα:
license.txt
Μέγεθος:
3.22 KB
Μορφότυπο:
Item-specific license agreed upon to submission
Περιγραφή: