Ομαδοποίηση κειμένων με βάση τα μεγάλα γλωσσικά μοντέλα

Μπακαγιάννη, Γεωργία; Bakagianni, Georgia

Ομαδοποίηση κειμένων με βάση τα μεγάλα γλωσσικά μοντέλα

dc.contributor.author	Μπακαγιάννη, Γεωργία	el
dc.contributor.author	Bakagianni, Georgia	en
dc.date.accessioned	2024-11-22T07:35:55Z
dc.date.available	2024-11-22T07:35:55Z
dc.identifier.uri	https://olympias.lib.uoi.gr/jspui/handle/123456789/38571
dc.identifier.uri	http://dx.doi.org/10.26268/heal.uoi.18276
dc.rights	Default License
dc.subject	Ομαδοποίηση κειμένων	el
dc.subject	Μεγάλα γλωσσίκα μοντέλα	el
dc.subject	Text Clustering	en
dc.subject	Large language models	en
dc.title	Ομαδοποίηση κειμένων με βάση τα μεγάλα γλωσσικά μοντέλα	el
dc.title	Text clustering based on large language models	en
dc.type	masterThesis	en
heal.abstract	Η Ομαδοποίηση Κειμένων αποτελεί ένα βασικό πεδίο της Επεξεργασίας Φυσικής Γλώσσας (ΕΦΓ), με στόχο την ομαδοποίηση δεδομένων με βάση τις εγγενείς ομοιότητες, χωρίς τη χρήση προκαθορισμένων ετικετών κατηγορίας. Σε αντίθεση με την Κατηγοριοποίηση Κειμένων, η οποία χρησιμοποιεί εποπτευόμενη μάθηση, η ομαδοποίηση είναι ανεπίβλεπτη και αποκαλύπτει κρυμμένες δομές σε μη δομημένα δεδομένα, βοηθώντας στην εξαγωγή προτύπων και πληροφοριών από μεγάλες συλλογές κειμένων. Οι εφαρμογές της περιλαμβάνουν τη δημιουργία περιλήψεων, την ανίχνευση θεμάτων και την κατηγοριοποίηση. Παραδοσιακά, η διαδικασία αυτή περιλαμβάνει δύο στάδια: την αναπαράσταση του κειμένου ως αριθμητικά διανύσματα που αποτυπώνουν γλωσσικά χαρακτηριστικά, και την εφαρμογή ενός αλγορίθμου ομαδοποίησης για τη δημιουργία των ομάδων. Ωστόσο, οι παραγόμενες ετικέτες δεν είναι κατανοητές από τον άνθρωπο, απαιτώντας επιπλέον προσπάθεια για την εξαγωγή χρήσιμων πληροφοριών από τις ομάδες. Οι εξελίξεις στα μεγάλα γλωσσικά μοντέλα (LLMs), όπως το GPT-4, ανοίγουν νέες δυνατότητες για την ομαδοποίηση κειμένων, καθώς αυτά τα μοντέλα είναι ικανά όχι μόνο να κατανοούν, αλλά και να παράγουν συνεκτικό κείμενο. Η εκτενής εκπαίδευσή τους σε μεγάλα σώματα κειμένων με δισεκατομμύρια παραμέτρους προσφέρει τη δυνατότητα βελτίωσης της απόδοσης και της ερμηνείας των αποτελεσμάτων της ομαδοποίησης. Στη μελέτη αυτή, εξερευνούμε πώς μπορούν να αξιοποιηθούν οι δυνατότητες παραγωγής κειμένου των LLMs για την Ομαδοποίηση Κειμένων. Αρχικά, διερευνούμε την ενσωμάτωση των LLMs στην παραδοσιακή μεθοδολογία ομαδοποίησης, με στόχο τη βελτίωση της απόδοσης. Συγκεκριμένα, καθοδηγώντας τα LLMs με ρητές οδηγίες, εξάγεται για κάθε κείμενο μία ετικέτα, που αφορά το κείμενο και είναι σχετική με το κριτήριο με το οποίο γίνεται η ομαδοποίηση, όπως η πρόθεση του χρήστη, το συναίσθημα, το θέμα. Το επόμενο βήμα της μεθόδου είναι η αναπαράσταση των αρχικών κειμένων και των ετικετών ως αριθμητικά διανύσματα, τα οποία εισάγονται σε αλγόριθμους ομαδοποίησης, όπως ο Συσσωρευτικός Ιεραρχικός Αλγόριθμος Ομαδοποίησης (AHC) και ο K-Means. Η υβριδική αυτή μέθοδος η οποία χρησιμοποιεί και τα LLMs και την παραδοσιακή πρακτική στην Ομαδοποίηση Κειμένων όταν εκτελείται με τον AHC επιτυγχάνει την καλύτερη μέση απόδοση στα πειράματα που αναπτύξαμε πάνω σε έντεκα σώματα κειμένων και με δύο μετρικές αξιολόγησης. Επιπλέον, προτείνουμε μια νέα μέθοδο, στην οποία τα LLMs αναλαμβάνουν απευθείας την ομαδοποίηση, παρακάμπτοντας τις παραδοσιακές μεθόδους Ομαδοποίησης Κειμένων. Η μέθοδος εκτελείται σε δύο βήματα: Αρχικά, καθοδηγούμε το LLM με ρητές οδηγίες να εξάγει για κάθε κείμενο μια ετικέτα σχετική με το κριτήριο ομαδοποίησης, όπως ακριβώς στην προηγούμενη υβριδική μέθοδο. Δίνονται στο LLM οι ήδη παραχθείσες ετικέτες από προηγούμενα κείμενα, ώστε να τις λάβει υπόψη και να παράξει νέες μόνο όταν οι υπάρχουσες δεν συνάδουν με το κείμενο. Στη συνέχεια, το LLM καλείται να ομαδοποιήσει τις παραχθείσες ετικέτες με βάση ένα προκαθορισμένο πλήθος ομάδων. Αυτές οι ετικέτες σχηματίζουν τις ομάδες, προσφέροντας μεγαλύτερη διαφάνεια και καλύτερη ερμηνεία, καθώς οι ομάδες διαμορφώνονται βάσει του περιεχομένου και των χαρακτηριστικών που αναγνωρίζονται από τα LLMs. Η ερμηνεία των ετικετών αποτελεί σημαντικό πλεονέκτημα της άμεσης ομαδοποίησης κειμένων με χρήση LLMs, που απουσιάζει από τις καθιερωμένες μεθόδους. Παρόλα αυτά, αυτή η μέθοδος δεν υπερβαίνει σε απόδοση την υβριδική προσέγγιση που συνδυάζει τα LLMs με παραδοσιακούς αλγορίθμους, και δεν επιστρέφει πάντα το απαιτούμενο πλήθος ετικετών. Συνεπώς, απαιτείται περαιτέρω έρευνα για τη βελτίωση αυτής της μεθόδου.	el
heal.abstract	Text clustering is a fundamental task in NLP, aimed at organizing documents into groups based on their content. Traditional clustering algorithms, such as K-Means and Agglomerative Clustering (AHC), have been widely used for this purpose, but their performance in text is often limited by the inherent challenges in language understanding and extracting meaningful representations from text. Recent advancements in LLMs have opened new possibilities for improving text clustering, by leveraging their powerful language understanding and generation capabilities. This study explores the role of LLMs in enhancing the text clustering task, both through pre-clustering interventions, where LLM-generated labels are applied to traditional clustering methods, and through direct application of LLMs for text clustering. We introduce a pre-clustering approach where LLMs generate cluster labels that inform traditional clustering algorithms, significantly boosting performance. Our experiments, conducted on 11 diverse datasets, demonstrate that this approach outperforms all developed clustering methods, including those that rely on traditional clustering algorithms with earlier text representations and more recent contextual embeddings, as well as LLM-based methods that generate key phrases that inform traditional clustering algorithms. Furthermore, we examine the direct clustering potential of LLMs, which, although not always capable of producing the exact number of required clusters, achieves the second-highest average NMI and provides human-readable labels that enhance interpretability, particularly in domains requiring clarity. Our findings highlight the dual benefits of LLMs in text clustering: improving both clustering performance and the interpretability of results, making LLMs valuable tools for advancing the text clustering task.	en
heal.academicPublisher	Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής	el
heal.academicPublisherID	uoi	el
heal.access	free	el
heal.advisorName	Likas, Aristidis	en
heal.classification	Επεξεργασία φυσικής γλώσσας (Πληροφορική)	el
heal.classification	Natural language processing (Computer science)	en
heal.committeeMemberName	Likas, Aristidis	en
heal.committeeMemberName	Λύκας, Αριστείδης	el
heal.committeeMemberName	Blekas, Konstantinos	en
heal.committeeMemberName	Μπλέκας, Κωνσταντίνος	el
heal.committeeMemberName	Vlachos, Konstantinos	en
heal.committeeMemberName	Βλάχος, Κωνσταντίνος	el
heal.dateAvailable	2024-11-22T07:36:55Z
heal.fullTextAvailability	true
heal.language	en	el
heal.numberOfPages	62	el
heal.publicationDate	2024-11
heal.recordProvider	Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής.	el
heal.type	masterThesis	el
heal.type.el	Μεταπτυχιακή εργασία	el
heal.type.en	Master thesis	en

Αρχεία

Πρωτότυπος φάκελος/πακέτο

Προβολή: 1 - 1 of 1

Ονομα:: Μ.Ε. Μπακαγιάννη Γεωργία (2024).pdf
Μέγεθος:: 351.29 KB
Μορφότυπο:: Adobe Portable Document Format
Περιγραφή:

Κατεβάστε

Φάκελος/Πακέτο αδειών

Προβολή: 1 - 1 of 1

Ονομα:: license.txt
Μέγεθος:: 3.22 KB
Μορφότυπο:: Item-specific license agreed upon to submission
Περιγραφή:

Κατεβάστε

Συλλογές

Διατριβές Μεταπτυχιακής Έρευνας (Masters) - ΜΗΥΠ