Bias in knowledge graph embeddings
Φόρτωση...
Ημερομηνία
Συγγραφείς
Bourli, Styliani
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής
Περίληψη
Τύπος
Είδος δημοσίευσης σε συνέδριο
Είδος περιοδικού
Είδος εκπαιδευτικού υλικού
Όνομα συνεδρίου
Όνομα περιοδικού
Όνομα βιβλίου
Σειρά βιβλίου
Έκδοση βιβλίου
Συμπληρωματικός/δευτερεύων τίτλος
Περιγραφή
Knowledge graphs (KGs) are multi-relational directed graphs used in many tasks in recent years, including question answering, recommendation and information retrieval. They are associated with, and used by search engines such as Google, Bing, and Yahoo; and social networks such as LinkedIn and Facebook. Knowledge graph embeddings have gained a lot of attention recently, because they can map the components of a knowledge graph to a low dimensional vector space. In the era of big data, this is very important because it makes KG usage and analysis easier. But the connection of the KG embeddings production with machine learning, combined with the fact that bias learning problem using machine learning tasks receives more attention in current research, leads to concern about bias that may exists in data, transferred to the KG embeddings through learning and possibly reinforced by them. In this thesis we study the bias in KG embeddings. We first define two approaches to quantify the bias in the dataset and after their comparison we choose the one we consider more appropriate. For measuring bias in the KG embeddings, we use a projection method and an analogy puzzle to determine quantitatively and qualitatively if the bias is transferred from the data to the KG embeddings. We also apply a prediction method to study if there is in addition a bias amplification using the KG embeddings. We further detect if the popularity of some entities, or the inequality in populations of sensitive values like male, female individuals in the dataset, affects bias in KG embeddings, and, moreover, if other tasks such as clustering affected by the bias of the KG embeddings. We then define a debias method based on projections in the bias subspace. Its novelty lies on tuning the amount of bias it removes and in the usage of pretrained embeddings instead of the modification of the KG embedding model. We conduct experiments using a set of real and synthetic KGs and two widely known KG embedding models. We provide a presentation and an analysis of the results. Our approaches can be easily generalized in other datasets and more KG embedding models.
Τα γραφήματα γνώσης, είναι κατευθυνόμενα γραφήματα που περιέχουν πληροφορία διαφόρων οντοτήτων και σχέσεων του πραγματικού κόσμου. Χρησιμοποιούνται σε πολλές εφαρμογές τα τελευταία χρόνια, όπως στην ανάκτηση πληροφορίας και σε συστήματα συστάσεων, καθώς επίσης σε μηχανές αναζήτησης, όπως Google, Bing και Yahoo, αλλά επίσης και σε κοινωνικά δίκτυα, όπως το LinkedIn και το Facebook. Μερικά από τα μεγαλύτερα γραφήματα γνώσης είναι της Microsoft, του ebay, της Google και του Facebook. Υπάρχουν όμως και ανοικτά γραφήματα ελεύθερης πρόσβασης όπως το Wikidata ή παλιότερα το Freebase. Οι ενσωματώσεις γραφημάτων γνώσεις, έχουν συγκεντρώσει μεγάλο ενδιαφέρον τα τελευταία χρόνια, επειδή μπορούν και αναπαριστούν την πληροφορία των γραφημάτων γνώσης με διανύσματα σε ένα χώρο χαμηλής διάστασης. Δεδομένου του ότι ζούμε στην εποχή των μεγάλων δεδομένων, η αναπαράσταση της πληροφορίας με διανύσματα και μάλιστα σε έναν χαμηλής διάστασης διανυσματικό χώρο, βοηθάει στην ευκολότερη διαχείριση και ανάλυση των γραφημάτων. Όμως, το γεγονός ότι η παραγωγή των ενσωματώσεων είναι άμεσα συνδεδεμένη με την εφαρμογή μηχανικής μάθησης στο γράφημα, σε συνδυασμό με το πρόβλημα που έχει εντοπιστεί τα τελευταία χρόνια μεταφοράς πληροφορίας μεροληψίας μέσω της μάθησης, οδηγεί σε ανησυχία για πιθανή μετάδοση πληροφορίας που σχετίζεται με τη μεροληψία στις ενσωματώσεις, και ίσως σε ενίσχυσή της από αυτές κατά τη χρήση τους. Σε αυτή την εργασία, μελετάμε συγκεκριμένα τη μεροληψία στις ενσωματώσεις των γραφημάτων γνώσης. Όσον αφορά τα δεδομένα στο γράφημα αναμένουμε ότι, εφόσον προέρχονται από την πραγματική ζωή στην οποία υπάρχει συχνά ανισότητα και αδικία, η πληροφορία που έχουν περιέχει μεροληψία. Για να εξακριβώσουμε αν αυτό όντως συμβαίνει, αλλά και να μετρήσουμε την μεροληψία αυτή στα δεδομένα, ορίζουμε δύο μετρικές. Μετά από σύγκριση των δύο μετρικών επιλέγουμε αυτή που θεωρούμε καταλληλότερη. Στη συνέχεια, για να εξετάσουμε αν η μεροληψία μεταφέρεται από τα δεδομένα στις ενσωματώσεις, αλλά και για να μετρήσουμε ποσοτικά και ποιοτικά τη μεροληψία αυτή, χρησιμοποιούμε δύο μεθόδους, μία μέθοδο βασισμένη σε προβολές και ένα παζλ βασισμένο σε αναλογίες. Ωστόσο ενδιαφερόμαστε επιπλέον εκτός από το να εντοπίσουμε αν η μεροληψία μεταδίδεται στις ενσωματώσεις, αν ενδεχομένως ενισχύεται από αυτές, για αυτό και χρησιμοποιούμε μία μέθοδο βασισμένη σε πρόβλεψη. Μια ακόμα ενδιαφέρουσα μελέτη που κάνουμε είναι όσον αφορά τη σχέση της δημοφιλίας και της ανισότητας στον πληθυσμό δύο ευαίσθητων τιμών, όπως αντρών – γυναικών στα δεδομένα, με τη μεροληψία στις ενσωματώσεις, αλλά και αν άλλες εφαρμογές όπως η συσταδοποίηση επηρεάζονται από τη μερεοληψία αυτή. Επειδή τα αποτελέσματα επιβεβαιώνουν την ανησυχία μας όσον αφορά τη μεροληψία και επειδή οι ενσωματώσεις των γραφημάτων γνώσης χρησιμοποιούνται ευρέως σε πολλές σημαντικές εφαρμογές, κρίνουμε στη συνέχεια αναγκαίο τον ορισμό μίας μεθόδου αφαίρεσης της πληροφορίας αυτής από τα διανύσματα. Η καινοτομία του έγκειται στη δυνατότητα επιλογής της ποσότητας της μεροληψίας που αφαιρείται και στη χρήση προ-εκπαιδευμένων ενσωματώσεων αντί της τροποποίησης του μοντέλου παραγωγής τους. Για να εξετάσουμε αν ισχύουν οι ισχυρισμοί μας, αλλά και για να αξιολογήσουμε τις μεθόδους μας χρησιμοποιούμε δύο πολύ γνωστά γραφήματα γνώσεων, το Wikidata και το FB13, και ένα σύνολο από συνθετικά γραφήματα. Χρησιμοποιούμε επιπλέον ενσωματώσεις που παράγουμε μέσω δύο διάσημων μοντέλων, του TransE και του TransH. Στην εργασία παρουσιάζουμε αναλυτικά όλα τα αποτελέσματα και τα συμπεράσματα από τα πειράματα μας. Είναι σημαντικό ότι οι μέθοδοι που προτείνουμε μπορούν εύκολα να επεκταθούν και να χρησιμοποιηθούν και σε άλλα γραφήματα, και σε ενσωματώσεις παραγόμενες από άλλα μοντέλα.
Τα γραφήματα γνώσης, είναι κατευθυνόμενα γραφήματα που περιέχουν πληροφορία διαφόρων οντοτήτων και σχέσεων του πραγματικού κόσμου. Χρησιμοποιούνται σε πολλές εφαρμογές τα τελευταία χρόνια, όπως στην ανάκτηση πληροφορίας και σε συστήματα συστάσεων, καθώς επίσης σε μηχανές αναζήτησης, όπως Google, Bing και Yahoo, αλλά επίσης και σε κοινωνικά δίκτυα, όπως το LinkedIn και το Facebook. Μερικά από τα μεγαλύτερα γραφήματα γνώσης είναι της Microsoft, του ebay, της Google και του Facebook. Υπάρχουν όμως και ανοικτά γραφήματα ελεύθερης πρόσβασης όπως το Wikidata ή παλιότερα το Freebase. Οι ενσωματώσεις γραφημάτων γνώσεις, έχουν συγκεντρώσει μεγάλο ενδιαφέρον τα τελευταία χρόνια, επειδή μπορούν και αναπαριστούν την πληροφορία των γραφημάτων γνώσης με διανύσματα σε ένα χώρο χαμηλής διάστασης. Δεδομένου του ότι ζούμε στην εποχή των μεγάλων δεδομένων, η αναπαράσταση της πληροφορίας με διανύσματα και μάλιστα σε έναν χαμηλής διάστασης διανυσματικό χώρο, βοηθάει στην ευκολότερη διαχείριση και ανάλυση των γραφημάτων. Όμως, το γεγονός ότι η παραγωγή των ενσωματώσεων είναι άμεσα συνδεδεμένη με την εφαρμογή μηχανικής μάθησης στο γράφημα, σε συνδυασμό με το πρόβλημα που έχει εντοπιστεί τα τελευταία χρόνια μεταφοράς πληροφορίας μεροληψίας μέσω της μάθησης, οδηγεί σε ανησυχία για πιθανή μετάδοση πληροφορίας που σχετίζεται με τη μεροληψία στις ενσωματώσεις, και ίσως σε ενίσχυσή της από αυτές κατά τη χρήση τους. Σε αυτή την εργασία, μελετάμε συγκεκριμένα τη μεροληψία στις ενσωματώσεις των γραφημάτων γνώσης. Όσον αφορά τα δεδομένα στο γράφημα αναμένουμε ότι, εφόσον προέρχονται από την πραγματική ζωή στην οποία υπάρχει συχνά ανισότητα και αδικία, η πληροφορία που έχουν περιέχει μεροληψία. Για να εξακριβώσουμε αν αυτό όντως συμβαίνει, αλλά και να μετρήσουμε την μεροληψία αυτή στα δεδομένα, ορίζουμε δύο μετρικές. Μετά από σύγκριση των δύο μετρικών επιλέγουμε αυτή που θεωρούμε καταλληλότερη. Στη συνέχεια, για να εξετάσουμε αν η μεροληψία μεταφέρεται από τα δεδομένα στις ενσωματώσεις, αλλά και για να μετρήσουμε ποσοτικά και ποιοτικά τη μεροληψία αυτή, χρησιμοποιούμε δύο μεθόδους, μία μέθοδο βασισμένη σε προβολές και ένα παζλ βασισμένο σε αναλογίες. Ωστόσο ενδιαφερόμαστε επιπλέον εκτός από το να εντοπίσουμε αν η μεροληψία μεταδίδεται στις ενσωματώσεις, αν ενδεχομένως ενισχύεται από αυτές, για αυτό και χρησιμοποιούμε μία μέθοδο βασισμένη σε πρόβλεψη. Μια ακόμα ενδιαφέρουσα μελέτη που κάνουμε είναι όσον αφορά τη σχέση της δημοφιλίας και της ανισότητας στον πληθυσμό δύο ευαίσθητων τιμών, όπως αντρών – γυναικών στα δεδομένα, με τη μεροληψία στις ενσωματώσεις, αλλά και αν άλλες εφαρμογές όπως η συσταδοποίηση επηρεάζονται από τη μερεοληψία αυτή. Επειδή τα αποτελέσματα επιβεβαιώνουν την ανησυχία μας όσον αφορά τη μεροληψία και επειδή οι ενσωματώσεις των γραφημάτων γνώσης χρησιμοποιούνται ευρέως σε πολλές σημαντικές εφαρμογές, κρίνουμε στη συνέχεια αναγκαίο τον ορισμό μίας μεθόδου αφαίρεσης της πληροφορίας αυτής από τα διανύσματα. Η καινοτομία του έγκειται στη δυνατότητα επιλογής της ποσότητας της μεροληψίας που αφαιρείται και στη χρήση προ-εκπαιδευμένων ενσωματώσεων αντί της τροποποίησης του μοντέλου παραγωγής τους. Για να εξετάσουμε αν ισχύουν οι ισχυρισμοί μας, αλλά και για να αξιολογήσουμε τις μεθόδους μας χρησιμοποιούμε δύο πολύ γνωστά γραφήματα γνώσεων, το Wikidata και το FB13, και ένα σύνολο από συνθετικά γραφήματα. Χρησιμοποιούμε επιπλέον ενσωματώσεις που παράγουμε μέσω δύο διάσημων μοντέλων, του TransE και του TransH. Στην εργασία παρουσιάζουμε αναλυτικά όλα τα αποτελέσματα και τα συμπεράσματα από τα πειράματα μας. Είναι σημαντικό ότι οι μέθοδοι που προτείνουμε μπορούν εύκολα να επεκταθούν και να χρησιμοποιηθούν και σε άλλα γραφήματα, και σε ενσωματώσεις παραγόμενες από άλλα μοντέλα.
Περιγραφή
Λέξεις-κλειδιά
Knowledge graphs, Knowledge graph embeddings, Bias, Machine learning, Γραφήματα γνώσης, Ενσωματώσεις γραφημάτων γνώσης, Μεροληψία, Μηχανική μάθηση
Θεματική κατηγορία
Machine learning
Παραπομπή
Σύνδεσμος
Γλώσσα
en
Εκδίδον τμήμα/τομέας
Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής
Όνομα επιβλέποντος
Πιτουρά, Ευαγγελία
Εξεταστική επιτροπή
Πιτουρά, Ευαγγελία
Βασιλειάδης, Παναγιώτης
Τσαπάρας, Παναγιώτης
Βασιλειάδης, Παναγιώτης
Τσαπάρας, Παναγιώτης
Γενική Περιγραφή / Σχόλια
Ίδρυμα και Σχολή/Τμήμα του υποβάλλοντος
Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής
Πίνακας περιεχομένων
Χορηγός
Βιβλιογραφική αναφορά
Βιβλιογραφία: σ. 58-60
Ονόματα συντελεστών
Αριθμός σελίδων
61 σ.
Λεπτομέρειες μαθήματος
item.page.endorsement
item.page.review
item.page.supplemented
item.page.referenced
Άδεια Creative Commons
Άδεια χρήσης της εγγραφής: Attribution-NonCommercial-NoDerivs 3.0 United States