Bias disparity in recommendation systems
Φόρτωση...
Ημερομηνία
Συγγραφείς
Τσίντζου, Βιργινία
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής
Περίληψη
Τύπος
Είδος δημοσίευσης σε συνέδριο
Είδος περιοδικού
Είδος εκπαιδευτικού υλικού
Όνομα συνεδρίου
Όνομα περιοδικού
Όνομα βιβλίου
Σειρά βιβλίου
Έκδοση βιβλίου
Συμπληρωματικός/δευτερεύων τίτλος
Περιγραφή
Recommender systems have been applied successfully in a number of different
domains, such as, entertainment, commerce, and employment. Their success lies in
their ability to exploit the collective behavior of users in order to deliver highly
targeted, personalized recommendations. Given that recommenders learn from user
preferences, they incorporate different biases that users exhibit in the input data. More
importantly, there are cases where recommenders may amplify such biases, leading
to the phenomenon of bias disparity. Amplifying bias for different groups of users can
lead to isolating sensitive groups or indirect discrimination.
The goal of this thesis is to study bias disparity in recommender systems. To this
end, we define metrics for bias and bias disparity for recommendation systems. Then,
we consider variants of the K-Nearest Neighbors recommendation algorithms, and
we perform a systematic analysis of their behavior using synthetic data. The goal is to
understand the conditions under which those algorithms exhibit bias disparity, and
the long-term effect of recommendations on data bias. We observe that even moderate
amount of bias, and small biased groups can lead to significant bias amplification.
Using the Movielens dataset, we also present cases of real data where bias is observed
and confirm bias disparity on recommendations.
To address the problem of bias disparity, two algorithms that post-process recommendations
are considered. The algorithms re-rank the results of any recommendation
algorithm in order to produce new sets of recommendations where bias disparity
is eliminated. Each bias correcting algorithm aims at providing useful recommendations
by targeting the utility of the user group or the least satisfied user in the group. We conclude that correcting bias in recommendations slows down the polarization of
users in the long-term.
Τα συστήματα συστάσεων έχουν μεγάλο πλήθος εφαρμογών, που συχνά βρίσκο- νται στο διαδίκτυο. Για παράδειγμα, ηλεκτρονικά καταστήματα τα χρησιμοποιούν για να προτέινουν προϊόντα στους χρήστες, μέσα κοινωνικής δικτύωσης προτείνουν τη σύνδεση με άλλους χρήστες, μηχανές αναζήτησης εργασίας προτείνουν θέσεις εργασίας σχετικές με τους χρήστες, κ.ά. Η χρησιμότητα και η αποτελεσματικότητα των αλγορίθμων συστάσεων οφείλεται στο γεγονός ότι βασίζονται στις ιδιαίτερες προτιμήσεις των χρηστών που συλλέγονται από τις αλληλεπιδράσεις τους με κά- ποιο σύστημα. Τα μοντέλα συστάσεων ενσωματώνουν τις προτιμήσεις αυτές και παράγουν πιο στοχευμένες προσωπικές συστάσεις. Οι επιλογές των χρηστών συ- χνά χαρακτηρίζονται από διάφορες προκαταλήψεις. Η εκπαίδευση ενός μοντέλου σε δεδομένα που χαρακτηρίζονται από τη μεροληψία των χρηστών, οδηγεί στην αναπαραγωγή και αύξηση της προκατάληψης στις συστάσεις. Η αύξηση της προ- κατάληψης στις συστάσεις σε συγκεκριμένες ομάδες χρηστών μπορεί να οδηγήσει στην αναπαραγωγή στερεοτύπων, διακρίσεις και απομόνωση ευαίσθητων κοινωνι- κών ομάδων. Αυτή η εργασία έχει στόχο να μελετήσει την ανισότητα της προκατάληψης με- ταξύ των δεδομένων προτιμήσεων των χρηστών και των συστάσεων των αλγορίθ- μων. Ορίζουμε μετρικές για την προκατάληψη και την ανισότητα της προκατάλη- ψης των συστημάτων συστάσεων. Επιλέγουμε τέσσερα διαφορετικά μοντέλα συ- στάσεων που είναι διάφορες παραλλαγές του αλγορίθμου Κοντινότεροι Γείτονες και δημιουργώντας συνθετικά δεδομένα, παρατηρούμε τη συμπεριφορά των αλ- γορίθμων συστάσεων σε διάφορες περιπτώσεις με στόχο να κατανοήσουμε ποιες συνθήκες προκαλούν αύξηση της προκατάληψης στις συστάσεις. Επιπλέον, μελε- τάμε την μακροπρόθεσμη επίδραση των μοντέλων ενσωματώνοντας τις συστάσεις στα δεδομένα. Διαπιστώνουμε ότι ακόμη και στις περιπτώσεις που τα δεδομένα προτιμήσεων των χρηστών χαρακτηρίζονται από μέτρια προκατάληψη ή υπάρχουν μικρές ομάδες χρηστών με προκατάληψη, τότε οι συστάσεις μπορεί να οδηγηθούν σε σημαντική αύξηση της προκατάληψης στα αποτελέσματα. Παρουσιάζουμε πε- ριπτώσεις πραγματικών δεδομένων με προκατάληψη χρησιμοποιώντας το σύνολο δεδομένων Movielens, οι οποίες επιβεβαιώνουν τα ευρήματα. Τέλος, για να αντιμετωπιστεί το πρόβλημα της ανισότητας της προκατάληψης στις συστάσεις, προτείνουμε δύο αλγορίθμους επεξεργασίας των συστάσεων από οποιοδήποτε υπάρχον μοντέλο. Οι αλγόριθμοι αναδιατάσσουν τα αποτελέσματα του αλγορίθμου συστάσεων και παράγουν νέα σύνολα συστάσεων που διατηρούν σταθερή την προκατάληψη των δεδομένων εισόδου. Οι αλγόριθμοι διόρθωσης πα- ράλληλα στοχεύουν να επιστρέφουν αξιόλογες συστάσεις που έχουν υψηλή χρησι- μότητα, η οποία ορίζεται είτε για το σύνολο μιας ομάδας χρηστών, είτε ατομικά για όλους τους χρήστες. Ο πρώτος αλγόριθμος ονομάζεται GULM και στοχεύει οι νέες συστάσεις να έχουν χαμηλή απώλεια χρησιμότητας σε σχέση με τις αρχικές συστάσεις, κατά μέσο όρο, για όλη την ομάδα χρηστών. Ο δεύτερος αλγόριθμος ονο- μάζεται MULM και παράγει νέες συστάσεις οι οποίες δεν αδικούν κάποιο χρήστη και ελαχιστοποιούν τη μέγιστη απώλεια χρήστη, δηλαδή την απώλεια χρησιμότητας στο νέο σύνολο συστάσεων για το χρήστη σε σχέση με το αρχικό. Εξετάζουμε τη συμπεριφορά των αλγορίθμων διόρθωσης και επιβεβαιώνουμε την αποδοτικότητά τους.
Τα συστήματα συστάσεων έχουν μεγάλο πλήθος εφαρμογών, που συχνά βρίσκο- νται στο διαδίκτυο. Για παράδειγμα, ηλεκτρονικά καταστήματα τα χρησιμοποιούν για να προτέινουν προϊόντα στους χρήστες, μέσα κοινωνικής δικτύωσης προτείνουν τη σύνδεση με άλλους χρήστες, μηχανές αναζήτησης εργασίας προτείνουν θέσεις εργασίας σχετικές με τους χρήστες, κ.ά. Η χρησιμότητα και η αποτελεσματικότητα των αλγορίθμων συστάσεων οφείλεται στο γεγονός ότι βασίζονται στις ιδιαίτερες προτιμήσεις των χρηστών που συλλέγονται από τις αλληλεπιδράσεις τους με κά- ποιο σύστημα. Τα μοντέλα συστάσεων ενσωματώνουν τις προτιμήσεις αυτές και παράγουν πιο στοχευμένες προσωπικές συστάσεις. Οι επιλογές των χρηστών συ- χνά χαρακτηρίζονται από διάφορες προκαταλήψεις. Η εκπαίδευση ενός μοντέλου σε δεδομένα που χαρακτηρίζονται από τη μεροληψία των χρηστών, οδηγεί στην αναπαραγωγή και αύξηση της προκατάληψης στις συστάσεις. Η αύξηση της προ- κατάληψης στις συστάσεις σε συγκεκριμένες ομάδες χρηστών μπορεί να οδηγήσει στην αναπαραγωγή στερεοτύπων, διακρίσεις και απομόνωση ευαίσθητων κοινωνι- κών ομάδων. Αυτή η εργασία έχει στόχο να μελετήσει την ανισότητα της προκατάληψης με- ταξύ των δεδομένων προτιμήσεων των χρηστών και των συστάσεων των αλγορίθ- μων. Ορίζουμε μετρικές για την προκατάληψη και την ανισότητα της προκατάλη- ψης των συστημάτων συστάσεων. Επιλέγουμε τέσσερα διαφορετικά μοντέλα συ- στάσεων που είναι διάφορες παραλλαγές του αλγορίθμου Κοντινότεροι Γείτονες και δημιουργώντας συνθετικά δεδομένα, παρατηρούμε τη συμπεριφορά των αλ- γορίθμων συστάσεων σε διάφορες περιπτώσεις με στόχο να κατανοήσουμε ποιες συνθήκες προκαλούν αύξηση της προκατάληψης στις συστάσεις. Επιπλέον, μελε- τάμε την μακροπρόθεσμη επίδραση των μοντέλων ενσωματώνοντας τις συστάσεις στα δεδομένα. Διαπιστώνουμε ότι ακόμη και στις περιπτώσεις που τα δεδομένα προτιμήσεων των χρηστών χαρακτηρίζονται από μέτρια προκατάληψη ή υπάρχουν μικρές ομάδες χρηστών με προκατάληψη, τότε οι συστάσεις μπορεί να οδηγηθούν σε σημαντική αύξηση της προκατάληψης στα αποτελέσματα. Παρουσιάζουμε πε- ριπτώσεις πραγματικών δεδομένων με προκατάληψη χρησιμοποιώντας το σύνολο δεδομένων Movielens, οι οποίες επιβεβαιώνουν τα ευρήματα. Τέλος, για να αντιμετωπιστεί το πρόβλημα της ανισότητας της προκατάληψης στις συστάσεις, προτείνουμε δύο αλγορίθμους επεξεργασίας των συστάσεων από οποιοδήποτε υπάρχον μοντέλο. Οι αλγόριθμοι αναδιατάσσουν τα αποτελέσματα του αλγορίθμου συστάσεων και παράγουν νέα σύνολα συστάσεων που διατηρούν σταθερή την προκατάληψη των δεδομένων εισόδου. Οι αλγόριθμοι διόρθωσης πα- ράλληλα στοχεύουν να επιστρέφουν αξιόλογες συστάσεις που έχουν υψηλή χρησι- μότητα, η οποία ορίζεται είτε για το σύνολο μιας ομάδας χρηστών, είτε ατομικά για όλους τους χρήστες. Ο πρώτος αλγόριθμος ονομάζεται GULM και στοχεύει οι νέες συστάσεις να έχουν χαμηλή απώλεια χρησιμότητας σε σχέση με τις αρχικές συστάσεις, κατά μέσο όρο, για όλη την ομάδα χρηστών. Ο δεύτερος αλγόριθμος ονο- μάζεται MULM και παράγει νέες συστάσεις οι οποίες δεν αδικούν κάποιο χρήστη και ελαχιστοποιούν τη μέγιστη απώλεια χρήστη, δηλαδή την απώλεια χρησιμότητας στο νέο σύνολο συστάσεων για το χρήστη σε σχέση με το αρχικό. Εξετάζουμε τη συμπεριφορά των αλγορίθμων διόρθωσης και επιβεβαιώνουμε την αποδοτικότητά τους.
Περιγραφή
Λέξεις-κλειδιά
Recommendation systems
Θεματική κατηγορία
Recommendation systems
Παραπομπή
Σύνδεσμος
Γλώσσα
en
Εκδίδον τμήμα/τομέας
Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής
Όνομα επιβλέποντος
Τσαπάρας, Παναγιώτης
Εξεταστική επιτροπή
Τσαπάρας, Παναγιώτης
Μαμουλής, Νικόλαος
Πιτουρά, Ευαγγελία
Μαμουλής, Νικόλαος
Πιτουρά, Ευαγγελία
Γενική Περιγραφή / Σχόλια
Ίδρυμα και Σχολή/Τμήμα του υποβάλλοντος
Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής
Πίνακας περιεχομένων
Χορηγός
Βιβλιογραφική αναφορά
Βιβλιογραφία: σ. 55-58
Ονόματα συντελεστών
Αριθμός σελίδων
60 σ.