Analysis and processing of medical and other related big data
Loading...
Date
Authors
Pezoulas, Vasileios C.
Πεζούλας, Βασίλειος Χ.
Journal Title
Journal ISSN
Volume Title
Publisher
Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Επιστήμης Υλικών
Abstract
Type
Type of the conference item
Journal type
Educational material type
Conference Name
Journal name
Book name
Book series
Book edition
Alternative title / Subtitle
Description
The reduced quality and the increased structural and conceptual heterogeneity of the clinical databases combined with the presence of data silos obscure the sharing and analysis of medical data. These open issues in healthcare leverage the development and secure deployment of robust and unbiased AI (Artificial Intelligence) workflows to address clinical unmet needs, including: (i) the development of robust disease classification and risk stratification models, (ii) the detection of new biomarkers, and (iii) the discovery of targeted therapies, among others. In this thesis, we aim to address the open issues and unmet needs in healthcare through the development of beyond the state of the art methods which are built on top of four main innovation areas: (i) Innovation Area 1 - data curation, where we propose a fully automated, efficient and scalable medical data curation workflow to enhance the quality of the diverse medical data including clinical and genetic data across multiple time-points, (ii) Innovation Area 2 - data harmonization, where we propose a hybrid, fully automated data harmonization workflow combining lexical and semantic analysis based on word embeddings which is built on top of external knowledge bases to overcome structural heterogeneities across clinical databases, (iii) Innovation Area 3 - synthetic data generation, where we propose a large-scale synthetic data generator to significantly enhance the statistical power of clinical databases with insufficient population size in order to enable the simulation of clinical trials, as well as, to enhance the classification performance of the existing AI models through data augmentation, and (iv) Innovation Area 4 – federated/distributed learning, where we propose a federated AI deployment framework which removes the need for the installation of local servers or any type of software in each site through the adoption of a federated AI modeling engine supporting a large family of federated AI algorithms yielding interpretable and explainable AI models. The proposed four stage workflow was evaluated across six different clinical domains, including autoimmune diseases (AD) and particularly in primary Sjogren’s Syndrome (pSS), hypertrophic cardiomyopathy (HCM), cardiovascular diseases (CVD), mental disorders (MD), systemic autoinflammatory diseases (SAIDs), and particularly Kawasaki disease (KD), and Coronavirus disease (COVID-19). The applicability of the proposed workflow was successfully demonstrated by: (i) enhancing the quality of the clinical and laboratory data in pSS, HCM, COVID-19, CVD, MD, KD, (ii) reducing the levels of structural and conceptual heterogeneity among the clinical and laboratory data in pSS, CVD, MD and at the same time enabling the evaluation of cross-domain data harmonization, (iii) producing high quality and large scale synthetic data for in silico clinical trials in HCM, (iv) augmenting the existing lymphoma classification models in pSS and HCM risk stratification models, and (v) producing robust AI models for lymphoma classification in pSS, the detection of biomarkers for lymphomagenesis, the detection of biomarkers for Kawasaki disease, HCM risk stratification, ICU admission and mortality classification in COVID-19.
Η μειωμένη ποιότητα και η αυξημένη δομική και εννοιολογική ετερογένεια των κλινικών βάσεων δεδομένων παγκοσμίως σε συνδυασμό με την παρουσία silo δεδομένων δυσκολεύουν τον διαμοιρασμό, την διασύνδεση και την επικείμενη ανάλυση των ιατρικών δεδομένων. Αυτά τα ανοιχτά ζητήματα στον τομέα της υγείας αναδεικνύουν την ανάγκη τον σχεδιασμό και την ανάπτυξη ασφαλών και αμερόληπτων ροών εργασίας AI (Τεχνητή Νοημοσύνη) για την αντιμετώπιση κλινικών ανεκπλήρωτων αναγκών, όπως: (i) η ανάπτυξη ισχυρών μοντέλων ταξινόμησης ασθενειών και διαστρωμάτωσης κινδύνου, (ii) η ανίχνευση νέων βιοδεικτών, και (iii) η ανακάλυψη στοχευμένων θεραπειών, μεταξύ άλλων. Σε αυτή τη διατριβή, στοχεύουμε να αντιμετωπίσουμε τα ανοιχτά ζητήματα και τις ανεκπλήρωτες ανάγκες στον τομέα της υγείας μέσω της ανάπτυξης καινοτόμων μεθόδων και ροών εργασίας, οι οποίες δομήθηκαν γύρω από τέσσερις κύριους τομείς καινοτομίας: (i) Περιοχή Καινοτομίας 1 - Εξυγίανση δεδομένων (data curation), όπου προτείνουμε μια πλήρως αυτοματοποιημένη, αποτελεσματική και επεκτάσιμη ροή εργασιών εξυγίανσης των ιατρικών δεδομένων για τη βελτίωση της ποιότητας των ιατρικών δεδομένων, συμπεριλαμβανομένων των κλινικών και γενετικών δεδομένων σε πολλαπλά χρονικά σημεία, (ii) Τομέας Καινοτομίας 2 - εναρμόνιση δεδομένων (data harmonization), όπου προτείνουμε μια υβριδική και πλήρως αυτοματοποιημένη μέθοδο εναρμόνισης δεδομένων που συνδυάζει την λεκτική και την σημασιολογική ανάλυση βασισμένη σε ενσωματώσεις λέξεων, η οποία δομήθηκε γύρω από εξωτερικές βάσεις γνώσεων για να ξεπεραστούν οι δομικές και εννοιολογικές ετερογένειες σε κλινικές βάσεις δεδομένων, (iii) Τομέας Καινοτομίας 3 - παραγωγή συνθετικών δεδομένων (synthetic data generation), όπου προτείνουμε μια γεννήτρια μεγάλης κλίμακας συνθετικών δεδομένων με στόχο να ενισχύσει σημαντικά τη στατιστική ισχύ των κλινικών βάσεων δεδομένων με ανεπαρκές μέγεθος πληθυσμού, προκειμένου να καταστεί δυνατή η προσομοίωση κλινικών δοκιμών, καθώς και για τη βελτίωση της απόδοσης της ταξινόμησης των υφιστάμενων μοντέλων τεχνητής νοημοσύνης μέσω της επαύξησης δεδομένων και (iv) Τομέας Καινοτομίας 4 – κατανεμημένη μάθηση εντός και εκτός του νέφους (Federated/distributed learning), όπου προτείνουμε ένα πλαίσιο ανάπτυξης κατανεμημένων μοντέλων τεχνητής νοημοσύνης που καταργεί την ανάγκη εγκατάστασης τοπικών διακομιστών και την εγκατάσταση οποιουδήποτε είδους λογισμικού σε κάθε silo δεδομένων μέσω της υιοθέτησης μιας κατανεμημένης μηχανής μοντελοποίησης AI που υποστηρίζει μια μεγάλη οικογένεια κατανεμημένων αλγορίθμων τεχνητής νοημοσύνης που παράγουν ερμηνεύσιμα και επεξηγήσιμα μοντέλα τεχνητής νοημοσύνης. Η προτεινόμενη μεθοδολογία τεσσάρων σταδίων αξιολογήθηκε σε έξι διαφορετικούς κλινικούς τομείς, συμπεριλαμβανομένων των αυτοάνοσων νοσημάτων (AD) και συγκεκριμένα στο πρωτοπαθές σύνδρομο Sjögren (pSS), την υπερτροφική μυοκαρδιοπάθεια (HCM), τις καρδιαγγειακές παθήσεις (CVD), τις ψυχικές διαταραχές (MD), τις συστημικές αυτοφλεγμονώδεις νόσους (SAIDs) και συγκεκριμένα της νόσου Kawasaki (KD) και τέλος του COVID-19. Η κλινική και τεχνική απήχηση της προτεινόμενης μεθοδολογίας αποδείχθηκε επιτυχής δεδομένου ότι οδήγησε: (i) στην βελτίωση της ποιότητας των κλινικών και εργαστηριακών δεδομένων στις ασθένειες pSS, HCM, COVID-19, CVD, MD, KD, (ii) στην μείωση των επιπέδων δομικής και εννοιολογικής ετερογένειας μεταξύ κλινικών και εργαστηριακών δεδομένα στις ασθένειες pSS, CVD, MD και ταυτόχρονα επιτρέποντας την αξιολόγηση της εναρμόνισης δεδομένων μεταξύ τομέων, (iii) στην παραγωγή συνθετικών δεδομένων υψηλής ποιότητας και μεγάλης κλίμακας για κλινικές δοκιμές πυριτίου στην HCM, (iv) στην βελτίωση της απόδοσης των υπαρχόντων μοντέλων ταξινόμησης λεμφώματος και διαστρωμάτωσης κινδύνου στις ασθένειες pSS και HCM μέσω της τεχνικής επαύξησης των δεδομένων, και (v) στην παραγωγή ισχυρών μοντέλων AI για ταξινόμηση λεμφώματος σε ασθενείς με pSS, ανίχνευση βιοδεικτών για λεμφογένεση σε ασθενείς με pSS, στην ανίχνευση βιοδεικτών για τη νόσο Kawasaki, στην διαστρωμάτωση κινδύνου σε ασθενείς με HCM, στην πρόβλεψη εισαγωγής ασθενών με COVID-19 στη ΜΕΘ και στην πρόβλεψη της θνησιμότητας αυτών.
Η μειωμένη ποιότητα και η αυξημένη δομική και εννοιολογική ετερογένεια των κλινικών βάσεων δεδομένων παγκοσμίως σε συνδυασμό με την παρουσία silo δεδομένων δυσκολεύουν τον διαμοιρασμό, την διασύνδεση και την επικείμενη ανάλυση των ιατρικών δεδομένων. Αυτά τα ανοιχτά ζητήματα στον τομέα της υγείας αναδεικνύουν την ανάγκη τον σχεδιασμό και την ανάπτυξη ασφαλών και αμερόληπτων ροών εργασίας AI (Τεχνητή Νοημοσύνη) για την αντιμετώπιση κλινικών ανεκπλήρωτων αναγκών, όπως: (i) η ανάπτυξη ισχυρών μοντέλων ταξινόμησης ασθενειών και διαστρωμάτωσης κινδύνου, (ii) η ανίχνευση νέων βιοδεικτών, και (iii) η ανακάλυψη στοχευμένων θεραπειών, μεταξύ άλλων. Σε αυτή τη διατριβή, στοχεύουμε να αντιμετωπίσουμε τα ανοιχτά ζητήματα και τις ανεκπλήρωτες ανάγκες στον τομέα της υγείας μέσω της ανάπτυξης καινοτόμων μεθόδων και ροών εργασίας, οι οποίες δομήθηκαν γύρω από τέσσερις κύριους τομείς καινοτομίας: (i) Περιοχή Καινοτομίας 1 - Εξυγίανση δεδομένων (data curation), όπου προτείνουμε μια πλήρως αυτοματοποιημένη, αποτελεσματική και επεκτάσιμη ροή εργασιών εξυγίανσης των ιατρικών δεδομένων για τη βελτίωση της ποιότητας των ιατρικών δεδομένων, συμπεριλαμβανομένων των κλινικών και γενετικών δεδομένων σε πολλαπλά χρονικά σημεία, (ii) Τομέας Καινοτομίας 2 - εναρμόνιση δεδομένων (data harmonization), όπου προτείνουμε μια υβριδική και πλήρως αυτοματοποιημένη μέθοδο εναρμόνισης δεδομένων που συνδυάζει την λεκτική και την σημασιολογική ανάλυση βασισμένη σε ενσωματώσεις λέξεων, η οποία δομήθηκε γύρω από εξωτερικές βάσεις γνώσεων για να ξεπεραστούν οι δομικές και εννοιολογικές ετερογένειες σε κλινικές βάσεις δεδομένων, (iii) Τομέας Καινοτομίας 3 - παραγωγή συνθετικών δεδομένων (synthetic data generation), όπου προτείνουμε μια γεννήτρια μεγάλης κλίμακας συνθετικών δεδομένων με στόχο να ενισχύσει σημαντικά τη στατιστική ισχύ των κλινικών βάσεων δεδομένων με ανεπαρκές μέγεθος πληθυσμού, προκειμένου να καταστεί δυνατή η προσομοίωση κλινικών δοκιμών, καθώς και για τη βελτίωση της απόδοσης της ταξινόμησης των υφιστάμενων μοντέλων τεχνητής νοημοσύνης μέσω της επαύξησης δεδομένων και (iv) Τομέας Καινοτομίας 4 – κατανεμημένη μάθηση εντός και εκτός του νέφους (Federated/distributed learning), όπου προτείνουμε ένα πλαίσιο ανάπτυξης κατανεμημένων μοντέλων τεχνητής νοημοσύνης που καταργεί την ανάγκη εγκατάστασης τοπικών διακομιστών και την εγκατάσταση οποιουδήποτε είδους λογισμικού σε κάθε silo δεδομένων μέσω της υιοθέτησης μιας κατανεμημένης μηχανής μοντελοποίησης AI που υποστηρίζει μια μεγάλη οικογένεια κατανεμημένων αλγορίθμων τεχνητής νοημοσύνης που παράγουν ερμηνεύσιμα και επεξηγήσιμα μοντέλα τεχνητής νοημοσύνης. Η προτεινόμενη μεθοδολογία τεσσάρων σταδίων αξιολογήθηκε σε έξι διαφορετικούς κλινικούς τομείς, συμπεριλαμβανομένων των αυτοάνοσων νοσημάτων (AD) και συγκεκριμένα στο πρωτοπαθές σύνδρομο Sjögren (pSS), την υπερτροφική μυοκαρδιοπάθεια (HCM), τις καρδιαγγειακές παθήσεις (CVD), τις ψυχικές διαταραχές (MD), τις συστημικές αυτοφλεγμονώδεις νόσους (SAIDs) και συγκεκριμένα της νόσου Kawasaki (KD) και τέλος του COVID-19. Η κλινική και τεχνική απήχηση της προτεινόμενης μεθοδολογίας αποδείχθηκε επιτυχής δεδομένου ότι οδήγησε: (i) στην βελτίωση της ποιότητας των κλινικών και εργαστηριακών δεδομένων στις ασθένειες pSS, HCM, COVID-19, CVD, MD, KD, (ii) στην μείωση των επιπέδων δομικής και εννοιολογικής ετερογένειας μεταξύ κλινικών και εργαστηριακών δεδομένα στις ασθένειες pSS, CVD, MD και ταυτόχρονα επιτρέποντας την αξιολόγηση της εναρμόνισης δεδομένων μεταξύ τομέων, (iii) στην παραγωγή συνθετικών δεδομένων υψηλής ποιότητας και μεγάλης κλίμακας για κλινικές δοκιμές πυριτίου στην HCM, (iv) στην βελτίωση της απόδοσης των υπαρχόντων μοντέλων ταξινόμησης λεμφώματος και διαστρωμάτωσης κινδύνου στις ασθένειες pSS και HCM μέσω της τεχνικής επαύξησης των δεδομένων, και (v) στην παραγωγή ισχυρών μοντέλων AI για ταξινόμηση λεμφώματος σε ασθενείς με pSS, ανίχνευση βιοδεικτών για λεμφογένεση σε ασθενείς με pSS, στην ανίχνευση βιοδεικτών για τη νόσο Kawasaki, στην διαστρωμάτωση κινδύνου σε ασθενείς με HCM, στην πρόβλεψη εισαγωγής ασθενών με COVID-19 στη ΜΕΘ και στην πρόβλεψη της θνησιμότητας αυτών.
Description
Keywords
Artificial Intelligence, Machine learning, Data curation, Data harmonization, Synthetic generation, Federated learning, Biomedical engineering, Τεχνητή νοημοσύνη, Μηχανική μάθηση, Εξυγίανση δεδομένων, Εναρμόνιση δεδομένων, Δημιουργία συνθετικών δεδομένων, Εκμάθηση εντός του νέφους, Βιοϊατρική μηχανική
Subject classification
Artificial Intelligence
Citation
Link
Language
en
Publishing department/division
Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Επιστήμης Υλικών
Advisor name
Φωτιάδης, Δημήτριος
Examining committee
Φωτιάδης, Δημήτριος
Γεργίδης, Λεωνίδας
Τζιούφας, Αθανάσιος
Γουλές, Ανδρέας
Παπαλουκάς, Κωνσταντίνος
Έξαρχος, Θεμιστοκλής
Akay, Metin
Γεργίδης, Λεωνίδας
Τζιούφας, Αθανάσιος
Γουλές, Ανδρέας
Παπαλουκάς, Κωνσταντίνος
Έξαρχος, Θεμιστοκλής
Akay, Metin
General Description / Additional Comments
Institution and School/Department of submitter
Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή
Table of contents
Sponsor
Bibliographic citation
Name(s) of contributor(s)
Number of Pages
458 σ.
Course details
Collections
Endorsement
Review
Supplemented By
Referenced By
Creative Commons license
Except where otherwised noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States