Ανάλυση δεδομένων panel με χρήση της γλώσσας προγραμματισμού R
Φόρτωση...
Ημερομηνία
Συγγραφείς
Αντωνίου, Αναστασία
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
Σχολή Πληροφορικής & Τηλεπικοινωνιών . Τμήμα Πληροφορικής & Τηλεπικοινωνιών
Περίληψη
Τύπος
Είδος δημοσίευσης σε συνέδριο
Είδος περιοδικού
Είδος εκπαιδευτικού υλικού
Όνομα συνεδρίου
Όνομα περιοδικού
Όνομα βιβλίου
Σειρά βιβλίου
Έκδοση βιβλίου
Συμπληρωματικός/δευτερεύων τίτλος
Περιγραφή
Τα τελευταία χρόνια ο όγκος και η πολυπλοκότητα των δεδομένων που συλλέγουμε και καλούμαστε να αναλύσουμε αυξάνονται με εκρηκτικούς ρυθμούς. Η ιδέα της άντλησης χρήσιμων γνώσεων από μεγάλους όγκους δεδομένων είναι κοινή σε πολλούς κλάδους της επιστήμης, από τη Στατιστική έως τη Φυσική, από την Οικονομετρία έως την Αναγνώριση Προτύπων και τον Προσαρμοστικό Έλεγχο. Η ανάλυση δεδομένων είναι η διαδικασία συλλογής και οργάνωσης δεδομένων προκειμένου να εξαχθούν χρήσιμα συμπεράσματα από αυτήν. Η επιστήμη της ανάλυσης δεδομένων χρησιμοποιεί αναλυτικό και λογικό συλλογισμό για να αποκτήσει πληροφορίες από τα δεδομένα. Ο κύριος σκοπός της ανάλυσης δεδομένων είναι να μετατρέψει την πληροφορία σε χρήσιμη γνώση, έτσι ώστε η λαμβανόμενη γνώση να μπορεί να χρησιμοποιηθεί για τη λήψη τεκμηριωμένων αποφάσεων.
Από την άλλη πλευρά, η στατιστική γλώσσα R διαθέτει μια σειρά από τις πιο σύγχρονες τεχνικές για τη στατιστική ανάλυση δεδομένων. Η R μπορεί να χειριστεί μεγάλο όγκο και διαφορετικούς τύπους δεδομένων και δίνει τη δυνατότητα δημιουργίας υψηλής ποιότητας γραφικών. Είναι μια γλώσσα ανοικτού κώδικα που ενσωματώνει συνεχώς νέες βιβλιοθήκες (και κατά συνέπεια νέες μεθοδολογίες ανάλυσης) με αποτέλεσμα να εξελίσσεται σε δυνατότητες και εύρος εφαρμογών. Τέλος, υπάρχει ένα τεράστιο δίκτυο έμπειρων χρηστών που μπορεί να παρέχει υψηλού επιπέδου υποστήριξη.
Σε αυτήν την εργασία ασχολούμαστε με την ανάλυση δεδομένων πάνελ (panel data)με χρήση της R. Τα δεδομένα πάνελ παρέχουν πληροφορίες για μεγέθη που αφορούν τόσο σε επιμέρους οντότητες (επιχειρήσεις, άτομα, γεωγραφικές περιοχές κλπ) όσο και στην χρονική εξέλιξή τους. Δηλαδή, τα δεδομένα panel έχουν δύο διαστάσεις: τη διαστρωματική (cross-sectional) διάσταση και τη διάσταση της χρονολογικής σειράς (time-series). Για το λόγο αυτό, η εφαρμογή μεθόδων παλινδρόμησης σε δεδομένα panel είναι πιο πολύπλοκη από αυτή των απλών διαστρωματικών δεδομένων. Μια ποικιλία μεθόδων εκτίμησης για τα μοντέλα δεδομένων panel έχουν αναπτυχθεί στη βιβλιογραφία που επιτρέπουν την χαλάρωση πολλών περιοριστικών παραδοχών του μοντέλου διαστρωματικών δεδομένων, και οδηγούν σε εναλλακτικές προϋποθέσεις για την αποτελεσματικότητα (efficiency) τους. Οι μέθοδοι αυτές περιλαμβάνουν το μοντέλο ενιαίων δεδομένων (pooled model), το μοντέλο σταθερών επιδράσεων (Fixed Effect model) και μοντέλο τυχαίων επιδράσεων (Random Effect Model).
Αναλυτικότερα, η τρέχουσα μελέτη αποτελείται από πέντε κεφάλαια. Κατ’ αρχάς, το πρώτο κεφάλαιο εξετάζει ορισμένες βασικές έννοιες της γλώσσας προγραμματισμού R αλλά και ορισμένων πλεονεκτημάτων ως προς τη χρήση της γλώσσας αυτής. Εν συνεχεία, στο δεύτερο κεφάλαιο, αναλύονται τα υποδείγματα εκείνα που αφορούν σε δεδομένα πάνελ. Ειδικότερα, επεξηγούνται τα εξής ουσιώδη στοιχεία: α)η έννοια των πάνελ δεδομένων, β)τα πλεονεκτήματα και μειονεκτήματα αυτών, γ)η εκτίμηση των μοντέλων παλινδρόμησης δεδομένων πάνελ. Έπειτα, στο τρίτο κεφάλαιο δίνονται οι κυριότερες εντολές που διαθέτει η γλώσσα προγραμματισμού R και ειδικότερα το πακέτο plm, για τη διαχείριση και την ανάλυση δεδομένων πάνελ. Στο τέταρτο κεφάλαιο, πραγματοποιείται μια εμπειρική ανάλυση για τη μελέτη των παραγόντων που επηρεάζουν τις Εξαγωγές Υψηλής Τεχνολογίας ως μελέτη περίπτωσης. Οι Εξαγωγές Υψηλής Τεχνολογίας (High Technology Exports HTX) θεωρούνται σημαντικός παράγοντας για τη βιώσιμη οικονομική ανάπτυξη μιας χώρας. Για το λόγο αυτό, η ανάγκη διερεύνησης των πιθανών προσδιοριστικών παραγόντων που επηρεάζουν τις εξαγωγές υψηλής τεχνολογίας σε διάφορες χώρες του πλανήτη έχει τραβήξει το ενδιαφέρον των ερευνητών κατά τα τελευταία χρόνια. Για τη διερεύνηση των παραγόντων αυτών προβήκαμε στην ανάλυση δεδομένων πάνελ από 15 χώρες της Ευρωπαϊκής Ένωσης για το χρονικό διάστημα 2007-2018. Τέλος, στο πέμπτο κεφάλαιο παρουσιάζονται τα συμπεράσματα που προκύπτουν από τη συγκεκριμένη μελέτη
In recent years, the volume and complexity of the data we collect and are called to analyze are increasing at an explosive rate. The idea of extracting useful knowledge from large volumes of data is common in many disciplines of science, from Statistics to Physics, Econometrics to Pattern Recognition and Adaptive Control. Data analysis is the process of collecting and organizing data in order to draw useful conclusions from it. The science of data analysis uses analytical and logical reasoning to obtain information from data. The main purpose of data analysis is to turn information into useful knowledge so that the knowledge gained can be used to make informed decisions. Statistical language R, on the other hand, has several state-of-the-art techniques for statistical data analysis. R can handle large volumes and different types of data and enables the creation of high-quality graphics. It is an open source language that constantly integrates new libraries (and consequently new analysis methodologies) thus evolving in capabilities and range of applications. Finally, there is a huge network of experienced users who can provide a high level of support for R. In this work we deal with the analysis of panel data using R. Panel data provides information on sizes that relate to both entities (businesses, individuals, geographical areas, etc.) and their evolution over time. That is, the panel data has two dimensions: the cross-sectional dimension and the time-series dimension. For this reason, the application of regression methods to panel data is more complex than that of simple layered data. A variety of estimation methods for panel data models have been developed in the literature that allow for the relaxation of many restrictive assumptions of the single stratified data model, and lead to alternative efficiency measures. These methods include the pooled model, the Fixed Effect model, and the Random Effect Model. More specifically, the current study consists of five chapters. First, the first chapter examines some of the key concepts of the R programming language but also some of the advantages of using this language. Then, in the second chapter, those models based on data panels are analyzed. In particular, the following essential elements are explained: a) the concept of data panels, b) their advantages and disadvantages, c) the evaluation of data panel regression models. Then, in the third chapter the main command sand in particular the plm package, available in the R for the management and analysis of panel data are given. In addition, in the fourth chapter, an empirical analysis is carried out to analyze the determinants of High Technology Exports. High Technology Exports are considered an important factor for the sustainable economic development of a country. For this reason, the need to investigate the possible determinants that affect high-tech exports to various countries around the world has attract researcher’s interest in recent years. To investigate these determinants, we analyzed panel data from 15 countries of the European Union for the period 2007-2018. Finally, the fifth chapter presents the conclusions that emerge from this study.
In recent years, the volume and complexity of the data we collect and are called to analyze are increasing at an explosive rate. The idea of extracting useful knowledge from large volumes of data is common in many disciplines of science, from Statistics to Physics, Econometrics to Pattern Recognition and Adaptive Control. Data analysis is the process of collecting and organizing data in order to draw useful conclusions from it. The science of data analysis uses analytical and logical reasoning to obtain information from data. The main purpose of data analysis is to turn information into useful knowledge so that the knowledge gained can be used to make informed decisions. Statistical language R, on the other hand, has several state-of-the-art techniques for statistical data analysis. R can handle large volumes and different types of data and enables the creation of high-quality graphics. It is an open source language that constantly integrates new libraries (and consequently new analysis methodologies) thus evolving in capabilities and range of applications. Finally, there is a huge network of experienced users who can provide a high level of support for R. In this work we deal with the analysis of panel data using R. Panel data provides information on sizes that relate to both entities (businesses, individuals, geographical areas, etc.) and their evolution over time. That is, the panel data has two dimensions: the cross-sectional dimension and the time-series dimension. For this reason, the application of regression methods to panel data is more complex than that of simple layered data. A variety of estimation methods for panel data models have been developed in the literature that allow for the relaxation of many restrictive assumptions of the single stratified data model, and lead to alternative efficiency measures. These methods include the pooled model, the Fixed Effect model, and the Random Effect Model. More specifically, the current study consists of five chapters. First, the first chapter examines some of the key concepts of the R programming language but also some of the advantages of using this language. Then, in the second chapter, those models based on data panels are analyzed. In particular, the following essential elements are explained: a) the concept of data panels, b) their advantages and disadvantages, c) the evaluation of data panel regression models. Then, in the third chapter the main command sand in particular the plm package, available in the R for the management and analysis of panel data are given. In addition, in the fourth chapter, an empirical analysis is carried out to analyze the determinants of High Technology Exports. High Technology Exports are considered an important factor for the sustainable economic development of a country. For this reason, the need to investigate the possible determinants that affect high-tech exports to various countries around the world has attract researcher’s interest in recent years. To investigate these determinants, we analyzed panel data from 15 countries of the European Union for the period 2007-2018. Finally, the fifth chapter presents the conclusions that emerge from this study.
Περιγραφή
Λέξεις-κλειδιά
Δεδομένα, Γλώσσα προγραμματισμού, Ανάλυση
Θεματική κατηγορία
Δεδομένα, R ( Γλώσσα προγραμματισμού )
Παραπομπή
Σύνδεσμος
Μεταπτυχιακή εργασία
Γλώσσα
el
Εκδίδον τμήμα/τομέας
Σχολή Πληροφορικής & Τηλεπικοινωνιών . Τμήμα Πληροφορικής & Τηλεπικοινωνιών
Όνομα επιβλέποντος
Φουτσιτζή, Γεωργία
Εξεταστική επιτροπή
Αντωνιάδης, Νικόλαος
Γκόγκος, Χρήστος
Γκόγκος, Χρήστος
Γενική Περιγραφή / Σχόλια
Ίδρυμα και Σχολή/Τμήμα του υποβάλλοντος
Πανεπιστήμιο Ιωαννίνων. Σχολή Πληροφορικής & Τηλεπικοινωνιών. Τμήμα Πληροφορικής & Τηλεπικοινωνιών
Πίνακας περιεχομένων
Χορηγός
Βιβλιογραφική αναφορά
Αντωνίου, Α., 2021. Ανάλυση δεδομένων panel με χρήση της γλώσσας προγραμματισμού R. Μεταπτυχιακή εργασία. Άρτα: Πανεπιστήμιο Ιωαννίνων. Σχολή Πληροφορικής & Τηλεπικοινωνιών . Τμήμα Πληροφορικής & Τηλεπικοινωνιών
Ονόματα συντελεστών
Αριθμός σελίδων
97
Λεπτομέρειες μαθήματος
item.page.endorsement
item.page.review
item.page.supplemented
item.page.referenced
Άδεια Creative Commons
Άδεια χρήσης της εγγραφής: Attribution-NonCommercial-NoDerivs 3.0 United States