Επιστήμη των Δεδομένων


Διδάσκων/ουσα: Μαραγκουδάκης Εμμανουήλ
Κωδικός Μαθήματος: HY-390
Τύπος Μαθήματος: Μάθημα Επιλογής
Επίπεδο Μαθήματος: Προπτυχιακό
Γλώσσα Μαθήματος: Ελληνικά
Εξάμηνο: Ζ΄
ECTS: 4
Διδακτικές Μονάδες: 4
Ώρες Διάλεξης: 2
Ώρες Εργαστηρίου/Φροντιστηρίου: 2Ε
Σύνολο Ωρών: 4

Περιεχόμενο (Syllabus):

Περιγραφή δεδομένων με γραφήματα και πίνακες. Παρουσίαση των βασικών στατιστικών μέτρων για τη περιγραφή δεδομένων. Προετοιμασία Δεδομένων. Η σημασία του ελέγχου και «ξεκαθαρίσματος» των δεδομένων (data cleaning). Εισαγωγή στις Βάσεις Δεδομένων. SQL. Εισαγωγή στην επιβλεπόμενη μάθηση: δέντρα απόφασης, λογιστική παλινδρόμηση. Εισαγωγή στην παλινδρόμηση: Πολλαπλή γραμμική παλινδρόμηση. Προβλέψεις. Βελτίωση ενός μοντέλου. Τα προβλήματα της υπερ-παραμετροποίησης (over-parametrization). Έλεγχος απόδοσης του μοντέλου. Μείωση Διαστάσεων (Dimensionality Reduction). Η διαδικασία επιλογής χαρακτηριστικών. Η μέθοδος των Κύριων Συνιστωσών (Principal Component Analysis) με SVD παραγοντοποιήση μητρώων. Μη-επιβλεπόμενη μάθηση, Ανάλυση κατά συστάδες (Clustering). Εφαρμογές και αξιολόγηση k-means. Εφαρμογή μοντέλων Ιεραρχικού Clustering. Ημι-επιβλεπόμενη μάθηση. Εισαγωγή στα μεταδεδομένα και στα Μεγάλα Δεδομένα (Big Data). Υπολογιστικές Μέθοδοι για Ανάλυση Μεγάλων Δεδομένων (Hadoop και MapReduce).

Εργαστήριο:
(i) Εισαγωγή στη γλώσσα R για την Επιστήμη των Δεδομένων.
(ii) Δημιουργία, επιλογή και σύγκριση κατηγορικών δεδομένων με τη χρήση Factors. Αποθήκευση πινάκων
δεδομένων σε Data Frames. Επιλογή στοιχείων από ένα Data Frame και μετατροπή σε Πίνακα.
(iii) Βασικά πακέτα γραφικών/οπτικοποίησης στην R. (iv) Συναρτήσεις - Βρόγχοι - Έλεγχος ροής.
(v) Εισαγωγή στην SQL. Queries. Queries σε πολλαπλούς πίνακες με την εντολή JOIN. Τελεστές. Subqueries.
(vi) Rattle. (vii) R Hadoop. (viii) Εισαγωγή στο εργαλείο RapidMiner. Εισαγωγή στο εργαλείο KNIME.

Ενημέρωση: 09-10-2020

Επιστροφή