Επεξεργασία Ομιλίας (Υ-ΒΥΝ)

Διδάσκων/ουσα: Καρύδης Ιωάννης
Κωδικός: MO310
Τύπος Μαθήματος: Κατεύθυνση ΒΥΝ - Υποχρεωτικά
Επίπεδο Μαθήματος: Προπτυχιακό
Γλώσσα Μαθήματος: Ελληνικά
Εξάμηνο: Η΄
ECTS: 5
Διδακτικές Μονάδες: 3
Ώρες Διάλεξης: 2
Ώρες Εργαστηρίου/Φροντιστηρίου: 2Ε
Σύνολο Ωρών: 4
Σελίδα E Class: https://opencourses.ionio.gr/courses/DDI119/
Προγράμματα Σπουδών: Αναμορφωμένο ΠΠΣ Πληροφορικής από 2025

Σύντομη Περιγραφή:

Η επεξεργασία ομιλίας είναι το πεδίο της επιστήμης που ασχολείται με την ανάλυση, επεξεργασία, κατανόηση και σύνθεση της ανθρώπινης φωνής από τα υπολογιστικά συστήματα. Αποτελεί βασικό αντικείμενο της τεχνολογίας του λόγου και έχει εφαρμογές σε τομείς όπως η αναγνώριση και κατανόηση ομιλίας, η σύνθεση φωνής, τα συστήματα διαλόγου, η φωνητική βιομετρία και οι βοηθητικές τεχνολογίες για άτομα με αναπηρίες. Στη σύγχρονη εποχή, οι τεχνολογίες ομιλίας ενσωματώνονται σε έξυπνες συσκευές, εικονικούς βοηθούς και πολυμεσικά περιβάλλοντα αλληλεπίδρασης.

Στο θεωρητικό μέρος του μαθήματος μελετώνται: Μοντελοποίηση του μηχανισμού παραγωγής ομιλίας: Μηχανισμός παραγωγής ομιλίας, Ήχοι ομιλίας. Ψηφιακή προεπεξεργασία κειμένου ομιλίας: Επιλογή της συχνότητας δειγματοληψίας, Ψηφιοποίηση, Βραχύχρονη ανάλυση σήματος ομιλίας, Επιλογή μήκους πλαισίου, Προέμφαση, Επιλογή φίλτρου "παραθύρου", Ρυθμός μετακίνησης πλαισίων. Ακουστικές παράμετροι: Εξαγωγή παραμέτρων, Ακουστικές πληροφορίες διάκρισης ομιλητών, Ενέργεια και μηδενικές διελεύσεις, Θεμελιώδης συχνότητα, Μέθοδοι υπολογισμού τονικότητας, Φασματογράφημα, Συντονισμοί φωνητικού καναλιού (FORMANTS), Συντελεστές γραμμικής πρόγνωσης (LPC), τράπεζα φίλτρων, συντελεστές ανάκλασης, Cepstral Συντελεστές. Βασικές Τεχνικές Επεξεργασίας ομιλίας. Κρυμμένα Μοντέλα Μarkov: Ορισμός και θεμελιώδεις αλγόριθμοι. Συστήματα αναγνώρισης/κατανόησης ομιλίας, Συστήματα Αναγνώρισης Ομιλητή. Σύνθεση ομιλίας. Ψηφιακές τεχνικές αφαίρεσης θορύβου.

Το εργαστηριακό μέρος περιλαμβάνει πρακτική εφαρμογή σε τεχνικές επεξεργασίας ομιλίας, όπως παρουσιάζονται στο θεωρητικό μέρος, με χρήση του λογισμικού ανοιχτού κώδικα Octave GNU.

Αντικειμενικοί Στόχοι - Επιδιωκόμενα Μαθησιακά Αποτελέσματα:

Σκοπός του μαθήματος είναι η γνωριμία και κατανόηση βασικών αρχών της Ψηφιακής Επεξεργασίας Ομιλίας:

του μηχανισμού παραγωγής ομιλίας από τον άνθρωπο
της καταγραφής, βελτίωσης και αναπαραγωγής της ομιλίας μέσω υπολογιστή
πως μετατρέπουμε την ομιλία σε μορφή αναγνωρίσιμη από το υπολογιστή
πως αναγνωρίζουμε ποιος είναι ο ομιλητής
πως συνθέτουμε ομιλία με τον υπολογιστή
γιατί τα κάνουμε όλα αυτά: εφαρμογές της Επεξεργασίας Ομιλίας και ο αντίκτυπος στην καθημερινή ζωή

Με την επιτυχή ολοκλήρωση του μαθήματος ο/η φοιτητής / τρια θα είναι σε θέση να:

Αναλύει τα δομικά στοιχεία των εφαρμογών ομιλίας,
Κάνει χρήση διαδεδομένων ελεύθερων / ανοικτού κώδικα εφαρμογών επεξεργασίας και διαχείρισης σημάτων ομιλίας,
Κάνει σχεδίαση και κατασκευή εφαρμογών επεξεργασίας ομιλίας

Περιεχόμενο (Syllabus):

Εισαγωγή στην Επεξεργασία Σήματος

Εισαγωγή στην ψηφιακή επεξεργασία σήματος

Τι είναι διακριτό σήμα και τι διακριτό σύστημα
Μετασχηματισμός Fourier
Δειγματοληψία και ψηφιοποίηση σήματος

Παραγωγή ομιλίας

Παραγωγή ομιλίας
Μοντελοποίηση του συστήματος παραγωγής ομιλίας

Οι τρεις παράμετροι που επιτρέπουν σε οποιοδήποτε ακουστικό φαινόμενο να χαρακτηριστεί είναι η ένταση (intensity), η συχνότητα (frequency), και ο χρόνος (time). Η αίσθηση της έντασης του ήχου στον άνθρωπο εξαρτάται από την συχνότητα του ήχου

Βασικά βήματα παραγωγής λόγου

Σχηματισμός ιδέας που θέλουμε να επικοινωνήσουμε
Μετατροπή της ιδέας σε γλωσσική δομή χρησιμοποιώντας σχετικές λέξεις και φράσεις
Ταξινόμηση των λέξεων βάση γραμματικών κανόνων που καθορίζονται από την χρησιμοποιούμενη γλώσσα
Προσθήκη χαρακτηριστικών όπως συχνότητα, ένταση
Ο εγκέφαλος παράγει μια σειρά από εντολές που μετακινούν το φωνητικό σύστημα που με την σειρά του παράγει τα ηχητικά (ακουστικά) κύματα

Προεπεξεργασία Ομιλίας & Παραμετροποίηση Ομιλίας

Πως μετατρέπουμε την ομιλία από ακουστικό σήμα σε ψηφιακό
Εισαγωγή στην παραμετροποίηση ομιλίας : πως μπορούμε να κρατήσουμε από ένα σήμα ομιλίας μόνο τις παραμέτρους που το εκφράζουν

Η ψηφιοποίηση της ομιλίας περιλαμβάνει τα εξής βήματα:

μετατροπή του ακουστικού σήματος σε ηλεκτρικό
ενίσχυση της στάθμης του ηλεκτρικού σήματος που προέρχεται από το μικρόφωνο
διέλευση του ακουστικού σήματος από κατωπερατό φίλτρο για αποκοπή των υψηλών συχνοτήτων
μετατροπή του αναλογικού σήματος σε ψηφιακό
χωρισμός του ψηφιακού σήματος ομιλίας σε χρονικά πλαίσια μικρής χρονικής διάρκειας (πλαισιοποίηση)

Παραμετροποίηση Ομιλίας

Παραμετροποίηση ομιλίας: πως μπορούμε να κρατήσουμε από ένα σήμα ομιλίας μόνο τις παραμέτρους που το εκφράζουν

Υψηλός πλεονασμός πληροφορίας ψηφιοποιημένων δεδομένων σήματος

εξαγωγή κατάλληλων παραμέτρων
μόνο αναγκαία πληροφορία για συγκεκριμένη χρήση
αποτέλεσμα: ουσιαστική συμπίεση όγκου δεδομένων και εύκολη χρήση

Απαιτήσεις παραμέτρων μοντελοποίησης:

Υψηλή αξιοπιστία αναγνώρισης
Μικρός απαιτούμενος υπολογιστικός χρόνος για τον προσδιορισμό τους
Μικρή πληροφοριακή ροή

Linear Predictive Coding

Με βάση τις προηγούμενες τιμές μιας συνάρτησης, μπορούμε να υπολογίσουμε την τιμή της στη θέση n;
Εισάγεται η έννοια της αβεβαιότητας στην πρόβλεψη μιας μελλοντικής τιμής της συνάρτησης

Η πρόγνωση μελλοντικών τιμών με βάση τις υπάρχουσες (γνωστές) τιμές χρησιμοποιείται ευρέως:

Μετεωρολογία
Χρηματιστήριο
Κωδικοποίηση/συμπίεση σήματος (εικόνα/ήχος/δεδομένα) για μετάδοση
Στην βιολογία για πρόβλεψη εξέλιξης πληθυσμών

Η γραμμική πρόγνωση (linear prediction) είναι μια απλή μέθοδος πρόβλεψης μελλοντικών τιμών με βάση έναν γραμμικό συνδυασμό των υπαρχουσών τιμών

Αναγνώριση Ομιλίας

Γιατί αναγνώριση ομιλίας;

Η ομιλία είναι ο κυρίαρχος και ο πιο διαδεδομένος τρόπος ανθρώπινης επικοινωνίας
Η καλύτερη διεπαφή ανθρώπου-υπολογιστή (Human-Computer Interface)!
Οι περισσότεροι χρήστες υπολογιστή μιλάμε γρηγορότερα από ότι πληκτρολογούμε.
Ο άνθρωπος πρώτα μιλάει και μετά γράφει: χρήση υπολογιστή από νήπια
Άτομα με περιορισμένες κινητικές δυνατότητες (ή και περιορισμένη μόρφωση) θα μπορούνε να χρησιμοποιούνε τον υπολογιστή
Πιο φυσική επικοινωνία με τηλεόραση, κουζίνα, καφετιέρα, εξώπορτα (intelligent homes)
Συστήματα Εικονικής Πραγματικότητας με αναγνώριση ομιλίας
Παιχνίδια με υπολογιστή/κονσόλες

Ένα σύστημα αναγνώρισης ομιλίας είναι ένα σύστημα που αντιγράφει την ομιλία σε κείμενο

Δρα σαν μια δακτυλογράφο, «ακούει» τι λέει ο χρήστης και το μετατρέπει σε γραπτό λόγο
Αναγνώριση ομιλίας δεν συνεπάγεται και κατανόηση ομιλίας
Η κατανόηση εμπίπτει στο τομέα της τεχνητής νοημοσύνης (ΑΙ)
Πολλά συστήματα μπορούν να αναγνωρίσουν ομιλία, κανένα δεν μπορεί να την «κατανοήσει» πραγματικά σήμερα

Αναγνώριση Ομιλητή

Ένα σύστημα αναγνώρισης ομιλίας είναι ένα σύστημα που μετατρέπει το σήμα της ομιλία σε κείμενο

Μας ενδιαφέρει τι λέει ο ομιλητής
Αναγνώριση ομιλίας δεν συνεπάγεται και κατανόηση ομιλίας

Ανάλυση ομιλίας: Ένα σύστημα αναγνώρισης ομιλίας χρησιμοποιεί μεθόδους παραμετροποίησης ομιλίας που έχουμε γνωρίσει

Τα συστήματα αναγνώρισης ομιλίας κατηγοριοποιούνται ανάλογα με

το είδος ομιλίας που μπορούν να αναγνωρίσουν
το είδος ομιλητή
το μέγεθος του λεξιλογίου που υποστηρίζουν
την μονάδα αναγνώρισης
την τεχνική αναγνώρισης

Σύνθεση Ομιλίας

Σύνθεση ομιλίας ονομάζουμε την μετατροπή κειμένου σε σήμα ομιλίας

Ποια η διαφορά ενός συστήματος σύνθεσης ομιλίας από ένα cd-player;
Το σύστημα σύνθεσης ομιλίας παράγει αλγοριθμικά ένα καινούργιο σήμα ομιλίας, ενώ το cd-player αναπαράγει ένα αποθηκευμένο σήμα ομιλίας.

Εφαρμογές σύνθεσης ομιλίας

Διεπαφή ανθρώπου-υπολογιστή
Άνθρωποι με προβλήματα ομιλίας
Άνθρωποι με προβλήματα όρασης
Τηλεπικοινωνίες (ανάγνωση μηνυμάτων, πληροφορίες καταλόγου, πληροφορίες μέσω τηλεφώνου, νέα κλπ)
Ψυχαγωγία (videogames)

Συνιστώμενη βιβλιογραφία προς μελέτη:

“Ψηφιακή Επεξεργασία Φωνής: Θεωρία και Εφαρμογές”, Rabiner L., 2011. Κωδ. Εύδοξου: 13256964
“ΓΛΩΣΣΕΣ ΚΑΙ ΔΙΕΠΑΦΕΣ ΣΤΗ ΜΟΥΣΙΚΗ ΠΛΗΡΟΦΟΡΙΚΗ”, ΔΙΟΝΥΣΙΟΣ ΠΟΛΙΤΗΣ, 2007 Κωδ. Εύδοξου: 13630. https://repository.kallipos.gr/handle/11419/2045
“ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ”, ΝΙΚΟΣ ΦΑΚΩΤΑΚΗΣ, Στο μάθημά μας στο opencourses
Οι διαφάνειες (μόνο επικουρικά)
Τα εργαστήρια (κώδικας και εξήγηση)
“Audio Processing and Speech Recognition”, Με τα ακαδημαϊκά σας διαπιστευτήρια

Διδακτικές και μαθησιακές μέθοδοι:

Δια ζώσης διαδραστικές διαλέξεις
Δια ζώσης εργαστήρια
Προαιρετική εργασία σε μορφή έργου (project)

Χρηση Τεχνολογιών Πληροφορίας και Επικοινωνίας:

Διαδραστικός πίνακας
Διαφάνειες με σχεδιοκίνηση
Λογισμικά Η/Υ για ψηφιακή επεξεργασία ομιλίας
Σχεδιασμός και ανάπτυξη εφαρμογών επεξεργασία ομιλίας Η/Υ σε Octave GNU

Μέθοδοι αξιολόγησης/βαθμολόγησης:

Με την προαιρετική εργασία

Βαθμός = 60% εργασία, 40% γραπτές εξετάσεις
Απαραίτητη συνθήκη επιτυχίας: βαθμός γραπτές εξετάσεις >= 5/10

Χωρίς την προαιρετική εργασία

Βαθμός = 100% γραπτές εξετάσεις
Απαραίτητη συνθήκη επιτυχίας: βαθμός γραπτές εξετάσεις >= 5/10

Επιστροφή

Σπουδές

Κτίριο Γραμματειών (Κτίριο 3) Πλατεία Τσιριγώτη 7 (πρώην Πλατεία Παλιού Ψυχιατρείου) Κέρκυρα, 49100 τηλ:26610 87760 / 87761 / 87763
e-mail: cs@ionio.gr