Open Access
Η μηχανική μάθηση στην ηχοποίηση εκφραστικής χειρονομίας με τη χρήση στοχαστικών μοντέλων
Author(s) -
Χριστίνα Βολιώτη
Publication year - 2021
Language(s) - Uncategorized
Resource type - Dissertations/theses
DOI - 10.12681/eadd/42382
Subject(s) - computer science
Ευρύτερο αντικείμενο της παρούσας διδακτορικής διατριβής αποτελεί η διερεύνηση της χειρονομιακής τεχνογνωσίας του μουσικού και συγκεκριμένα του πιανίστα, η οποία περιλαμβάνει την απόκτηση όχι μόνο θεωρητικών γνώσεων αλλά και πρακτικών δεξιοτήτων. Στη συγκεκριμένη διατριβή, έμφαση δίνεται κυρίως στην εκφραστική χειρονομία και στις διακυμάνσεις της. Η αναγνώριση της χειρονομίας επιτυγχάνεται με τη χρήση αλγορίθμων μηχανικής μάθησης και τεχνολογιών αναγνώρισης της κίνησης. Σύμφωνα με τη βιβλιογραφική επισκόπηση, αρκετές έρευνες που έχουν διεξαχθεί στοχεύουν όχι μόνο στην αναγνώριση της χειρονομίας που εκτελείται από το χρήστη αλλά και στην ηχοποίηση αυτής. Μια αδυναμία όμως που αναδύεται, έγκειται στο ότι οι υπάρχουσες μεθοδολογίες αδυνατούν να λάβουν υπόψη τους πιθανές εκφραστικές διακυμάνσεις και μεταβολές που μπορεί να συμβούν κατά τη διάρκεια εκτέλεσης της εισερχόμενης χειρονομίας του χρήστη σε σχέση με τη χειρονομία πρότυπο του ειδικού. Αυτό έχει ως συνέπεια η αναγνώριση να μην είναι σωστή καθ’ όλη τη διάρκεια εκτέλεσης της εκφραστικής χειρονομίας και να υπάρχουν αλληλοεπικαλύψεις ανάμεσα στις διαφορετικές κλάσεις της ταξινόμησης, με αποτέλεσμα να μην είναι ομαλή και συνεχόμενη και η ηχοποίηση της εκφραστικής χειρονομίας. Για το λόγο αυτό, η παρούσα διδακτορική διατριβή παρουσιάζει μια πρωτότυπη μεθοδολογία που αποσκοπεί α) στη στοχαστική μοντελοποίηση, β) στην αναγνώριση και γ) στην ηχοποίηση της εκφραστικής χειρονομίας του χρήστη, λαμβάνοντας υπόψη τις πιθανές μεταβολές και διακυμάνσεις που μπορεί να συμβούν κατά τη διάρκεια εκτέλεσης της εκφραστικής χειρονομίας. Αυτό επιτυγχάνεται με τη δημιουργία και την ανάπτυξη του Λειτουργικού Μοντέλου του Ειδικού, μέσω του οποίου υπολογίζονται τα όρια εμπιστοσύνης. Η προστιθέμενη αξία του Λειτουργικού Μοντέλου του Ειδικού και κατ’ επέκταση των ορίων εμπιστοσύνης, είναι ότι κατά τη διάρκεια της αναγνώρισης, το σύστημα αποτρέπει αριθμητικά σφάλματα που μπορεί να συμβούν λόγω μεταβολών και διακυμάνσεων, που γίνονται είτε εσκεμμένα είτε όχι, και τα οποία μπορούν επίσης να θεωρηθούν ως εκφραστικά στοιχεία της εκτέλεσης της χειρονομίας. Η αναγνώριση της εκφραστικής χειρονομίας υλοποιείται με τη χρήση αλγορίθμων μηχανικής μάθησης και συγκεκριμένα του αλγορίθμου Φίλτρο Σωματιδίων. Επιπρόσθετα για την ηχοποίηση της εκφραστικής χειρονομίας εφαρμόζονται μέθοδοι σύνθεσης ήχου, παρέχοντας στο χρήστη τη δυνατότητα επανασύνθεσης και χειρισμού του ήχου συνεχόμενα και σε πραγματικό χρόνο. Η αξιολόγηση της μεθοδολογίας μέσω της συγκριτικής μελέτης με άλλους αλγορίθμους γνωστούς στη βιβλιογραφία, έδειξε υψηλότερα ποσοστά αναγνώρισης, ακρίβειας και ομοιότητας ανάμεσα στον παραγόμενο και στον πρωτότυπο ήχο. Παρατηρήθηκε επίσης ότι η ποιότητα του παραγόμενου ήχου που επανασυντίθεται σε πραγματικό χρόνο από τα χειρονομιακά δεδομένα του χρήστη, εξαρτάται άμεσα από την ποιότητα αναγνώρισης των εκφραστικών χειρονομιών. Δηλαδή, όσο καλύτερη είναι η εκτέλεση της εισερχόμενης εκφραστικής χειρονομίας, τόσο καλύτερη, ομαλότερη και χωρίς ταλαντώσεις είναι η αναγνώριση της εκφραστικής χειρονομίας και άρα τόσο καλύτερη και ομαλότερη είναι και η επανασύνθεση του ήχου. Τέλος, τα θετικά αποτελέσματα της αξιολόγησης, σε συνδυασμό με το προτεινόμενο θεωρητικό πλαίσιο, επιβεβαιώνουν ότι είναι αποδοτική η χρήση των ορίων εμπιστοσύνης κατά την αναγνώριση και την ηχοποίηση της εκφραστικής χειρονομίας.