
Μέθοδοι μηχανικής μάθησης και μηχανικής όρασης για την ευφυή ανάλυση εικονοσειρών
Author(s) -
Ioannis Mademlis,
Ιωάννης Μαδεμλής
Publication year - 2021
Language(s) - Uncategorized
Resource type - Dissertations/theses
DOI - 10.12681/eadd/44837
Subject(s) - computer science
Σε αυτή τη διδακτορική διατριβή, παρουσιάζονται τα αποτελέσματα της έρευνας που διεξήχθη στην περιοχή της ευφυούς ανάλυσης εικονοσειρών με χρήση μεθόδων μηχανικής μάθησης και μηχανικής όρασης. Η έμφαση δόθηκε σε δεδομένα κινηματογραφικής/τηλεοπτικής παραγωγής, προκειμένου να καταδειχθεί το δυναμικό της σύγχρονης τεχνητής νοημοσύνης στη βιομηχανία παραγωγής και μετεπεξεργασίας οπτικοακουστικού υλικού, αλλά οι προτεινόμενοι αλγόριθμοι έχουν ευρύτερη εφαρμογή σε κάθε τύπου εικονοσειρά. Η παρουσιαζόμενη έρευνα αφορά τα προβλήματα της ανίχνευσης στερεοσκοπικών ελαττωμάτων ποιότητας, της αναγνώρισης ανθρώπινων δραστηριοτήτων σε στερεοσκοπικές εικονοσειρές, της αυτόματης συνόψισης στερεοσκοπικών κινηματογραφικών ταινιών σύμφωνα με τις αφηγηματικές τους ιδιότητες και της αυτόματης συνόψισης εικονοσειρών ανθρώπινων δραστηριοτήτων. Η κύρια συνεισφορά μας στο πρόβλημα της ανίχνευσης στερεοσκοπικών ελαττωμάτων ποιότητας συνίσταται στην περιγραφή τεσσάρων αλγορίθμων αυτόματης ανίχνευσης και χαρακτηρισμού ελαττωμάτων για ισάριθμους τύπους ζητημάτων, κατά τη φάση της μετεπεξεργασίας στην παραγωγή κινηματογραφικού ή τηλεοπτικού υλικού. Όσον αφορά το ζήτημα της αναγνώρισης ανθρώπινων δραστηριοτήτων σε στερεοσκοπικές εικονοσειρές, προτείνονται τρόποι εκμετάλλευσης της πληροφορίας περί γεωμετρίας σκηνής την οποία κωδικοποιεί το κανάλι της στερεοσκοπικής παράλλαξης, με στόχο τη βελτίωση της απόδοσης στην αναγνώριση ανθρώπινων δραστηριοτήτων σε φυσικό σκηνικό. Η έρευνά μας επεκτάθηκε στο πρόβλημα της αυτόματης, πολυτροπικής συνόψισης στερεοσκοπικών 3Δ κινηματογραφικών ταινιών σύμφωνα με τις αφηγηματικές τους ιδιότητες, υπό τη μορφή μίας εικονοσειράς περίληψης. Προς αυτή την κατεύθυνση, αναπτύχθηκε μία πλήρης αλγοριθμική σωλήνωση συνόψισης η οποία λαμβάνει υπόψη οπτικά, ηχητικά, γεωμετρικά και αφηγηματικά χαρακτηριστικά των πλάνων και των καρέ της ταινίας. Τέλος, μελετήθηκε το ζήτημα αυτόματης συνόψισης εικονοσειρών δραστηριοτήτων μεγάλης διάρκειας, οι οποίες έχουν ορισμένες κοινές, επαναλαμβανόμενες ιδιότητες (στατική κάμερα, στατικό υπόβαθρο, υψηλό βαθμό οπτικής ομοιότητας μεταξύ των καρέ) και μπορούν να προκύψουν από ποικιλία πηγών (κάμερες επιτήρησης, συνεδρίες καταγραφής σε κινηματογραφικές/τηλεοπτικές παραγωγές κλπ.). Για την επίλυση του προβλήματος, αναπτύχθηκε ένα νέο αλγοριθμικό πλαίσιο συνόψισης εικονοσειρών δραστηριοτήτων, υπό τη μορφή της εξαγωγής ενός συνόλου αντιπροσωπευτικών καρέ-κλειδιών που συνοψίζει βέλτιστα τις διαφορετικές εικονιζόμενες δραστηριότητες.