
Non-parametric Bayesian approaches to deep neural networks
Author(s) -
Konstantinos-Panagiotis Panousis,
Κωνσταντίνος-Παναγιώτης Πανούσης
Publication year - 2021
Language(s) - English
Resource type - Dissertations/theses
DOI - 10.12681/eadd/47711
Subject(s) - artificial neural network , bayesian probability , artificial intelligence , deep neural networks , parametric statistics , computer science , machine learning , mathematics , statistics
Παρά τα πρόσφατα επιτεύγματα στον τομέα της Μηχανικής Μάθησης, υπάρχουν ακόμα ανοιχτές προσκλήσεις. Ο σκοπός της διατριβής αυτής είναι να παρουσιάσει δύο διαφορετικές προσεγγίσεις τόσο για δεδομένα παρτίδας (batch data) όσο και για σειριακά (sequential data). Κάθε προσέγγιση αποσκοπεί στη δημιουργία πιο ευέλικτων και αποδοτικών μοντέλων, επιδιώκοντας την αύξηση των δυνατοτήτων μοντελοποίησης με ταυτόχρονη μείωση της πολυπλοκότητας των συμβατικά χρησιμοποιούμενων προσεγγίσεων. Στην πρώτη προσέγγιση της διατριβής, επικεντρωνόμαστε σε δεδομένα παρτίδας χρησιμοποιώντας βαθιές νευρωνικές αρχιτεκτονικές (Deep Neural Architectures). Η άνοδος της βαθιάς μηχανικής μάθησης (Deep Learning), η οποία κατέστη εφικτή με τις πρόσφατες τεχνολογικές εξελίξεις, τόσο σε επίπεδο υλικού (hardware) όσο και σε επίπεδο αλγορίθμων, έχει παράξει αξιοσημείωτα αποτελέσματα τα τελευταία χρόνια, σε ένα ευρύ πεδίο εφαρμογών. Εν τούτοις, οι συνήθως χρησιμοποιούμενες βαθιές αρχιτεκτονικές, πάσχουν από υπερ-παραμετροποίηση (over-parameterization). Συχνά, τα μοντέλα αποτελούνται από εκατομμύρια παραμέτρους, πολλές από τις οποίες είναι περιττές. Το γεγονός αυτό οδηγεί σε μη-αναγκαία υπολογιστική πολυπλοκότητα, περιορίζοντας την επεκτασιμότητα τους σε πιο περίπλοκες εφαρμογές. Η υπερ-παραμετροποίηση αυτή συνεισφέρει ταυτόχρονα στη γνωστή τάση των νευρωνικών δικτύων να υπερ-μοντελοποιούν τα δεδομένα εκπαίδευσης (over-fitting), περιορίζοντας μ'αυτό τον τρόπο τη γενίκευση τους σε δεδομένα δοκιμής. Επιπροσθέτως, είναι κοινώς γνωστό, ότι παρόλο που οι ευρέως χρησιμοποιούμενες μη-γραμμικές ενεργοποιήσεις, π.χ. Rectified Linear Units, αποτελούν ένα βολικό μαθηματικό εργαλείο για την εκπαίδευση βαθέων αρχιτεκτονικών, δεν έχουν τη βάση τους σε βιολογικές διεργασίες. Πράγματι, υπάρχει ένα αυξανόμενο πλήθος ερευνητικών στοιχείων που υποδηλώνουν ότι, οι νευρώνες σε ένα βιολογικό σύστημα, οι οποίοι παρουσιάζουν παρόμοιες λειτουργικές ιδιότητες, συγκεντρώνονται μαζί σε ομάδες, μέσα στις οποίες πραγματοποιείται τοπικός ανταγωνισμός. Προς την κατεύθυνση αυτή, πολλοί ερευνητές έχουν καταβάλλει σημαντικές προσπάθειες για τη δημιουργία δικτύων, που αντί των κλασσικών μη-γραμμικών ενεργοποιήσεων, προσφεύγουν σε αρχιτεκτονικές που εμπεριέχουν τον ανταγωνισμό μεταξύ γραμμικών μονάδων. Ο προκύπτων μηχανισμός ονομάζεται Winner-Takes-All και έχει παράξει σημαντικά αποτελέσματα σε διάφορες εφαρμογές της Μηχανικής Μάθησης. Στο πλαίσιο αυτό, αναθεωρούμε το τωρινό σχεδιαστικό μοντέλο των βαθέων νευρωνικών δικτύων, αποσκοπώντας στο να εισάγουμε μια νέα, δομημένη προσέγγιση για κλάδεμα (network pruning) και συμπίεση (compression) του δικτύου, βασισμένη στα βιολογικώς-εμπνευσμένα βαθιά νευρωνικά δίκτυα τοπικού ανταγωνισμού (Local Winner-Takes-All). Προς αυτή την κατεύθυνση, προτείνουμε μια συμπεραστική κατασκευή (inferential construction) με σκοπό το ρητό συμπερασμό της χρησιμότητας των συνιστωσών του δικτύου (συνδέσεις/μονάδες) στο πλαίσιο των δικτύων τοπικού ανταγωνισμού. Χρησιμοποιούμε επιχειρήματα από το ισχυρό μη-παραμετρικό Bayesian πλαίσιο, και συγκεκριμένα τα stick-breaking priors. Ο εισαχθέν μηχανισμός αποτελεί μια διαδικασία που οδηγείται από τα δεδομένα (data-driven), επιτρέποντας στην αυτόνομη προσαρμογή της δομής του δικτύου στην πολυπλοκότητα των δεδομένων, με ταυτόχρονο συμπερασμό της απαραίτητης ακρίβειας για την αναπαράσταση των βαρών του δικτύου. Ενώνουμε όλα τα στοιχεία αυτά, υπό το Variational Inference πλαίσιο και παρουσιάζουμε αποδοτικές διαδικασίες για την εκπαίδευση του δικτύου και το συμπερασμό σε καινούρια δεδομένα. Επιδεικνύουμε την ικανότητα του παραγόμενου μοντέλου σε εποπτευόμενη κατηγοριοποίηση (supervised classification) σε πληθώρα αρχιτεκτονικών και δεδομένων αναφοράς. Τα εμπειρικά δεδομένα μαρτυρούν για την αποδοτικότητα της προσέγγισης μας, αποδίδοντας αντίστοιχη ακρίβεια κατηγοριοποίησης με εναλλακτικές state-of-the-art μεθόδους, επιτρέποντας ταυτόχρονα το καλύτερο κλάδεμα και συμπίεση του δικτύου σε σχέση με τον ανταγωνισμό. Επιπρόσθετα, η ενδελεχής εξέταση της συμπεριφοράς του μηχανισμού τοπικού ανταγωνισμού υποδηλώνει ότι η συγκεκριμένη προσέγγιση επιτυγχάνει στην κωδικοποίηση διακριτών χαρακτηριστικών των δεδομένων μέσω του μηχανισμού επιλογής νικητή (winner selection mechanism). Στο δεύτερο μέρος της διατριβής, επικεντρωθήκαμε σε σειριακά δεδομένα, τα οποία αποτελούν μία από τις πιο σημαντικές προκλήσεις στην κοινότητα της Μηχανικής Μάθησης. Τα Κρυφά Μαρκοβιανά Μοντέλα (Hidden Markov Models) και οι παραλλαγές τους, χρησιμοποιούνταν παραδοσιακά για να μοντελοποιήσουν τέτοιου είδους δεδομένα, αποτελώντας μια ισχυρή και ευέλικτη προσέγγιση. Εν τούτοις, με τη σύγχρονη πρόοδο στις βαθιές αρχιτεκτονικές, τα μοντέλα αυτά έχουν κατά κόρον αντικατασταθεί από τις βαθιές εναλλακτικές τους προσεγγίσεις, Recurrent Neural Networks και τις παραλλαγές τους. Η εγγενής δομή των δικτύων αυτών, καθώς και οι χρησιμοποιούμενες μη-γραμμικές ενεργοποιήσεις, επιτρέπουν την πιο περίπλοκη ενημέρωση των κρυφών καταστάσεων τους (hidden states). Παρόλα αυτά, η διακριτή δομή και γενετική προσέγγιση (generative structure) των Κρυφών Μαρκοβιανών Μοντέλων, επιτρέπει μια πιο εύρωστη εκπαίδευση και ερμηνεία των παραγόμενων μοντέλων. Ωστόσο, η απλοϊκότητα της συνήθως χρησιμοποιούμενης παραδοχής για πρώτης τάξης Μαρκοβιανής δυναμική στις παραδοσιακές αρχιτεκτονικές προς όφελος χαμηλής υπολογιστικής πολυπλοκότητας, περιορίζει την ικανότητα μοντελοποίησης τους, καθιστώντας τα μοντέλα ακατάλληλα για χρήση σε πραγματικά σενάρια. Οι προτεινόμενες παραλλαγές μεγαλύτερης τάξης (higher order) χαλαρώνουν τον περιορισμό αυτό, επιτρέποντας μια πιο περίπλοκη δυναμική. Πάραυτα, η εγγενής προκύπτουσα πολυπλοκότητα εμποδίζει την επιτυχή χρησιμοποίηση τους σε ρεαλιστικά προβλήματα. Τα Κρυφά Ημι-Μαρκοβιανα Μοντέλα (Hidden Semi-Markov Models) και οι παραλλαγές τους, προτάθηκαν σαν εναλλακτική στα προβλήματα αυτά, όπου μέσω της ρητής μοντελοποίησης της διάρκειας των κρυφών καταστάσεων, η προκύπτουσα ευελιξία και ικανότητα μοντελοποίησης των μοντέλων αυτών μπορεί να αυξηθεί. Παρά το γεγονός αυτό, και στις δύο αυτές θεωρήσεις, τα μοντέλα αποτυγχάνουν στο να λάβουν υπόψιν δυνητικές μη-ομοιογενείς χρονικές δυναμικές στα δεδομένα. Προς το σκοπό αυτό, έχει καταβληθεί σημαντική ερευνητική προσπάθεια για τη δημιουργία μοντέλων, τα οποία υλοποιούν μιας μεταβλητής τάξης αλυσίδα. Οι προσεγγίσεις όμως αυτές, παρουσιάζουν με τη σειρά τους διάφορα μειονεκτήματα, όπως για παράδειγμα η αδυναμία μοντελοποίησης συνεχών παρατηρήσεων. Η διατριβή αυτή αντλεί έμπνευση από τα προαναφερθέντα αποτελέσματα, και επιχειρεί να προσφέρει μια δομημένη προσέγγιση για τη μοντελοποίηση πολύπλοκων σειριακών δεδομένων και χρονοσειρών γενικότερα. Προς αυτή τη κατεύθυνση, παρουσιάζουμε μια παραλλαγή των κλασικών Κρυφών Μαρκοβιανών Μοντέλων, βασισμένη σε μια ιεραρχική επέκταση: εισάγουμε μια επιπρόσθετη πρώτης τάξης Κρυφή Μαρκοβιανή αλυσίδα, επιτρέποντας με τον τρόπο αυτό στο μοντέλο να μεταβάλλει ουσιαστικά τη χρονική δυναμική της συμβατικής Μαρκοβιανής Αλυσίδας παραγωγής παρατηρήσεων (Observation-emitting Ma-rkov Chain). Τοιουτοτρόπως, το μοντέλο μπορεί δυναμικά να συνάγει ποια προηγούμενη κατάσταση επηρεάζει περισσότερο την τωρινή χρονική στιγμή. Χρησιμοποιούμε επιχειρήματα από το Bayesian πλαίσιο, και συγκεκριμένα αξιοποιούμε την τεχνική Variational Inference αποσκοπώντας στο να αυξήσουμε την ικανότητα μοντελοποίησης και τη σταθερότητα της προσέγγισης. Επιδεικνύουμε τη δυνατότητα μοντελοποίησης της προκύπτουσας δομής, εξετάζοντας της ακρίβεια αναγνώρισης σε έναν από τους πιο προκλητικούς τομείς της Μηχανικής Όρασης (Computer Vision), την αναγνώριση ανθρώπινης κίνησης (Human Action Recognition). Για το σκοπό αυτό, χρησιμοποιούμε τέσσερα διαφορετικά δεδομένα αναφοράς και συγκρίνουμε την επίδοση της προσέγγισης μας σε σχέση τόσο με βασικά μοντέλα όσο και και με state-of-the-art τεχνικές. Εξερευνούμε επιπρόσθετα την ικανότητα της προσέγγισης στη μοντελοποίηση δεδομένων με ελλείπουσες τιμές (data with missing values). Τα προκύπτοντα πειραματικά αποτελέσματα επιβεβαιώνουν την αυξημένη δυνατότητα μοντελοποίησης των δεδομένων της προσέγγισης μας, επιδεικνύοντας ανταγωνιστική ακρίβεια αναγνώρισης σε όλα τα εξεταζόμενα σετ δεδομένων, καθώς και αποτελεσματικό χειρισμό δεδομένων με ελλείπουσες τιμές, παρουσιάζοντας την μικρότερη πτώση της ακρίβειας αναγνώρισης σε αναλογία με το αυξανόμενο ποσοστό ελλειπουσών τιμών. Τέλος, η περαιτέρω ανάλυση της συμπεριφοράς της εισαχθείσας κρυφής διαδικασίας παρήγαγε ισχυρά εμπειρικά αποτελέσματα ότι τα συνήχθη χρονικά μοτίβα μπορούν επιτυχώς να μοντελοποιήσουν δεδομένα με περίπλοκες χρονικές εξαρτήσεις.