z-logo
open-access-imgOpen Access
Τεχνικές μηχανικής μάθησης για σημασιολογική δεικτοδότηση κειμένου
Author(s) -
Γιάννης Παπανικολάου
Publication year - 2021
Language(s) - Uncategorized
Resource type - Dissertations/theses
DOI - 10.12681/eadd/44838
Subject(s) - mathematics
Η διατριβή συνεισφέρει μια πρωτότυπη έρευνα στον τομέα της μηχανικής μάθησης και πιο συγκεκριμένα στις περιοχές της μάθησης από δεδομένα πολλαπλών ετικετών και των μοντέλων θεμάτων. Το κύριο πρόβλημα που αντιμετωπίζεται αφορά ένα σενάριο όπου υπάρχει ένα σύνολο δεδομένων για τα οποία υποθέτουμε ότι κάθε στοιχείο μπορεί να περιγραφεί από περισσότερες της μίας σημασιολογικές έννοιες, ή μία κατανομή επί αυτών. Ο στόχος μας σε αυτή την περίπτωση, είναι να προσδιορίσουμε τις έννοιες αυτές για κάθε στοιχείο του συνόλου δεδομένων.Στην περίπτωση της μάθησης από δεδομένα πολλαπλών ετικετών, το πρόβλημα ανήκει στην επιβλεπόμενη μάθηση: υπάρχει ένα σύνολο δεδομένων εκπαίδευσης και μια δοσμένη οντολογία εννοιών και ο στόχος είναι να εκπαιδευτεί ένα μοντέλο πολλαπλών ετικετών που θα προβλέπει επιτυχώς έννοιες σε νέα δεδομένα. Τα μοντέλα θεμάτων αφορούν ένα πλαίσιο μη επιβλεπόμενης μάθησης, στοχεύοντας στον προσδιορισμό τόσο της οντολογίας των εννοιών, δηλαδή των θεμάτων της συλλογής, όσο και τις έννοιες που περιγράφουν κάθε στιγμιότυπο δεδομένων, δηλαδή τις κατανομές στιγμιότυπου-θεμάτων. Αν και το πεδίο εφαρμογής της διατριβής είναι το κείμενο, εντούτοις οι συνεισφορές της μπορούν εύκολα να επεκταθούν και σε άλλους τομείς εφαρμογών.Σε αυτή την εργασία, μας απασχολούν τα εξής προβλήματα: α) ο αποτελεσματικός συνδυασμός μοντέλων μάθησης πολλαπλών ετικετών, β) η βελτίωση του υπολογισμού των παραμέτρων για επιβλεπόμενα και μη επιβλεπόμενα μοντέλα θεμάτων γ) η επέκταση επιβλεπόμενων μοντέλων θεμάτων, ώστε να αντιμετωπίζουν επιτυχώς προβλήματα μάθησης από δεδομένα πολλαπλών ετικετών που έχουν πάρα πολύ μεγάλες οντολογίες εννοιών.Αρχικά, παρουσιάζουμε μια μέθοδο συνόλου για μεθόδους μάθησης από δεδομένα πολλαπλών ετικετών, που συνδυάζει ταξινομητές πολλαπλών ετικετών και εφαρμόζει ένα τεστ στατιστικής σημαντικότητας ώστε να επιβεβαιώσει τις επιλογές του. Στη συνέχεια, εισάγεται μια καινοτόμα μέθοδος υπολογισμού των παραμέτρων για μοντέλα θεμάτων. Η μέθοδος κάνει χρήση της πλήρους κατανομής πιθανότητας της Λανθάνουσας Κατανομής \textlatin{Dirichlet (LDA)}, προτείνοντας βελτιωμένους εκτιμητές παραμέτρων τόσο από πλευράς απόδοσης όσο και χρονικής πολυπλοκότητας. Τέλος, προτείνουμε μια επέκταση για μοντέλα θεμάτων επιβλεπόμενης μάθησης, που καταφέρνουν να αντιμετωπίσουν επιτυχώς προβλήματα με εκατοντάδες χιλιάδες έννοιες. Οι παραπάνω μέθοδοι αξιολογούνται σε εκτενή πειράματα με την αιχμή της τεχνολογίας σε κάθε τομέα, με τα αποτελέσματα να φανερώνουν σημαντικά πλεονεκτήματα για τις μεθόδους μας, σε όλες τις περιπτώσεις.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.
Having issues? You can contact us here