Open Access
Μοντελοποίηση της ελληνικής νοηματικής γλώσσας για τα συστήματα στατιστικής μηχανικής μετάφρασης
Author(s) -
Δημήτριος Κουρεμένος
Publication year - 2021
Language(s) - Uncategorized
Resource type - Dissertations/theses
DOI - 10.12681/eadd/48061
Subject(s) - gram , n gram , natural language processing , linguistics , computer science , artificial intelligence , language model , philosophy , biology , genetics , bacteria
Η παρούσα διατριβή τοποθετείται στο πλαίσιο της αυτόματης Μηχανικής Μετάφρασης, στην διαπροσωπίας ανθρώπου και μηχανής για τα άτομα με προβλήματα ακοής κάνοντας χρήση την γλώσσα των Κωφών, τηn Ελληνική Νοηματική Γλώσσα. Σε αυτή τη εργασία παρουσιάζουμε ένα πρωτότυπο σύστημα βασισμένο σε κανόνες μηχανικής μετάφρασης με σκοπό τη δημιουργία μεγάλων παράλληλων εύρωστων γραπτών σωμάτων ελληνικού κειμένου και της Ελληνικής Νοηματικής Γλώσσας κάνοντας χρήση της Σύντομης Μεταγραφής της Ελληνικής Νοηματικής Γλώσσας (ΣΜΕΝΓ) (text glosses). Στη συνέχεια, τα σώματα κειμένου χρησιμοποιούνται ως δεδομένα κατάρτισης για την παραγωγή / δημιουργία γλωσσικών μοντέλων ν-γραμμάτων (n-gram Language Model). Επίσης χρησιμοποιούνται και ως δεδομένα εκπαίδευσης για το σύστημα MOSES Στατιστικής Μηχανικής Μετάφρασης. Πρέπει να σημειωθεί ότι όλη η διαδικασία είναι ισχυρή και ευέλικτη, καθώς δεν απαιτεί βαθιά γνώση γραμματικής της ΕΝΓ. Στην εργασία μας παρουσιάζουμε μετρήσεις χρονικές εκτιμήσεις για την δημιουργία των γλωσσικών πόρων, αξιολογούμε τα γλωσσικά μοντέλα της ΕΝΓ μέσω της περιπλοκής και τέλος χρησιμοποιώντας τη μετρική βαθμολογία BiLingual Understudy Assessment (BLEU) για την αξιολόγηση της μηχανικής μετάφρασης, το πρωτότυπο σύστημα MT μας επιτυγχάνει ελπιδοφόρες επιδόσεις και συγκεκριμένα μια μέση βαθμολογία 60,53% και 85,1% / 65,5% / 53,8% / 44,8% για 1-gram / 2 -gram / 3-gram / 4-gram.