
Σημασιολογική απάντηση ερωτημάτων στον παγκόσμιο ιστό
Author(s) -
Γεώργιος Στρατογιάννης
Publication year - 2021
Language(s) - Uncategorized
Resource type - Dissertations/theses
DOI - 10.12681/eadd/39761
Subject(s) - information retrieval , computer science , world wide web
Με την ταχύτατη ανάπτυξη του Παγκόσμιου Ιστού (WWW) η διαχείριση του συνόλου της πληροφορίας γίνεται όλο και πιο σύνθετη διαδικασία. Καθημερινά, εκατομμύρια νέες σελίδες προστίθενται στις ήδη υπάρχουσες οι οποίες με τη σειρά τους εμπλουτίζονται συνεχώς, αυξάνοντας τον όγκο της διαθέσιμης πληροφορίας. Ο όγκος είναι ένας αρνητικός παράγοντας στην εκμετάλλευση της πληροφορίας καθότι, παρόλη τη διαθεσιμότητά της, οι χρήστες δυσκολεύονται να βρουν αυτό που αναζητούν. Επιπρόσθετα το γεγονός ότι η πληροφορία είναι ανομοιογενής και γραμμένη στη γλώσσα των ανθρώπων κάνει ακόμη πιο δύσκολη την αναζήτηση. Η ύπαρξη μεταδεδομένων τα οποία θα επεξηγούν τα δεδομένα και θα κάνουν περισσότερο σαφές το περιεχόμενο της πληροφορίας είναι μια συνθήκη που θα βοηθούσε ιδιαίτερα. Συνεπώς, υπάρχει άμεση ανάγκη για την ανάπτυξη τεχνικών και την κατασκευή συστημάτων τα οποία θα μπορούν να αναζητούν, να ταξινομούν και να κατηγοριοποιούν τη διαθέσιμη πληροφορία και εάν είναι δυνατόν να παράγουν αυτόματα μεταδεδομένα. Στη συνέχεια, αυτά τα μεταδεδομένα πρέπει να είναι τέτοια ώστε να μπορούν να υποστούν επεξεργασία από υπολογιστές. Για την επίλυση αυτού του προβλήματος έχουν προταθεί τα συστήματα απάντησης ερωτημάτων τα οποία για τη βελτίωση της απόδοσής τους εκμεταλλεύονται τα μεταδεδομένα των εγγράφων και τη σημασιολογία που υπάρχει σε αυτά. Η συνεισφορά της διατριβής έγκειται στη μελέτη και την ανάπτυξη συστημάτων απάντησης ερωτημάτων που δίνονται σε φυσική γλώσσα. Επιπλέον, μελετούνται συγκεκριμένα προβλήματα που βοηθούν στη σημασιολογική κατανόηση των εγγράφων από τις μηχανές αναζήτησης, ώστε να είναι δυνατή η καλύτερη εξαγωγή της πληροφορίας από αυτά.Τα συστήματα απάντησης ερωτημάτων (question answering systems) επί της ουσίας είναι συστήματα τα οποία λαμβάνουν ως είσοδο ερωτήματα και ένα σύνολο εγγράφων, μέσα στα οποία αναζητούν τις απαντήσεις. Το ερώτημα συνήθως δίνεται σε φυσική γλώσσα και αναζητά απαντήσεις οι οποίες αφορούν ένα συγκεκριμένο πεδίο γνώσεων. Ο άνθρωπος, διαβάζοντας από τον ιστό ένα κείμενο σε φυσική γλώσσα μπορεί να ξεχωρίσει σαφώς τα όρια των λέξεων, τη σημασία τους και εύκολα μπορεί να καταλάβει ποιο είναι το αντικείμενο ή η αφηρημένη έννοια στην οποία αναφέρονται. Η ίδια διαδικασία δεν είναι καθόλου προφανής για ένα υπολογιστικό σύστημα. Χρειάζονται λοιπόν τεχνικές επεξεργασίας και αναπαράστασης κειμένου οι οποίες θα είναι δυνατό να γεφυρώσουν το χάσμα μεταξύ της γλώσσας που αντιλαμβάνεται ο κόσμος των μηχανών και της γλώσσας του κόσμου των ανθρώπων. Για αυτό το λόγο όλα αυτά τα χρόνια αναπτύχθηκαν διάφορες τεχνικές επεξεργασίας κειμένου. Οι τεχνικές αυτές κινούνται προς δύο κατευθύνσεις. Η πρώτη κατεύθυνση αφορά την αναγνώριση μέσα στο κείμενο των ορίων μίας λέξης ή φράσης. Η φράση αυτή περιέχει κάποιο νοηματικό περιεχόμενο και αποτελεί την αναπαράσταση σε φυσική γλώσσα κάποιου αντικείμενου ή αφηρημένης έννοιας. Φυσικά ο υπολογιστής παρότι μέσω αυτών των τεχνικών μπορεί να αναγνωρίσει ότι μια συγκεκριμένη φράση αναπαριστά ένα αντικείμενο, συνεχίζει να μην είναι από μόνος του ικανός να διακρίνει εννοιολογικά ποιο είναι το αντικείμενο αυτό. Για αυτό το λόγο απαιτείται να προστεθεί κάποιου είδους εξωτερική γνώση, όμοια με αυτή που αποκτά με την εμπειρία του ο άνθρωπος. Η γνώση αυτή για να αποθηκευτεί χρειάζεται να μοντελοποιηθεί με τέτοιον τρόπο ώστε να είναι κατανοητή και εύκολα επεξεργάσιμη από έναν υπολογιστή.Στο πλαίσιο της διατριβής αναπτύσσονται αλγόριθμοι και μέθοδοι αναγνώρισης της σημασιολογίας των φράσεων και των κειμένων. Η έννοια της σημασιολογίας έγκειται στο γεγονός ότι στις φράσεις και τα κείμενα προστίθενται αντιστοιχίσεις με αντικείμενα που είναι σαφώς ορισμένα σε διάφορες βάσεις γνώσης και οντολογίες. Αυτή η σημασιολογική επισημείωση δίνει τη δυνατότητα στις μηχανές να αντιλαμβάνονται τη σημασιολογία των κειμένων και να βελτιώνουν τα αποτελέσματα της αναζήτησης. Το πρώτο μέρος της παρούσας διατριβής αφιερώνεται στην παρουσίαση ενός συστήματος απάντησης ερωτημάτων. Το σύστημα αυτό βασίζεται ως ένα βαθμό στην αναγνώριση της σημασιολογίας των εγγράφων στα οποία αναζητείται η προς εξαγωγή πληροφορία. Το σύστημα βασίζεται σε συνδυασμό κλασικών μεθόδων ανάκτησης πληροφοριών με εξωτερική σημασιολογική πληροφορία που προέρχεται από βάσεις γνώσεων. Πρώτον, χρησιμοποιείται μια μηχανή αναζήτησης για να συγκεντρώσει ιστοσελίδες και στη συνέχεια να εξάγει τις φράσεις που είναι υποψήφιες να αποτελούν απάντηση στο ερώτημα. Οι φράσεις αυτές κατατάσσονται χρησιμοποιώντας ένα γραμμικό συνδυασμό διαφόρων μετρικών ανάκτησης ώστε να συγκεντρωθούν οι πιο σημαντικές. Για κάθε μία από αυτές αναζητείται η ιστοσελίδα τους στη Wikipedia. Αυτό γίνεται έτσι ώστε να είναι δυνατή η εκμετάλλευση της δομημένης πληροφορίας που περιέχεται στη δομή της Wikipedia. Στη συνέχεια προτείνεται μία νέα μέθοδος εκμετάλλευσης της πληροφορίας αυτής. Με την εφαρμογή της μεθόδου αυτής επιλέγονται ως απάντηση οι φράσεις που ταιριάζουν καλύτερα ως προς τη σημασιολογία του ερωτήματος. Πέρα από την αναγνώριση της σημασιολογίας των λέξεων των κειμένων, ο σημασιολογικός εμπλουτισμός ολόκληρων εγγράφων είναι εξίσου χρήσιμος στα συστήματα απάντησης ερωτημάτων. Η εκ των προτέρων γνώση της σημασιολογικής πληροφορίας που περιέχει κάθε κείμενο βοηθά στην καλύτερη διαχείριση των εγγράφων. Στο πλαίσιο αυτό, παρουσιάζεται μια σειρά αλγορίθμων που εμπλουτίζουν τα κείμενα με μεταδεδομένα που περιέχουν σημασιολογική πληροφορία χρησιμοποιώντας τεχνικές επιβλεπόμενης μάθησης. Επιπλέον, στο κομμάτι αυτό της διατριβής εξετάζουμε το πρόβλημα της εκμετάλλευσης συλλογών εγγράφων με μη ισορροπημένα δεδομένα ως προς μια οντολογία.Συμπερασματικά, η συνεισφορά της διατριβής εντοπίζεται στη μελέτη και προσπάθεια της γεφύρωσης του χάσματος μεταξύ της φυσικής γλώσσας και του Σημασιολογικού Ιστού. Με βάση αυτό γίνεται μελέτη για την απάντηση των ερωτημάτων με το συνδυασμό τεχνικών επεξεργασίας λόγου σε φυσική γλώσσα και σημασιολογικών τεχνικών. Τα ερωτήματα συνήθως δίνονται από ανθρώπους σε φυσική γλώσσα και δύνανται να έχουν περισσότερες από μία απαντήσεις. Επιπλέον γίνεται μια παρουσίαση ενός νέου τρόπου αναπαράστασης εγγράφων. Η αναπαράσταση αυτή βοηθά στην ταξινόμησή τους και την απάντηση ερωτημάτων μέσω αυτών. Στη συνέχεια, παρουσιάζεται μια μελέτη για την αναγνώριση του νοήματος των λέξεων που υπάρχουν μέσα στα κείμενα σε φυσική γλώσσα και συνήθως αποτελούν μέρος της απάντησης. Τέλος, παρουσιάζεται μια μελέτη πάνω στο σημασιολογικό εμπλουτισμό των εγγράφων με βάση οντολογίες ώστε να εκμεταλλευτούμε τα πλεονεκτήματα του Σημασιολογικού Ιστού ως προς την ταχύτητα και την οργάνωση της πληροφορίας.