Open Access
Modeling and extracting research processes
Author(s) -
Βαγιανός Περτσάς
Publication year - 2021
Language(s) - English
Resource type - Dissertations/theses
DOI - 10.12681/eadd/43604
Subject(s) - computer science , data science
Τις τελευταίες δεκαετίες παρατηρείται μια συνεχής αύξηση στον ρυθμό παραγωγής και δημοσίευσης επιστημονικών άρθρων σε κάθε ερευνητική περιοχή (Bornmann &Mutz, 2015). Η σημαντική αυτή αύξηση στην ποσότητα της παραγόμενης πληροφορίας καθιστά δύσκολη την συνεχή παρακολούθηση των πιο πρόσφατων εξελίξεων στο χώρο της έρευνας σε κάθε ερευνητικό πεδίο, αυξάνει την πιθανότητα «επανεφεύρεσης» ήδη δημοσιευμένων λύσεων, ενώ καθιστά δύσκολη την διερεύνηση πιθανών διασυνδέσεων ανάμεσα σε διαφορετικά επιστημονικά πεδία καθώς και την μεταφορά και εφαρμογή μεθόδων από τον ένα ερευνητικό χώρο στον άλλο. Η παροχή βοήθειας στους ερευνητές όσον αφορά στην δυνατότητα απάντησης σύνθετων ερωτημάτων που δεν μπορούν να απαντηθούν από σύγχρονα εργαλεία αναζήτησης όπως το Google Scholar, το Scopus ή το Semantic Scholar -που πρακτικά χρησιμοποιούν τα μεταδεδομένα ερευνητικών συγγραμμάτων ή διανύουν γράφους από βιβλιογραφικές αναφορές, χωρίς να εκμεταλεύονται την πληροφορία που καταγράφεται στο ίδιο το κείμενο- μπορεί να βελτιώσει την πρόσβαση στην επιστημονική βιβλιογραφία αυξάνοντας την ερευνητική παραγωγικότητα. (Castelliet al., 2013). Παραδείγματα τέτοιων ερωτημάτων περιλαμβάνουν την εξεύρεση του τρόπου επίλυσης ενός ερευνητικού προβλήματος, π.χ. ποια βήματα ακολουθήθηκαν,με ποια σειρά, ποιοι στόχοι υλοποιήθηκαν, ποια εργαλεία χρησιμοποιήθηκαν, ποιες μέθοδοι εφαρμόστηκαν, με τί αποτελέσματα, ποιοι ερευνητές έχουν ασχοληθεί με παρόμοια προβλήματα / στόχους / μεθόδους, κ.λπ. Η κατασκευή βάσεων γνώσεων ικανών να απαντούν σύνθετα ερωτήματα όπως τα παραπάνω, προϋποθέτει την κωδικοποίηση της πληροφορίας σχετικά με τις ερευνητικές διεργασίες με τέτοιο τρόπο ώστε να καθίσταται δυνατή η χρήση μηχανισμών συλλογιστικής καθώς και η καθοδήγηση με ενιαίο τρόπο τόσο της εξαγωγής πληροφορίας από τις δημοσιεύσεις όσο και της απευθείας τεκμηρίωσης των ερευνητικών διεργασιών.Ο στόχος της παρούσας διατριβής είναι η συστηματική και σαφής εννοιολογική μοντελοποίηση της ερευνητικής διεργασίας και η αναζήτηση τρόπων με τους οποίους, με βάση το συγκεκριμένο μοντέλο, διάφορες πτυχές της ερευνητικής διεργασίας μπορούν να εξαχθούν από το κείμενο της δημοσίευσης και να διασυνδεθούν μεταξύ τους, αλλά και με πληροφορία από άλλες πηγές διασυνδεδεμένων δεδομένων, με αυτόματο τρόπο. Προς τούτο, η προσέγγιση που υιοθετείται είναι η αντιμετώπιση των ακόλουθων δύο προβλημάτων:1. Ορισμός οντολογίας ως εννοιολογικού πλαισίου για παράσταση γνώσης και συλλογιστικής σχετικά με τις ερευνητικές εργασίες.2. Ανάπτυξη μηχανισμών που, καθοδηγούμενοι από την οντολογία, θα επιτρέψουν την δημιουργία μιας βάσης γνώσεων η οποία θα εκμεταλλεύεται διάφορους ψηφιακούς πόρους προκειμένου να συλλέξει, διασυνδέσει και εξαγάγει νέα γνώση υποστηρίζοντας έτσι την ερευνητική εργασία.Η εργασία στην οντολογία ξεκίνησε στα πλαίσια του ESF Network for DigitalMethods in the Arts and Humanities (NeDiMAH1) με στόχο την ανάπτυξη μιας οντολογίας μεθόδων για την ερευνητική περιοχή των Ψηφιακών Ανθρωπιστικών Επιστημών. (Pertsas et al., 2016). Κατόπιν, η NeDiMAH Methods Ontology(NeMO2) επεκτάθηκε στην Scholarly Ontology (SO) (Pertsas & Constantopoulos,2017) που παρουσιάζεται εδώ και αποτελεί ένα πλαίσιο μοντελοποίησης ερευνητικών διεργασιών ανεξαρτήτως ερευνητικού πεδίου. Η NeMO καθώς και ηSO είναι βασισμένες σε εμπειρικά δεδομένα σχετικά με τις ερευνητικές πρακτικές και τις πληροφοριακές ανάγκες των ερευνητών. Επηρεασμένες από τους χώρους τουBusiness Process Modeling (Weske, 2012) και Cultural Historical Activity Theory(Nardi, Kaptelinin, & Nardi, 2006), είναι συμβατές με την CIDOC CRM (Doerr,2003), μία καθιερωμένη οντολογία (πρότυπο ISO21127) για την ενσωμάτωση,διασύνδεση και διαλειτουργικότητα πληροφορίας, καθώς και με την UnifiedFoundational Ontology (UFO) (Guizzardi and Wagner 2004). Στην παρούσα διατριβή εξηγούμε τις σχεδιαστικές επιλογές που αφορούν στην οντολογία και παρουσιάζουμε ορισμούς των τάξεων και σχέσεων του μοντέλου. Διερευνούμε πιθανές διασυνδέσεις με άλλες –πιο αφηρημένου επιπέδου- οντολογίες, όπως η UFOή CIDOC-CRM, καθώς και πιο εξειδικευμένα μοντέλα όπως τα Time Ontology3,BasicGeo4, SWAN5, DoCO6, SPAR7 και CRM-Sci (Kritsotaki et al., 2014) που μπορούν να χρησιμοποιηθούν έτσι ώστε να εξειδικεύσουν ή να επεκτείνουν, αντίστοιχα, τις οντότητες της SO. Εξετάζουμε συγκεκριμένες ταξινομίες που επιτρέπουν τη συσχέτιση όρων της SO με όρους ευρετηρίασης από θησαυρούς όρων,διευρύνοντας έτσι το σημασιολογικό τους περιεχόμενο. Διατυπώνουμε επίσης σύνθετα ερωτήματα που αντιμετωπίζουν τις προαναφερθείσες απαιτήσεις σχετικά με τις ερευνητικές δραστηριότητες.Διερευνούμε μηχανισμούς συλλογιστικής που επιτρέπουν τον αυτόματο συσχετισμό όρων της SO ενισχύοντας έτσι την συνεκτικότητα του σημασιολογικού γράφου. Συγκεκριμένα, εξετάζουμε τον ρόλο των ταξινομιών τύπων, όπως εκείνης της τάξης Activity Type, και εξηγούμε πώς οι όροι τους μπορούν να λειτουργήσουν ως κεντρικοί κρίκοι στην μοντελοποίηση χαρακτηριστικών που υποδηλώνουν πρόθεση και λειτουργικότητα μέσα από τις οντότητες της SO. Αναπτύσσουμε σημασιολογικούς περιορισμούς και κανόνες που παρέχουν το πλαίσιο συλλογιστικής στην SO. Επιπρόσθετα, διερευνούμε την χρήση της σημασιολογικής ομοιότητας στα πλαίσια της ταξινόμησης της ερευνητικής διεργασίας μέσω των όρων ευρετηρίασης που παρέχονται από την ταξινομία Activity Type. Παρέχουμε ανασκόπηση των σημαντικότερων μέτρων σημασιολογικής ομοιότητας με βάση γράφους και παρουσιάζουμε το δικό μας, στηριζόμενο σε ένα πρωτότυπο ορισμό της σημασιολογικής εξειδίκευσης που εκμεταλλεύεται τοπολογικά χαρακτηριστικά της θέσης ενός όρου σε λεξιλογικούς γράφους όπως το Wordnet. Υλοποιούμε το εν λόγω μέτρο σε γλώσσα προγραμματισμού Python ως μέρος του Natural LanguageProcessing Toolkit (NLTK) και το αξιολογούμε συγκρίνοντας τον συντελεστή συσχέτισης των τιμών του με αυτές που έχουν παραχθεί από ανθρώπους κάνοντας χρήση δύο ευρύτατα διαδεδομένων benchmarks ειδικά σχεδιασμένων για αξιολόγηση μέτρων σημασιολογικής ομοιότητας λέξεων. Τα αποτελέσματα εμφανίζουν σημαντικά υψηλή απόδοση –υψηλότερη από τα αντίστοιχα μέτρα σημασιολογικής ομοιότητας βασιζόμενα τόσο στις ιδιότητες των γράφων όσο στην μέτρηση της συνημιτονοειδούς απόστασης διανυσμάτων που έχουν προκύψει από διαθέσιμα state-of-the-art word embeddings.Κατόπιν, στρεφόμαστε προς την δημιουργία βάσης γνώσεων με οδηγό την SO.Προς τούτο ακολουθούμε δύο προσεγγίσεις: (1) ανάπτυξη εξειδικευμένων κανόνων επεξεργασίας κειμένου που αξιοποιούν τις ιδιότητες της οντολογίας καθώς και τα δομικά και συντακτικά χαρακτηριστικά κειμένου ερευνητικών δημοσιεύσεων και(2) χρήση στατιστικών μεθόδων μηχανικής μάθησης.Σύμφωνα με την πρώτη προσέγγιση, αναπτύξαμε το Research Spotlight, ένα σύστημα που αξιοποιεί πληροφορία από την DBpedia, ανασύρει αυτόματα άρθρα από διάφορες πηγές, όπως αποθετήρια, ιστοσελίδες κ.α., εξάγει και διασυνδέει διάφορους τύπους οντοτήτων (γνωστά ονόματα, περιγραφικές οντότητες)αξιοποιώντας τα μεταδεδομένα του κειμένου, καθώς και συντακτικούς, λεκτικούς και σημασιολογικούς περιορισμούς και δημιουργεί μια βάση γνώσεων υπό μορφή τριάδων RDF. Εξειδικευμένοι κανόνες σχεδιάστηκαν, υλοποιήθηκαν και ενσωματώθηκαν στα δεδομένα εξόδου του spaCy, ενός ευρύτατα διαδεδομένου εργαλείου για επεξεργασίες κειμένου όπως tokenization, segmentation, POS taggingκαι dependency parsing. Η αξιολόγηση του συστήματος έγινε μέσω διαφόρων πειραμάτων (token-based, entity-based) μετρώντας την συνολική απόδοση ως micro / macro-averaged Precision, Recall και F1 των αυτόματα δημιουργημένων τάξεων και σχέσεων. Επίσης, πραγματοποιήθηκε ανάλυση λαθών προκειμένου να διερευνηθεί η προέλευση των λαθών του συστήματος και πιθανές μελλοντικές βελτιώσεις. Τέλος, διερευνήσαμε την χρήση στατιστικών μεθόδων μηχανικής μάθησης προκειμένου να εξαγάγουμε πληροφορία από κείμενο για την παραγωγή πραγματώσεων τριών βασικών τάξεων της SO: την τάξη των Μεθόδων που αφορά διαδικασίες που ακολουθούνται στα πλαίσια μιας ερευνητικής διεργασίας, την τάξη των Δραστηριοτήτων που αφορά σε ερευνητικές πράξεις όπως π.χ. πειράματα,αρχαιολογικές ανασκαφές, ιατρικές μελέτες κ.α. και την σχέση Ακολουθίας που συνδέει ερευνητικές διεργασίες μεταξύ τους όταν η μία διαδέχεται χρονικά την άλλη.Περιγράφουμε τις ιδιαιτερότητες του εν λόγω εγχειρήματος που το διαφοροποιούν από συνήθη εγχειρήματα εξαγωγής πληροφορίας από κείμενο. Διαμορφώσαμε συνολικά 13 μεθόδους μηχανικής μάθησης κυλιόμενου παράθυρου για την αυτόματη κατηγοριοποίηση λέξεων, προτάσεων και εν γένει κομματιών κειμένου,κάνοντας χρήση τριών μεθόδων ταξινόμησης: Logistic Regression, linear SupportVector Machines και Random Forests. Οι παραπάνω μέθοδοι αξιοποιούν word, POSκαι dependency embeddings, κατασκευασμένα από ένα αρχικό σώμα 50.000 ερευνητικών άρθρων που διατίθενται από δύο μεγάλους εκδοτικούς οίκους(Springer και Elsevier) μέσω των αντίστοιχων API, καθώς και συνδυασμούς από εξειδικευμένα χαρακτηριστικά που αξιοποιούν συντακτικές, λεξικολογικές και δομικές ιδιότητες του κειμένου. Πραγματοποιήσαμε δύο ειδών πειράματα αξιολόγησης (token-based, entity-based) και αξιολογήσαμε την απόδοση των μεθόδων με βάση τα μέτρα Precision, Recall and F1. Τα αποτελέσματα δείχνουν υψηλές επιδόσεις, αρκετά υψηλότερες από εκείνες των βασικών μεθόδων όπως χρησιμοποιούνται σε συνήθη εξαγωγή ονοματισμένων οντοτήτων. Αυτό μας ενθαρρύνει να δοκιμάσουμε την χρήση παρόμοιων μεθόδων για την εξαγωγή πληροφορίας σχετικής με άλλες οντότητες της οντολογίας (όπως π.χ. στόχοι,προτάσεις, εργαλεία κ.α.) καθώς και τον πειραματισμό με πιο σύνθετους ταξινομητές (π.χ. convolutional ή recurrent neural networks) όταν θα έχουμε διαθέσιμα κατάλληλα σύνολα δεδομένων.