A preliminary study in zero anaphora coreference resolution for Polish | Zendy

Adam Kaczmarek | Zendy; Michał Marcińczuk | Zendy

AI Assistant Blog Pricing

Home ZAIA Blog

Open Access

A preliminary study in zero anaphora coreference resolution for Polish

Author(s) -

Adam Kaczmarek,

Michał Marcińczuk

Publication year - 2017

Publication title -

cognitive studies | études cognitives

Language(s) - English

Resource type - Journals

eISSN - 2392-2397

pISSN - 2080-7147

DOI - 10.11649/cs.1316

Subject(s) - coreference , anaphora (linguistics) , computer science , natural language processing , resolution (logic) , artificial intelligence , correctness , zero (linguistics) , pronoun , task (project management) , linguistics , algorithm , philosophy , management , economics

A preliminary study in zero anaphora coreference resolution for Polish Zero anaphora is an element of the coreference resolution task that has not yet been directly addressed in Polish and, in most studies, it has been left as the most challenging aspect for further investigation. This article presents an initial study of this problem. The preparation of a machine learning approach, alongside engineering features based on linguistic study of the KPWr corpus, is discussed. This study utilizes existing tools for Polish coreference resolution as sources of partial coreferential clusters containing pronoun, noun and named entity mentions. They are also used as baseline zero coreference resolution systems for comparison with our system. The evaluation process is focused not only on clustering correctness, without taking into account types of mentions, using standard CoNLL-2012 measures, but also on the informativeness of the resulting relations. According to the annotation approach used for coreference to the KPWr corpus, only named entities are treated as mentions that are informative enough to constitute a link to real world objects. Consequently, we provide an evaluation of informativeness based on found links between zero anaphoras and named entities. For the same reason, we restrict coreference resolution in this study to mention clusters built around named entities. Wstepne studium rozwiązywania problemu koreferencji anafory zerowej w jezyku polskim Koreferencja zerowa, w jezyku polskim, jest jednym z zagadnien rozpoznawania koreferencji. Dotychczas nie byla ona bezpośrednim przedmiotem badan, gdyz ze wzgledu na jej zlozonośc byla pomijana i odsuwana na dalsze etapy badan. Artykul prezentuje wstepne studium problemu, jakim jest rozpoznawanie koreferencji zerowej. Przedstawiamy podejście wykorzystujące techniki uczenia maszynowego oraz proces tworzenia cech w oparciu o analize lingwistyczną korpusu KPWr. W przedstawionej pracy wykorzystujemy istniejące narzedzia do rozpoznawania koreferencji dla pozostalych rodzajow wzmianek (tj. nazwy wlasne, frazy rzeczownikowe oraz zaimki) jako źrodlo cześciowych zbiorow wzmianek odnoszących sie do tego samego obiektu, a takze jako punkt odniesienia dla uzyskanych przez nas wynikow. Ocena skupia sie nie tylko na poprawności uzyskanych zbiorow wzmianek, bez wzgledu na ich typ, co odzwierciedlają wyniki podane dla standardowych metryk CoNLL-2012, ale takze na wartości informacji, ktora zostaje uzyskana w wyniku rozpoznania koreferencji. W nawiązaniu do zalozen anotacji korpusu KPWr, jedynie nazwy wlasne traktowane są jako wzmianki, ktore zawierają w sobie wystarczająco szczegolową informacje, aby mozna bylo powiązac je z obiektami rzeczywistymi. W konsekwencji dostarczamy takze ocene opartą na wartości informacji dla podmiotow domyślnych polączonych relacją koreferencji z nazwami wlasnymi. Z tą samą motywacją rozpatrujemy jedynie zbiory wzmianek koreferencyjnych zbudowane wokol nazw wlasnych.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.

Having issues? You can contact us here

Accelerating Research