z-logo
open-access-imgOpen Access
Persistent semantic identity in WordNet
Author(s) -
Eric Kafe
Publication year - 2018
Publication title -
cognitive studies | études cognitives
Language(s) - English
Resource type - Journals
eISSN - 2392-2397
pISSN - 2080-7147
DOI - 10.11649/cs.1717
Subject(s) - wordnet , computer science , synonym (taxonomy) , identifier , identity (music) , information retrieval , lexical database , natural language processing , artificial intelligence , programming language , philosophy , botany , biology , genus , aesthetics
Persistent semantic identity in WordNet Although rarely studied, the persistence of semantic identity in the WordNet lexical database is crucial for the interoperability of all the resources that use WordNet data. The present study investigates the stability of the two primary entities of the WordNet database (the word senses and the synonym sets), by following their respective identifiers (the sense keys and the synset offsets) across all the versions released between 1995 and 2012, while also considering "drifts" of identical definitions and semantic relations. Contrary to expectations, 94.4% of the WordNet 1.5 synsets still persisted in the latest 2012 version, compared to only 89.1% of the corresponding sense keys. Meanwhile, the splits and merges between synonym sets remained few and simple. These results are presented in tables that allow to estimate the lexicographic effort needed for updating WordNet-based resources to newer WordNet versions. We discuss the specific challenges faced by both the dominant synset-based mapping paradigm (a moderate amount of split synsets), and the recommended sense key-based approach (very few identity violations), and conclude that stable synset identifiers are viable, but need to be complemented by stable sense keys in order to adequately handle the split synonym sets. Trwala tozsamośc semantyczna w WordNecie Chociaz rzadko badana, trwalośc tozsamości semantycznej w leksykalnej bazie danych WordNet ma kluczowe znaczenie dla interoperacyjności wszystkich zasobow korzystających z danych WordNetowych. W niniejszej pracy zbadano stabilnośc dwoch podstawowych elementow bazy danych WordNet (jednostek leksykalnych i synsetow – zbiorow synonimicznych jednostek leksykalnych), poprzez prześledzenie ich identyfikatorow (tj. identyfikatorow jednostek i identyfikatorow synsetow) we wszystkich wersjach wydanych w latach 1995-2012. Wzieto rowniez pod uwage przesuniecia identycznych definicji i relacji semantycznych. Wbrew oczekiwaniom, 94,4% synsetow WordNetu 1.5 zachowalo sie w najnowszej wersji z 2012 r., w porownaniu do 89,1% odpowiadających im identyfikatorow jednostek. Tymczasem podzialy i polączenia pomiedzy synsetami pozostaly proste i nieliczne. Wyniki te przedstawiono w tabelach, ktore pozwalają oszacowac wysilek leksykograficzny potrzebny do aktualizacji zasobow opartych o WordNet do nowszych wersji WordNetu. Omawiamy konkretne wyzwania, przed ktorymi stoi zarowno dominujący paradygmat rzutowania synsetow (umiarkowana liczba podzielonych synsetow), jak i zalecane podejście oparte na identyfikatorach jednostek (bardzo niewiele naruszen tozsamości) i stwierdzamy, ze mozna stworzyc stabilne identyfikatory synsetow, ale muszą one iśc w parze ze stabilnymi identyfikatorami jednostek, aby odpowiednio zając sie podzielonymi synsetami.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.
Having issues? You can contact us here
Accelerating Research

Address

John Eccles House
Robert Robinson Avenue,
Oxford Science Park, Oxford
OX4 4GP, United Kingdom