
ANALIZA I OBRADA TEKSTA POMOĆU RAZLIČITIH MODELA TEMA
Author(s) -
Olivera Hrnjaković
Publication year - 2019
Publication title -
zbornik radova fakulteta tehničkih nauka/zbornik radova fakulteta tehničkih nauka
Language(s) - Bosnian
Resource type - Journals
eISSN - 2560-5925
pISSN - 0350-428X
DOI - 10.24867/06be29hrnjakovic
Subject(s) - physics , humanities , art
Ovaj rad opisuje trenutne mogućnosti i ograničenja postojećih algoritama za izdvajanju tema iz teksta. Dat je teorijski prikaz popularnih modela tema uz sve neophodne korake analize i obrade teksta koji se izvršavaju pre slanja podataka na ulaz modela. Praktičan deo rada je izdvajanje tema iz pitanja sa sajta Stack overflow. Upoređeni su LSA, PLSA i LDA pristup, a evaluacija modela je izvršena određivanjem koherentnosti tema odgovarajućim merama, imenovanjem tema i analizom njihove vizuelizacije u prostoru. Kako modeli tema unapred zahtevaju navođenje broja tema koje će biti izdvojene iz teksta, deo rada posećen je optimizaciji hiperparametara. Izabrani model za modelovanje tema jeste LDA sa 6 tema. Da bi se dobila numerička procena performansi modela 30 pitanja je ručno označeno imenima dobijenih tema i simuliran je klasifikacioni model. Ova pitanja su korišćena kao test skup podataka u kreiranom LDA klasifikacionom modelu. Postignuta je uspešnost od 77% tačnosti.