z-logo
open-access-imgOpen Access
Принципи побудови хмар тегів даних
Author(s) -
К. М. Хараш,
O. Olshevska,
Ж. А. Титуренко
Publication year - 2020
Publication title -
avtomatizaciâ tehnologičeskih i biznes-processov
Language(s) - Ukrainian
Resource type - Journals
eISSN - 2312-931X
pISSN - 2312-3125
DOI - 10.15673/atbp.v12i1.1699
Subject(s) - json , xml , computer science , humanities , linguistics , programming language , art , world wide web , philosophy
Розглядаються механізми візуалізації для побудови термінологічних хмар. На прикладі JSON, HTML, CSV, XLSX, XML, TXT наведений перелік типів файлів та ресурсів. Проаналізовано можливості добування та збереження вхідних даних. Проведено дослідження аналогічних систем, на основі якого було обрано два оптимальні типи файлів, а саме CSV та  TXT.  Виявлено підхід формування списку ключових слів для наукових публікацій або виокремлення провідної тематики різних текстів. Встановлено, що у разі необхідністі обробки великих текстів спільної спрямованості, якими наприклад можуть бути літературні твори, наукові статті, судові вироки тощо, достатнім буде використання малих веб-додатків для побудови тегових хмар. Тегові хмари на основі алгоритму k-середніх здатні досить ефективно виявити ключові поняття, найбільш уживані слова та провідні концепції. При порівнянні між собою форматів CSV та TXT, було підтверджено, що швидкість обробки залежить скоріше від об’єму вхідної інформації, ніж від структури файлу. Звідси, можна стверджувати, що використання одного або іншого формату зумовлено вибором користувача. Проведено аналіз з якого відзначено, що формат CSV потребує верхнього рядка, в якому вказують атрибути. Для більшої коректності подальшого аналізу, атрибути слід вказати і формувати кожний наступний рядок даних строго по черзі. Така незначна особливість структури допомагає досліднику орієнтуватися серед набору текстової інформації, а при подальшій обробці перший рядок можна не враховувати. На відміну від попереднього формату, формат TXT не потребує формування першого рядка атрибутів. Це ускладнює візуальне сприйняття наявної інформації. Не рекомендовано вводити атрибути самостійно, в подальшому при обробці це буде впливати на коректність результатів кластеризації в негативний бік.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.
Having issues? You can contact us here