Принципи побудови хмар тегів даних | Zendy

К. М. Хараш | Zendy; O. Olshevska | Zendy; Ж. А. Титуренко | Zendy

AI Assistant Blog Pricing

Home ZAIA Blog

Open Access

Принципи побудови хмар тегів даних

Author(s) -

К. М. Хараш,

O. Olshevska,

Ж. А. Титуренко

Publication year - 2020

Publication title -

avtomatizaciâ tehnologičeskih i biznes-processov

Language(s) - Ukrainian

Resource type - Journals

eISSN - 2312-931X

pISSN - 2312-3125

DOI - 10.15673/atbp.v12i1.1699

Subject(s) - json , xml , computer science , humanities , linguistics , programming language , art , world wide web , philosophy

Розглядаються механізми візуалізації для побудови термінологічних хмар. На прикладі JSON, HTML, CSV, XLSX, XML, TXT наведений перелік типів файлів та ресурсів. Проаналізовано можливості добування та збереження вхідних даних. Проведено дослідження аналогічних систем, на основі якого було обрано два оптимальні типи файлів, а саме CSV та TXT. Виявлено підхід формування списку ключових слів для наукових публікацій або виокремлення провідної тематики різних текстів. Встановлено, що у разі необхідністі обробки великих текстів спільної спрямованості, якими наприклад можуть бути літературні твори, наукові статті, судові вироки тощо, достатнім буде використання малих веб-додатків для побудови тегових хмар. Тегові хмари на основі алгоритму k-середніх здатні досить ефективно виявити ключові поняття, найбільш уживані слова та провідні концепції. При порівнянні між собою форматів CSV та TXT, було підтверджено, що швидкість обробки залежить скоріше від об’єму вхідної інформації, ніж від структури файлу. Звідси, можна стверджувати, що використання одного або іншого формату зумовлено вибором користувача. Проведено аналіз з якого відзначено, що формат CSV потребує верхнього рядка, в якому вказують атрибути. Для більшої коректності подальшого аналізу, атрибути слід вказати і формувати кожний наступний рядок даних строго по черзі. Така незначна особливість структури допомагає досліднику орієнтуватися серед набору текстової інформації, а при подальшій обробці перший рядок можна не враховувати. На відміну від попереднього формату, формат TXT не потребує формування першого рядка атрибутів. Це ускладнює візуальне сприйняття наявної інформації. Не рекомендовано вводити атрибути самостійно, в подальшому при обробці це буде впливати на коректність результатів кластеризації в негативний бік.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.

Having issues? You can contact us here

Empowering knowledge with every search

About

About Careers Publisher Partners Contact Us

Learn

FAQs Blog Terms of Use Privacy Policy

About

Learn

Discover

Explore