z-logo
open-access-imgOpen Access
ОБРОБКА ДАНИХ, ЩО МІСТЯТЬ ПРОПУСКИ В ЗАДАЧАХ КЛАСТЕРИЗАЦІЇ
Author(s) -
O. A. Kobylin,
S. O. Vyskrebentseva,
R. V. Petrova
Publication year - 2019
Publication title -
системи управління навігації та зв’язку збірник наукових праць
Language(s) - Ukrainian
Resource type - Journals
ISSN - 2073-7394
DOI - 10.26906/sunz.2019.5.045
Subject(s) - mathematics
Предметом досліджень є методи підготовки та обробки вхідних даних, що містять пропущені значення, для їх подальшого аналізу та кластеризації. Метою дослідження є розгляд існуючих методів позбавлення від пропусків у даних в задачах кластеризації та доцільність їх використання у реальних задачах. Завдання: аналіз переваг та недоліків кожного з методів, що направлені на відновлення даних, для визначення доцільності використання їх в задачах кластеризації та виділення оптимального методу, порівняльний аналіз методів, оцінка результативності за наслідками порівняння кластеризації відновлених даних з результатами кластеризації еталонних даних. Методи: FCM - для проведення безпосередньо кластеризації даних, метод видалення всіх рядків, що містять пропуски, заповнення пропусків вибірковими статистиками, заповнення пропусків з урахуванням структури зв’язків. Результати: ефективність застосування методів при підготовці даних для подальшої кластеризації залежить від кількості наявних пропусків в похідному наборі. Якщо таких рядків досить мало, то кожен, з розглянутих методів, може бути використаний і дати необхідні результати. Але, якщо рядків з пропусками досить багато, наприклад 30%, тоді найбільш прийнятними для використання можна назвати методи, що пов’язані з заміною значень, однак слід враховувати, що така заміна може призвести до спотворення даних, а з рештою і результатів. Висновки. Наукова новизна – дослідження проблеми кластеризації даних, що містять пропущені значення та розгляд методів, які дозволяють розв’язати цю задачу. Проведення експериментів та порівняння результатів кожного з методів, висновки про доцільність використання того чи іншого методу та побічні ефекти. Практична значущість роботи полягає у визначені можливості використання в реальних задачах, що зазвичай не є ідеальними і з великою ймовірністю міститимуть пропуски, методів обробки даних для використання їх в задачах кластеризації.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.
Having issues? You can contact us here
Accelerating Research

Address

John Eccles House
Robert Robinson Avenue,
Oxford Science Park, Oxford
OX4 4GP, United Kingdom