
ОБРОБКА ДАНИХ, ЩО МІСТЯТЬ ПРОПУСКИ В ЗАДАЧАХ КЛАСТЕРИЗАЦІЇ
Author(s) -
O. A. Kobylin,
S. O. Vyskrebentseva,
R. V. Petrova
Publication year - 2019
Publication title -
sistemi upravlìnnâ, navìgacìï ta zvʼâzku
Language(s) - Ukrainian
Resource type - Journals
ISSN - 2073-7394
DOI - 10.26906/sunz.2019.5.045
Subject(s) - mathematics
Предметом досліджень є методи підготовки та обробки вхідних даних, що містять пропущені значення, для їх подальшого аналізу та кластеризації. Метою дослідження є розгляд існуючих методів позбавлення від пропусків у даних в задачах кластеризації та доцільність їх використання у реальних задачах. Завдання: аналіз переваг та недоліків кожного з методів, що направлені на відновлення даних, для визначення доцільності використання їх в задачах кластеризації та виділення оптимального методу, порівняльний аналіз методів, оцінка результативності за наслідками порівняння кластеризації відновлених даних з результатами кластеризації еталонних даних. Методи: FCM - для проведення безпосередньо кластеризації даних, метод видалення всіх рядків, що містять пропуски, заповнення пропусків вибірковими статистиками, заповнення пропусків з урахуванням структури зв’язків. Результати: ефективність застосування методів при підготовці даних для подальшої кластеризації залежить від кількості наявних пропусків в похідному наборі. Якщо таких рядків досить мало, то кожен, з розглянутих методів, може бути використаний і дати необхідні результати. Але, якщо рядків з пропусками досить багато, наприклад 30%, тоді найбільш прийнятними для використання можна назвати методи, що пов’язані з заміною значень, однак слід враховувати, що така заміна може призвести до спотворення даних, а з рештою і результатів. Висновки. Наукова новизна – дослідження проблеми кластеризації даних, що містять пропущені значення та розгляд методів, які дозволяють розв’язати цю задачу. Проведення експериментів та порівняння результатів кожного з методів, висновки про доцільність використання того чи іншого методу та побічні ефекти. Практична значущість роботи полягає у визначені можливості використання в реальних задачах, що зазвичай не є ідеальними і з великою ймовірністю міститимуть пропуски, методів обробки даних для використання їх в задачах кластеризації.