
INTELLIGENT MODULE FOR «SMART» NEWS AGGREGATOR
Author(s) -
N. Ibragim
Publication year - 2021
Publication title -
ķazaķstan-britan tehnikalyķ universitetìnìņ habaršysy
Language(s) - Russian
Resource type - Journals
eISSN - 2959-8109
pISSN - 1998-6688
DOI - 10.55452/1998-6688-2021-18-1-109-116
Subject(s) - news aggregator , rss , atom (system on chip) , computer science , world wide web , embedded system
В сегодняшнее время все больше людей получают информацию с онлайн ресурсов, таких как новостные порталы, блоги и т.п. С развитием интернет технологий объем публикуемой информа- ции настолько вырос, что стало трудно и долго находить релевантную и интересную информацию. Новостные агрегаторы – это решение, которое предоставляет возможность пользователю полу- чать только свежие и релевантные новости с разных источников. Платформа агрегатора контента собирает информацию со всей сети и публикует ее в одном месте для доступа посетителей. В данной работе представлена интеллектуальная система новостного агрегатора, которая собирает свежие новости с разных источников с помощью канала RSS/Atom и выводит их в одной платформе. В новос- тном агрегаторе реализован интеллектуальный модуль, который на основе сохраненных пользовате- лями новостей рекомендует похожие новости. Для рекомендации пользователям похожих новостей к новостным заголовкам применяется метод косинусного сходства, который измеряет схожесть двух векторов путем вычисления косинуса угла между этими двумя векторами. Таким образом, новостные заголовки, которые имеют наибольшее значение косинусного сходства, рекомендуются пользовате- лям. К новостным заголовком применяются следующие технологии обработки естественного языка: токенизация, удаление ненужных символов и пунктуаций, преобразование заголовков в вектора с по- мощью метода TF-IDF. В данной работе были сравнены результаты измерения сходства для самых популярных метрик, таких как косинусное сходство, Евклидово расстояние и расстояние Жаккарда. Результаты сравнения представлены для новостей, полученных через RSS/Atom каналы ресурсов из категорий программирование и бизнес/маркетинг.