
Overview of topical issues in basic spam filtering methods and analysis of their effectiveness
Author(s) -
Вера Аркадьевна Частикова,
Константин Валерьевич Козачёк
Publication year - 2021
Publication title -
vestnik adygejskogo gosudarstvennogo universiteta. seriâ estestvenno-matematičeskie i tehničeskie nauki
Language(s) - English
Resource type - Journals
ISSN - 2410-3225
DOI - 10.53598/2410-3225-2021-3-286-98-106
Subject(s) - computer science , bag of words model , embedding , artificial intelligence , machine learning , classifier (uml) , naive bayes classifier , data mining , support vector machine
Представлен анализ основных проблем фильтрации почтового спама, современных методов фильтрации нежелательных писем и способов обхода систем защиты. Вводится понятие « легитимного спама » - новой проблемы, с которой сталкиваются пользователи электронной почты. Рассмотрены методы представления текста: bag-of-words и Embedding-пространство, а также методы классификации: искусственные нейронные сети, метод опорных векторов, наивный байесовский классификатор. В работе определены эффективные методы, построенные на анализе текста, для решения задач обнаружения различных видов спама: типичного ( известного системе ) , составленного при помощи методов обхода систем детекции спама, и легитимного. An analysis of the main problems of filtering mail spam, modern methods of filtering unwanted letters and methods of bypassing security systems is presented. The concept of “legitimate spam” is being introduced - a new problem that email users face. Methods of text presentation are considered: bag-of-words and Embedding-space, as well as classification methods: artificial neural networks, the method of reference vectors, naive Bayesian classifier. The work identifies effective methods based on text analysis, for solving the problems of detecting various types of spam: a typical (known to system), compiled using methods of bypassing spam detection systems, and legitimate.