Заметки на полях сражений. Часть 2
 
14.10.2003
Илья Щуров Voyager


 
стр. 1
стр. 2 >>

Второй день всероссийской антиспам-конференции, о которой я начал рассказывать в прошлом номере «КТ», был посвящен техническим методам борьбы со спамом, существующим технологиям противодействия, их сильным и слабым сторонам.

Оружие

Николай Федотов (РТКомм.Ру) поведал леденящую кровь историю о черных списках. Черный список (black-list, RBL) представляет собой базу данных IP-адресов компьютеров (это могут быть серверы открытых релеев, proxy- или socks-серверы и даже взломанные ПК пользователей), с которых были зафиксированы спамерские рассылки. По крайней мере, так должно быть в идеале. В действительности же существует целый класс блэклистов, в которых записываются не отдельные IP, а целые диапазоны, принадлежащие провайдерам, которые, по мнению держателя списка, способствуют спаму. Если в ответ на действия спамера использовать «наступательные» RBL, могут пострадать невинные люди, что напоминает взятие заложников. «Обычные» черные списки — вещь тоже не совсем безопасная, допускающая ложные срабатывания (примерно 2% от всей почты); к тому же большая часть «профессионального» спама сейчас рассылается только с незасвеченных IP-адресов. В общем, способ бесперспективный.

Виктор Литвиненко поведал о технологии аутентификации отправителя challenge-response, на которой основана его разработка WinAntiSPAM. Напомню вкратце суть метода: письма, приходящие от неизвестных корреспондентов, складываются в «карантинную зону», а отправителю высылается сообщение с просьбой подтвердить, что он это письмо действительно посылал — например, путем ответа по почте или посещением определенной ссылки. Несмотря на то что такое решение кажется идеальным, оно имеет свои подводные камни: плохие отношения подобной антиспам-системы с роботами (скажем, уведомляющими о новых сообщениях в форумах), возможность «зацикливания» двух систем в случае отправки письма с одного защищенного адреса на другой и т. д. На мой взгляд, все эти проблемы могут быть решены, и использование challenge-response — единственный реальный выход. По крайней мере, я успешно применяю именно этот метод уже в течение года и не могу понять, почему подобным технологиям уделяется так мало внимания.

Вспомнили на конференции и о распределенных методах идентификации спама, которые прочились в «победители спама» еще год назад. Эти системы делятся на три класса по методу сбора спама: с помощью адресов-ловушек, голосования пользователей и просто на основе анализа всей проходящей корреспонденции (в последнем случае любые крупные массовые рассылки могут быть идентифицированы как спам). После того, как заведомо спамерское письмо попадает в систему, вычисляется его сигнатура (контрольная сумма) и в дальнейшем все сообщения с той же сигнатурой блокируются. Недостатки очевидны: уже сейчас почти все спамерские сообщения уникальны — содержат случайные последовательности символов, невидимые окончания слов и т. д., и, несмотря на попытки применения «нечетких сигнатур» и других подобных технологий, перспективы борьбы на этом пути весьма туманны.

Это же относится к очень близким способам, используемым на Яндекс.Почте. У Яндекса богатый опыт поиска похожих документов, но спамеры постоянно совершенствуют методы рандомизации текстов своих сообщений, и вряд ли здесь есть естественные барьеры, которые позволят когда-либо разработать действительно эффективный алгоритм детектирования массовых рассылок с достаточно низким коэффициентом «ложных срабатываний». К тому же Илья Сегалович (Яндекс) в своем докладе упомянул проблему, которую он назвал «полуспамом»: порядка 30% писем разными людьми могут быть оценены по-разному — либо как спам, либо как полезная информация. И вот это — очень серьезная трудность в централизованной фильтрации спама.

Есть попытка справиться с ней на стороне конечного пользователя, и имя ей — байесовские методы фильтрации. Докладов по этой теме не было, но в кулуарах она обсуждалась. Некоторое время назад один умный человек по имени Пол Грэхем (Paul Graham) напомнил всем, что есть такая наука, как математическая статистика, имеющая дело с косвенными измерениями различных величин, и предложил использовать ее для идентификации спама. Было сделано предположение, что можно собрать информацию о частоте употребления различных слов в спамерских письмах и обычной корреспонденции, а затем на ее основе, используя пару несложных формул, эффективно фильтровать спам. Сделали — заработало. Достаточно некоторое время обучать такой фильтр на своей почте, чтобы он стал достаточно корректно отличать спам от не-спама. Более того, многие специалисты и даже сами спамеры считают, что это — единственный работающий метод фильтрации для пользователя. В то же время, способы борьбы с ним также довольно очевидны — уже сейчас в спаме встречаются куски осмысленных текстов (цитаты из Шекспира, анекдоты), дезориентирующие подобные фильтры.

Свои решения в области защиты от спама представила и компания Microsoft. Как стало известно, в последних версиях ее почтовых программ (MS Outlook, MS Exchange) появилось множество методов борьбы с нежелательной корреспонденцией — даже такие достижения, как управляемые пользователем черные и белые списки, фильтрация по настраиваемым ключевым словам и предустановленным (и, видимо, необновляемым) методам контент-анализа, а также подключение внешних плагинов. Насколько эффективно все это будет работать на практике — сказать пока сложно.

Несмотря на то, что второй день работы конференции был посвящен техническим вопросам, на заключительном круглом столе обсуждалось в основном определение спама. Действительно, почему бы после двух дней разговоров не попытаться определить, о чем все-таки была речь?..


 
стр. 1
стр. 2 >>

<<Профессиональная верстка в Linux
Все материалы номера
Конfeтти >>