Скоринг, спам и немножко заботы о пользователях 25.11.2003 Александр Амзин В сфере подсчета кредитных рисков существует такой термин — скоринг. Его используют для автоматического определения степени доверия клиенту. Представьте, что вы заполняете банковскую анкету, чтобы получить кредитную карту. Процедура выдачи карты обычно занимает не меньше двух-трех дней. Что же происходит в течение этого времени? Когда банк только планировал начать работу с кредитными картами, была выделена некоторая сумма на компенсацию невозвращенных кредитов. Было проведено обслуживание сотен пользователей, менее половины которых вернули кредит. Параметры некредитоспособных граждан внесли в базу данных, которую оценщики кредитных рисков называют «кредитным кладбищем»1. Потом пришли математики и, исследуя «кладбище», вывели закономерности, позволяющие всесторонне проанализировать поступающие анкеты на предмет кредитоспособности.2 Скоринг — это очень просто. Допустим, вам 25 лет, у вас высшее образование, у вас уже были кредитные карты, ваша кредитная история безупречна — в российских условиях все это означает, что ваши шансы на получение кредита чрезвычайно высоки. Процесс вынесения кредитного решения упрощенно можно представить следующим образом. - За высшее образование вы получаете 5 условных очков (или 0, если у вас его нет; или 7,5, если имеете второе высшее). - Вам 25 лет — время карьерного роста сотрудников в РФ. Еще 3 очка. Или 2, если вы мало работали; или 0, если у вас нет опыта работы по специальности. - Кредитная история — один из основных параметров для принятия решения о выдаче кредитов. Получайте 5 очков. Итого: в нашем условном банке кредиты выдают, начиная с 10 условных очков. Вы получаете кредит в стандартном размере, так как набрали 13 очков. Чтобы претендовать на большую сумму, нужно набрать еще больше очков — к примеру, получить второе высшее3. Здесь важно понять, что фактически скоринг-системы работают автоматически; так как все зависимости параметров многофакторны, внесение любых изменений в решение о кредитовании чревато неприятностями; обычно, если требуется уточнение скоринговых параметров в связи, к примеру, с изменением аудитории, — проводится очередной набор «кредитного кладбища». Скоринг-система — это «черный ящик». Банковские работники не знают, какой параметр и как влияет на вынесение кредитного решения; представление клиента банка4 о своем кредитном статусе обычно не выходит за рамки собственного «достойного положения» в обществе. А система работает, деля, сортируя клиентов на группы, сравнивая группы, выделяя клиентов, которым можно доверять. Ежедневно приходят новые клиенты — и все повторяется вновь. Вам это ничего не напоминает? Итак. Каждый день я получаю 50–60 электронных писем. До десяти из них — тематические рассылки. До пяти — личные письма. Остальные — спам. Если для банка спамом является клиент, не возвративший деньги, то для пользователя электронной почты спамом является сообщение, на которое зря тратится время. Риск потери времени я, по аналогии с кредитным риском, предлагаю называть временны,м. Для борьбы с этими рисками придумано множество программ. Придуманы фильтры электронной почты, которые могут сортировать, удалять, модифицировать письма на основании созданных пользователем правил. К сожалению, правила — не панацея. Их использование для борьбы со спамом похоже на заглядывание в глаза каждому заемщику (честные? нет?). А ведь в среднем письме содержится около пятнадцати параметров, каждый из которых может помочь выявить спам. Представьте ситуацию: в результате войны провайдеров5 ваш домен оказался в черном списке провайдера вашего адресата. Приходите вы в банк, там смотрят в паспорт и говорят: знаете, вы кредит не получите, потому что родились в Калининграде. У нас по Калининграду плохая статистика. Сортировка по ключевым словам тоже не спасает — представьте, как в банке вам не дают кредит потому, что вы «окаете». Здесь даже не обида возникает, а сомнение в адекватности сервиса6. Стандартные программистские решения «в лоб» не годятся. Нельзя судить только по одному параметру. Требуется вынести суждение по совокупности. Вторым (после примитивных фильтров) шагом к счастью был Bayes-алгоритм7. Проще говоря, он анализирует текст письма и по наличию в нем ключевых слов вычисляет вероятность, с которой письмо можно считать спамом. Одно из достоинств Bayes-алгоритма — устойчивость к различному написанию слов. Все помнят, что «Центр Американского Английского» убегал от фильтров, меняя русские буквы на латинские, заменяя «о» на нули, добавляя пробелы меж словами и меж буквами; Bayes ловит такие изыски на лету — ему что «корова», что «к о р о в а», что «к_о_р_о_в_а» — все едино. Эвристический алгоритм настолько хорош, что антиспам-плагин на основе Bayes-алгоритма был включен в состав известного почтовика The Bat! версий 2.00 и выше. Другим важным качеством является составление пользовательской базы данных — для успешного применения фильтра требуется накопить индивидуальную базу данных и взвесить коэффициенты уже по ней. Здесь плохо следующее: мне, к примеру, пачками приходят предложения отобедать в ресторанах, и все они отправляются в папку Junk. Боюсь, после запуска Bayesian мои знакомые, которые захотят предложить встретиться в ресторане (редко, но бывает), меня не поймут и не увидят. Другой мой любимый пример: поставьте фильтры на корпоративный адрес фармакологической организации и запросите сравнительный отчет о возбуждающих и стимулирующих средствах. На самом деле Bayesian, если он широко распространится, станет скорее бичом пользователей, нежели лекарством. - Для обновления его «спам-кладбища» требуется постоянно копить собственный спам. Это означает, что нельзя удалять письма с сервера — по крайней мере до того, как кто-нибудь не придумает такой сервер, который бы делал отчеты по Bayesian и отправлял пользователю. Пока же серверы борются со спамом радикально — одинаково для всех пользователей, без индивидуальной настройки базы. - Алгоритм провоцирует спамеров на уменьшение числа ключевых предлагающих слов8 на единицу текста; известно, например, что обратная ситуация в свое время сложилась с поисковыми машинами, которые стали считать за doorway любую страницу с большой плотностью ключевых слов. Но нельзя игнорировать размытые тексты, которые ходят по e-mail. Коммерческие предложения станут длиннее, замаскируются под личные письма — это путь к смешению жанров, к преобразованию рекламного текста в доверительный эпистолярный монолог — и только. - Еще одним недостатком является то, что Bayes не дает рекомендаций, он только вычисляет вероятности; правила отсева задаются пользователем — кто-то ставит «Mark As Spam» только при девяностопроцентной уверенности Bayes, а кто-то — при восьмидесятипроцентной. Как результат — пропускание спама в случае высокого порога и паранойя — в случае низкого. Поэтому делаем еще один шаг: появилась программа SpamPal (www.spampal.org), которая ставится в качестве почтового сервера и в основном занимается анализом SMTP footprints. Она обращается к серверам, содержащим «черные списки» спамеров, причем эти списки можно подключать и отключать — так я, к примеру, избавился от китайского спама. Это называется — таргетинг. При правильной настройке программа убирает с глаз долой до 90% спама, хотя принцип ее заключается в элементарном фейс-контроле. Будучи сопряжена с любым Bayes-фильтром, она показывает чудеса ловкости. Совершенно очевидно, что такая связка не идеальна. На момент написания статьи «Центр Американского Английского» рассылает письма одно другого краше: тут вам и вложение картинки вместо текста, и стихи, и нарочитая неграмотность. В среднем при помощи подобных уловок из полусотни писем сквозь мои фильтры проходит до пяти нежеланных. К счастью, письма гораздо легче сортировать, чем людей-заемщиков. И поэтому на рынке, похоже, появился лидер, старающийся сочетать в себе достоинства вышеперечисленных программ, — SpamAssassin9. Это front-end для Unix-систем. Один из продуктов для Windows, основанный на SpamAssassin, называется SAProxy10. Он поддерживает все правила SpamAssasin11, проверяет списки открытых ретрансляторов, осуществляет проверку по Bayes. Кроме того, он подключается к Vipul Razor12 — центру, содержащему спам-сигнатуры. По аналогии с кредитным скорингом этот центр является фактической копией кредитного бюро, в которое обращается банк для проверки кредитной истории клиента. Реальность такова, что идеальная система борьбы со спамом одновременно является идеальной системой подписки на спам. При нынешних объемах электронной почты и нынешней степени социальной интеркоммуникации система для борьбы со спамом должна узнать мои предпочтения и пропускать то, что может мне пригодиться; покамест анализаторы просто уничтожают жанр рекламного письма, изымают из речи продавцов избитые слоганы; а ведь спам становится все более профессиональным: ваш адрес узнают там, где вы его оставили. Если же вы оставили его на сайте, значит, тот сайт вас заинтересовал. Представьте, что вы ходите только по металлургическим сайтам. Правильный спамер и вообще умный рекламщик пошлет вам только предложение листового проката, но никак не предложение купить красную икру по 850 рублей за килограмм (бывает и такое!). Спам, как и выдача кредита, — всего лишь способ интенсификации экономических отношений, превращения их из односторонних в двусторонние и обоюдовыгодные. День, когда программа спросит вас, какое у вас образование, сколько вам лет, где вы любите отдыхать и какой у вас цвет волос, станет вашим первым днем информационного скоринга. А через неделю ваша анкета попадет к составителям информационных бюллетеней нового поколения, которые рассылают только то, что не отнимет вашего времени. — Спам? — спросит обычный гражданин. — Это то, что я читаю с удовольствием. 1 Существуют системы скоринга, не использующие «кредитного кладбища», но здесь мы их рассматривать не будем.
|