Рынок систем контроля содержимого электронной почты сравнительно молодой, однако в настоящее время решения с применением технологии контекстного анализа стали пользоваться большой популярностью среди заказчиков. Наличие спроса привело к тому, что на рынке появилось большое количество подобных средств. Сходные задачи породили сходную функциональность, и если читать описания этих продуктов, то все они похожи друг на друга, как близнецы. Попробуем разобраться, что нужно для того, чтобы продукт, выбранный для реализации задач, перечисленных на предыдущей странице сайта, не обманул наших ожиданий. Каждое попадающее в систему электронное письмо должно проверяться на соответствие заданным условиям. При этом, по меньшей мере, должны выполняться следующие условия отбора писем: — условия на почтовые заголовки; Кроме того, система должна позволять анализировать почтовые сообщения по всем их составляющим: атрибутам конверта, заголовкам сообщения, МIME-заголовкам, телу сообщения, присоединенным файлам. Вернемся опять к вопросу категоризации писем. Важно отметить, что гибкость при фильтрации почтовых сообщений особенно необходима, когда это касается такой проблемы, как спам. Одним из главных критериев выбора системы контроля содержимого электронной почты в настоящее время является как раз ее способность как можно более качественно справляться с данной проблемой. Существует четыре основные методики определения, какое письмо относится к спаму, а какое нет — razgovorodele.ru. Первая методика используется в анти-спамных фильтрах, реализующих способ выявления спама по наличию в письме определенных признаков, таких как наличие ключевых слов или словосочетаний, характерное написание темы письма (например, все заглавные буквы и большое количество восклицательных знаков), а также специфическая адресная информация. Вторая методика связана с определением адреса отправителя и его принадлежности к, так называемым, «черным спискам» почтовых серверов. В эти списки заносятся те серверы, которые замечены в массовых рассылках спама и идея состоит в том, чтобы вообще не принимать и не транслировать почту, исходящую с этих серверов. Третья методика включает обе перечисленные, но по продуктивности мало чем отличается от двух первых. Результаты тестирования хорошо настроенного фильтра с применением обеих методик показывают, что из 100 % спам-сообщений обнаруживается только 80 %. При этом был выявлен значительный процент ложных срабатываний, а это значит, что к спаму были отнесены обычные письма (1,5 % от задержанных писем). В данном случае это грозит для компании потерей важной информации. Некачественное разделение спама и обычных писем обусловлено, в том числе и некоторой «однобокостью» стандартных фильтров. При отбраковке писем учитываются «плохие» признаки и не учитываются «хорошие», характерные для полезной переписки. Этих недостатков лишена четвертая методика, предложенная американским программистом и предпринимателем Полом Грэмом. Она позволяет автоматически настроить фильтры согласно особенностям индивидуальной переписки, а при обработке учитывает признаки как «плохих» так и «хороших» фильтров. Методика основывается на теории вероятностей и использует для фильтрации спама статистический алгоритм Байеса. По имеющимся оценкам, этот метод борьбы со спамом является весьма эффективным. Так, в процессе испытания через фильтр были пропущены 8000 писем, половина из которых являлась спамом. В результате система не смогла распознать лишь 0,5 % спам-сообщений, а количество ошибочных срабатываний фильтра оказалось нулевым. Таким образом, системы контроля содержимого электронной почты, которые в своем составе имеют модули фильтрации спама, основанные на методике Пола Грэма, являются в настоящее время наиболее эффективными и отвечающими современным требованиям по борьбе с рассылками рекламного характера. А это в конечном итоге и будет являться еще одним критерием при выборе системы контроля содержимого электронной почты. Требование полного разбора письма следует дополнить требованием устойчивости. Во-первых, структура письма подчиняется определенным правилам. Разбор письма на составляющие основан на применении этих правил к конкретному письму. Вообще говоря, возможны случаи, когда почтовая программа автора письма формирует письмо с нарушением этих правил. В этом случае письмо не может быть корректно разобрано. Система должна быть устойчивой по отношению к обработке таких писем. Во-вторых, система должна надежно определять типы файлов-вложений. Под «надежностью» имеется в виду определение, не В-третьих, большое значение для системы имеет полнота проводимых проверок, то есть количество и разнообразие критериев анализа электронной почты — razgovorodele.ru. При этом система должна осуществлять фильтрацию по любым атрибутам сообщений, по объему сообщений и вложенных файлов, по количеству и типу вложений, по глубине вложенности, а также уметь анализировать содержимое прикрепленных файлов вне зависимости от того, являются ли эти файлы сжатыми или архивными. Существенным преимуществом многих продуктов является возможность создания собственного сценария обработки сообщений электронной почты. При анализе текста нужно иметь возможность работать с нормализованными словоформами и т.д. |