第4回：押さえておきたいスパムフィルタの技術 (3/3)

今時のスパムフィルタの選定基準

第４回：押さえておきたいスパムフィルタの技術
著者：センドメール小島國照 2006/12/21

多重フィルタの罠

スパムフィルタの開発は容易ではありません。完璧なものを作ることは本当に困難です。このような状況で、最も一般的に陥りがちな誤りは「不完全なフィルタを多重に用いて、よりよい結果を得ようとすること」です。実際、商用スパムフィルタの中には、入手可能なすべての技術を詰め込んだようなものが数多く存在します。

たくさんのフィルタを通すと水がより綺麗になるように、フィルタをたくさん通せばスパムが到着しなくなるのではないかと考えてしまいがちですが、実際はそうはなりません。ここで見落とされているのが、フォールスポジティブの存在です。正規メールがスパムとして判断されてしまうことは、フィルタを通り抜けたスパムを受信することより深刻な現象です。

図2：カクテルアプローチ（多重フィルタ）のパラドックス
（画像をクリックすると別ウィンドウに拡大図を表示します）

多重フィルタの実験

例えば、表2に示すようなAからFの6種類のフィルタが存在するとします。ここで、すべてのフィルタが独立に効果的に働くと仮定します。

フィルタ	精度	誤判定率
A	20.00%	0.10%
B	50.00%	0.40%
C	60.00%	1.00%
D	60.00%	2.00%
E	30.00%	1.50%
F	40.00%	1.00%

表2：6種類のフィルタ特性

これらのフィルタを重ね合わせた場合の精度と誤判定率は表3のようになります。

フィルタ	精度	誤判定率
A+B	60.00%	0.50%
A+B+C	84.00%	1.50%
A+B+C+D	93.60%	3.50%
A+B+C+D+E	95.50%	4.90%
A+B+C+D+E+F	97.30%	5.90%

表3：多重フィルタの精度と誤判定率

   精度とはスパムを排除する確率です。誤判定率とはフォールスポジティブ、つまり、正規メールをスパムと判定する確立です。表3を見るとフィルタを重ね合わせることで精度があがっていますが、同時に誤判定率も増加してしまいます。

   一般的にビジネスメールでは誤判定率は限りなくゼロに近くなければならないとされます。悪くても数十万通の内の1通、つまり、0.001%以下でないとビジネスでの使用には耐えられません。

   上記の例では、フィルタを単純に重ねただけですが、ベンダーによっては多重化する際にフィルタに重みをつけたり、複雑な多数決方式を採用したりしています。しかし、これらの手法はいたずらに論理を複雑にしてトラブル時の解析を難しくするだけで、上記の例の本質を変えるものではありません。

コンテンツベースのパラドックス

スパムか、スパムでないかという判断について、もう一度考えて見ましょう。表4のようなメールはスパムでしょうか？

社会的に信用のある企業の、インターネットのマナーについて無知なマーケティング担当者が、ビジネスメールとして控えめで丁寧な文章で自社のサービスについて興味があるかどうかを、対象企業の担当者に問い合わせるメールを作りました
インターネット上で発見した業者からメールアドレスリスト購入し、このメールを200万個のアドレスに送信しました。たまたまこの業者のリストには、多くのホームページやメールシステムから、勝手に収集したアドレスが大量に含まれていました

表4：このメールはスパムか？

このメールは、定義上スパムとするべきですし、平均的な受信者はこれをスパムと感じるでしょう。さて、ベイジアンフィルタやヒューリスティックなどのコンテンツベースの手法で、このメールを分析した場合、どうなるでしょうか。この例で、このメールをスパムとしているのは、2の部分です。しかし、統計手法などでは2を認識することは不可能です。1だけの部分ではどのような方法でも、このメールがスパムであることはわかりません。

コンテンツベースを使用することの危険性は、この種類のスパムを受け取ったユーザが、それをスパムとしてフィルタのエンジンにフィードバックしてしまうことです。それによって、フィルタは1に分類される多くの正規メールをスパムと判断するようになってしまいます。

トラフィックモニタの危険性

   スパムフィルタの開発者の中には、コンテンツベースフィルタの限界に気づいてケースベースでの技術開発を行ってきました。その、1つが表4の2に注目したトラフィックモニタ型のフィルタです。これは、ハニーポットの変形といえる手法です。

   この手法を取っているベンダーは、実際のネットワークのトラフィックを監視しているとしていますが、本当にIX（Internet eXchange）などで監視しているのか、前述のハニーポットに通常のメールボックスからのトラフィックを追加しただけなのかは残念ながら明らかにはされていません。しかし、基本的なアイデアは、同じようなパターンのメールが大量に配信されていれば、それをスパムとみなすというものです。

   この方法の大きな欠点は、ニュース配信やユーザが明示的に望んで送ってもらっているオプトイン型のマーケティングメールとスパムとの切り分けをどうするのかということです。あるベンダーは、コンテンツを自動分析することによって可能であると主張しています。しかし、実際のテスト結果を見ると、日本国内の多くの正当なニュース配信だけではなく、英語の著名なメディアのニュース配信もスパムとされてしまっています。

   メールを利用して大量の受信者にリアルタイムな情報配信をする正規のビジネスは急速に増加する傾向にあります。当然、このようなサービスに必要があって加入し、メリットを享受しているユーザも急増しています。このような環境で、正規のマスメールをスパムとして誤判定されることは致命的な欠陥です。

コラボレーション型フィルタ（Collaboration based Filter）

このように多くのフィルタ技術が課題を抱える中で、今最も期待されているのがコラボレーション型フィルタです。この方式は、DNSBL（DNS-based Blackhole List）のように多くの人々からのインプットをベースにフィルタをしようというアイデアです。詳細は「第2回：コラボレーション型スパムフィルタの仕組み」で解説しましたので省略しますが、いくつかの点でDNSBLと大きく異なっています。

DNSBLがIPアドレスのみに注目しているのに対して、メールのすべての属性を分割し、それぞれに信用度（Reputation）を紐づけている
DNSBLは誰でも簡単に登録できるようにしたため、フォールスポジティブが増えてしまったのに対して、コラボレーション型フィルタでは誰でも登録できるが、登録者の信用度を自動判定して悪意の登録者を排除し、善良な登録者からのインプットを自動的かつ迅速に処理できる
言語依存性のないアルゴリズムと、オープンソース／商用版の世界展開によってどの国、地域でも正確なフィルタが行える
大量のインプットを処理できるように、センターのデータベースを強化すると同時に、商用版には、高度なキャッシュ機能を持たせて、ISP規模の大量メールでも処理できる

表5：コラボレーション型フィルタの特徴

コラボレーション型フィルタは、スパムとは人間の社会的活動によって決定されるものであるため、メールの世界だけで閉じた定義では正しい判断ができない、という考え方に基づいています。また、Web 2.0の世界のように、利用者が増えるほど精度が増し、さらに利用者が増えるという特性を持っています。今後、最も期待される技術といえるでしょう。

前のページ 1 2 3

著者プロフィール
センドメール株式会社小島國照
センドメール株式会社社長
日本タンデムコンピューターズ(現：日本HP)、ストラタスコンピュータ(現：日本ストラタステクノロジー)においてマーケティングおよび技術部門の責任者を勤めた後、サイベース、シャイアンソフトウェア、オブジェクト・デザイン・ジャパンなど、ソフトウェア業界において、マーケティング、製品開発、経営などに携わる。2003年より現職。Sendmail,Inc.入社以前は、ターボリナックスジャパン社長として、日本のビジネス市場における本格的なLinux導入に尽力した。

INDEX
第4回：押さえておきたいスパムフィルタの技術
	はじめに
	ロジスティック回帰とその他の統計手法（Logistic Regression）
	多重フィルタの罠

今時のスパムフィルタの選定基準
第1回	スパムフィルタに必要なのは多言語対応／低負担／高検出率
第2回	コラボレーション型スパムフィルタの仕組み
第3回	伝説？誤解？スパムの定義
第4回	押さえておきたいスパムフィルタの技術