第4回：押さえておきたいスパムフィルタの技術 (2/3)

TOP＞情報セキュリティ＞ロジスティック回帰とその他の統計手法（Logistic Regression）

今時のスパムフィルタの選定基準

第４回：押さえておきたいスパムフィルタの技術
著者：センドメール小島國照 2006/12/21

ロジスティック回帰とその他の統計手法（Logistic Regression）

   ロジスティック回帰は、医学や社会学などで多用されている統計解析予測手法です。例えば「62歳、身長165cm、体重85kgで糖尿病の既往症がある男性が脳梗塞で入院した場合に無事退院できる確率は？」という質問に、過去の多くの事例から統計的に回答を求める際に利用します。ベイズの定理と異なり、年齢や体重のような「Yes/No」でない変数も自然に扱えるのが特長です。

   スパムフィルタに適用する場合は、「money」という単語の数やURLの数、HTMLの複雑さなどの条件を設定することができます。しかし、過去の事例を多く集めて統計手法で行うという点については、ベイジアンと大きく変わるものではありません。

   また、多くの条件や辞書を用いてメッセージ解析をするため、システムへの負荷は大きくなります。これはベイジアンフィルタも抱える共通の問題点です。ISPや大規模な企業システムで利用する場合は、規模に準じたシステム投資が必要ですし、スケーラビリティを保つためにメールシステムの見直しなどの検討が必要です。

   ロジスティック回帰やベイジアンの他にも、様々な統計解析理論を利用したスパムフィルタが開発されていますが、それぞれ一長一短があります。しかし、これらのすべてがコンテンツベースのフィルタであるため、根源的な欠点は避けられません。根源的な欠点とは、あるメールがスパムかどうかは「コンテンツで決定されるのではない」ということです。この問題については、後述の「コンテンツベースのパラドックス」にて解説します。

ハニーポット（Honey Pot）

「無人のメールボックスが受信するメールはスパムである」ということから、囮となるメールボックスをしかけ、そのメールボックスが受信するメールをスパムと判定する手法が「ハニーポット」です。

ハニーポットを利用したスパムフィルタの手法について順を追って説明しましょう。

ISPなどの協力を得て、無人のメールボックスを多数仕掛ける。場合によっては、これらのメールアドレスをWebサイトなどに公開する
スパマーは辞書アタックや、Webサイト上アドレスの自動検索などの手法で、これらのメールボックスの存在を突き止め、スパムの送信を行う
無人のメールボックスが受信するメールはスパムであると判断し、センターに転送する
センターの技術者は24時間転送されるメールをチェックしている。新たなメールを受信すると、それがスパムかどうか判定し、スパムである場合は、そのメールのチェックサムなどを作り、ユーザのシステムに配信する
ユーザシステムは、着信するすべてのメールのチェックサムを作成し、スパムとして登録されたチェックサムと合致すれば、スパムと判定して隔離などの処理をする

表1：ハニーポットの処理の流れ

   この手法は、フォールスポジティブになる可能性が低い手法として注目され、多くのISPで採用されました。しかしこの手法は、一時の有効性を失ってしまいました。理由はいくつかあります。

   1つは、ハニーポットにスパム以外のメールが送信される可能性が高くなったということです。それもスパマーの作戦です。スパマーはハニーポットアドレスを収集しています。スパマーは収集したアドレスで善良な事業者のメール配信に登録します。

   多くの事業者では、ユーザからメール配信登録を受けるとユーザに確認メールを送信し、その返答があった時点で正式に登録するような手順をとっていますが、事業者の中には、その手順を行わないところもあります。このような事業者のメールは誤ってスパムとして判断されてしまいます。

   これにより、最終的にスパムかどうかの判定は人間が行うことになります。しかし、世界中の言語とビジネス環境を理解している人を24時間確保することは不可能です。したがって、ハニーポットの手法だけでは使用に耐え得る精度を確保できなくなり、他の手法と混在して使われるようになりました。この手法は「カクテルアプローチ」と呼ばれます。しかしこの手法にも大きな問題点があります。それについては、後述の「多重フィルタの罠」で解説します。

ヒューリスティクス（Heuristic Filter）

   ヒューリスティクスは、スパムらしい特長をルールとして定義して行く方法です。個人でルールを書いて実行していた人も多いのではないでしょうか。

   わかりやすいルールとしては「『未承諾広告』とSubjectにあればスパムと判定する」、もう少し詳細なルールとしては「Receiveヘッダの中のIPアドレスのミスマッチはヘッダーを偽造した痕跡として考えらるため、スパムと判定する」などが設定できます。

   ただし、後者のルールは正規メールでも何らかの事情でミスマッチが発生する可能性があります。通常、スパムフィルタのルールで、フォールスポジティブの可能性が0でないルールを入れるとその後の対処が大変な作業になります。また、日々発生する新しいスパムやフィッシングに対抗するためには、永久に新しいルールを追加しなければなりません。

   しかも各ルールのスパム捕捉実効確率は10%程度といわれています。仮に、これらのルールが互いに最も効果的に組み合わさったとしても、95%以上の精度を実現するためには30個、98%の精度のためには40個のルールが必要です。実際には、この数倍のルールが必要になるでしょう。これらを適切に管理することは非常に困難だと考えられます。

送信者詐称（Sender Spoofing）
   メールの送信者として本来の送信者とは異なる送信元アドレスを指定する行為。ブラックリストをすり抜けるため、また単にメールの送信者を特定不能にするために、スパムメールのほとんどが送信者詐称している。

   送信者にはエンベロープ送信者とヘッダの送信者の2種類がある。フィッシィングメールでは送信者の詐称そのものが詐欺行為の一部となっている。スパムメールが存在しないアドレスに送信された場合、エラーメール（バウンスメッセージ）がその詐称された送信者に送信されることも問題となる。

送信ドメイン認証（Sender Authentication）
   メールを受信したメールサーバが、送信元メールサーバがそのメール送信元ドメインの正規のメールサーバであるかどうかを認証することである。

   送信元ドメイン認証を行うことで、メールを受信したメールサーバが、送信元メールアドレスのドメイン名部分の偽造をチェックすることができるため、スパムかどうかを判断しやすくなる。海外および日本の大手ISPも対応を開始している。

   送信ドメイン認証の主な方法は、IPアドレスを使う「SenderID」と電子署名を使う「DomainKeys」がある。DomainKeysは「Internet Identified Mail」（シスコシステムズが提唱）の技術を取り入れて「DKIM」(DomainKeys Identified Mail)として仕様が策定されている。

前のページ 1 2 3 次のページ

著者プロフィール
センドメール株式会社小島國照
センドメール株式会社社長
日本タンデムコンピューターズ(現：日本HP)、ストラタスコンピュータ(現：日本ストラタステクノロジー)においてマーケティングおよび技術部門の責任者を勤めた後、サイベース、シャイアンソフトウェア、オブジェクト・デザイン・ジャパンなど、ソフトウェア業界において、マーケティング、製品開発、経営などに携わる。2003年より現職。Sendmail,Inc.入社以前は、ターボリナックスジャパン社長として、日本のビジネス市場における本格的なLinux導入に尽力した。

INDEX
第4回：押さえておきたいスパムフィルタの技術
	はじめに
	ロジスティック回帰とその他の統計手法（Logistic Regression）
	多重フィルタの罠

今時のスパムフィルタの選定基準
第1回	スパムフィルタに必要なのは多言語対応／低負担／高検出率
第2回	コラボレーション型スパムフィルタの仕組み
第3回	伝説？誤解？スパムの定義
第4回	押さえておきたいスパムフィルタの技術