« 電子メールの掟(技術偏)-8 | メイン | 電子メールの掟(技術偏)-10 »

電子メールの掟(技術偏)-9

○spam対策
 spam はしばしば「迷惑メール」とも呼ばれる。今やインターネットを流れる電子メールの9割は spam メールだとも言われているくらいで、2005年頃までのコンピュータウィルス対策にとって替わる重点対策事項になっている。
 この spam 対策であるが、通常は以下の組み合わせで、受信する電子メールを選別するのが基本である:
 隔離メールボックスは、spam 判定された電子メールを通常のメールボックスから排除するためのものである。
 削除しないで、なぜ「隔離」という形をとるのかというと、受信者に最終判断する素地を与えるためである。
 以前は、電子メールアドレスのチェックや電子メールの体裁など、見た目にはっきり判るパターンで spam 対策は一定の成果を上げていたが、昨今では巧妙にそういったチェックをすり抜けることを意図した spam メールが半分以上であり、そのような spam メールに対応すべく、最近では、数学的な確率理論(=ベイズの定理)に基づくベイジアンフィルタ方式によるものが普及してきている。
 ベイジアンフィルタ方式を実現しているソフトウェアで、よく知られているものは下記の3つである:

・SpamAssassinhttp://spamassassin.apache.org/
日本語サイト=http://www.spamassassin.jp/)
・bsfilter http://bsfilter.org/
・Thunderbirdhttp://www.mozilla-japan.org/products/thunderbird/ )

SpamAssassin と bsfilter はメールサーバに組み込んで使うものであり、Thunderbird は MUAである。

 筆者のところでは、メールサーバに SpamAssassin を組み込み、希望者にメールサーバでの spam メール隔離機能を提供している。SpamAssassin は、300余りの細かなチェック項目を設け、その確率を点数にして各項目の合計点数を加算して、あらかじめ決めた点数以上になれば spam メールであると判定する仕組みになっている。

左記は、この一例である。
SpamAssassin は、spam メールと判定した電子メールひとつひとつにこのようなレポート(何故 spam メールと判定したのか)を添える機能がある。

「spam メールである」と判定する基準は変更でき、左の例では 10.0点以上を spam メールと見なすように予め設定している。
この点数が、数学的な理論に基づく方法で導出したものである。中には、「こんなのが何故?」と思わされる項目もある。

上記を日本語にすると、
・電子メール回送元の一部にIP アドレスがおかしいのがあった(評点 3.4)
・トップレベルドメインが .info である(評点 0.8)
・第3レベルにキーワード www がある(www.*.info)(評点 3.2)
・メール本文の一部に HTML 形式メッセージがある(評点 1.0)
・メール本文の HTML 形式メッセージの割合が 70~80%である(評点 1.0)
・このメールに、日本(JP) で spam と認識されるドメイン名が見受けられる(評点 3.4)
・このメールに、セーシェル諸島(SC) で spam と認識されるドメイン名が見受けられる(評点 3.6)
・薬物関係のメールと判断した(評点 0.1)


この例では、spam メール判定基準を超える 16.5点だったので、spam メールと判定されたという訳である。

 ベイジアンフィルタ方式の大きな問題点として、「誤判定」がある。
 人間の目では明らかに spam メールだと判るのに「非spam」と判定されたり、
 逆に重要な業務連絡の電子メールが、書き方や体裁が悪くて 「spam メール」と判定されたりすることがあるのだ。
 そのため、特にベイジアンフィルタ方式では、「spamメール」と判定したなら、即削除せずに「隔離」するのだ。

 誤判定は、ベイジアンフィルタに「学習させる」ことで軽減させる。いろいろな電子メールをパターン化して分析し、正しく点数をつけるための元ネタが多ければ多いほど判定が正確になるのだ。
 この「学習」操作が、電子メール受信者自身で手動で行う内容なので、

・ 個々に違う spam メールの判定基準を電子メールの受信者に合わせることが出来る (長所)
・ spam メールの判定精度を受信者自らが上げる素地がある(長所)
・ 学習操作の煩雑さ(短所)

 といった、長所も短所も兼ね備えた状態になっている。それでも7割以上の spam メールを隔離できるのだから、ベイジアンフィルタ方式の spam 対策の意味は大きいだろう。

Powered by
Movable Type 3.34