参考資料 - KDDI研究所

プ
レ
平 成
ス
リ
22 年
株 式 会 社
リ
9 月
ー
ス
13 日
KDDI 研 究 所
独立行政法人情報通信研究機構
Web サイトの色や形などの外形的特徴のみを用いて
有害サイトを高速かつ高精度に検出する技術を開発
株式会社 KDDI 研究所(本社:埼玉県ふじみ野市、代表取締役所長:秋葉 重幸)は、独立行政法人情報
通信研究機構(本部:東京都小金井市、理事長:宮原 秀夫)からの委託研究である「インターネット上の
違法・有害情報検出技術の研究開発」の成果の一部として、Web サイトの背景色やリンク先、ブラウザに
特定の動作をさせるスクリプトなど、有害サイトに特有な外形的特徴を捉えることで有害サイトを高速か
つ高精度に検出する技術を開発しました。本技術の利用により、90%以上の高い精度で有害サイト検出が
可能となり、
処理速度も従来の文書解析によるフィルタリングシステムと比べて 3 倍以上高速になります。
【背景】
近年、インターネットの普及により、一般ユーザ向けの Web サイトは増加する一方で、出会い系サイト
や犯罪予告サイトなど有害な Web サイトも増加する傾向にあり、有害な Web サイトを自動的に検出するた
めのフィルタリングシステムに注目が集まっています。
現在主流のフィルタリングシステムの Black / White リスト方式では、URL リストのデータベースを管
理するためのコストが大きくなる点や有害 Web サイトと無害 Web サイトの双方が同じ URL ドメインに存
在する場合があるため判定精度が低下する点が課題であり、また、Web サイトに記載された単語から有害
Web サイトを検出する文書解析方式や画像の特徴を解析することで有害な画像を検出する画像解析方式も
開発されていますが、高精度な検出にするために多くの処理時間を要するという課題があります。
【今回の成果】
この度、こうした課題を解決するために、外形的特徴から有害サイトを検出する技術を開発しました。
この技術は、背景色、リンク先やブラウザに特定の動作をさせるスクリプトなどの Web サイトの HTML
を解析することで、有害サイトに特有な外形的特徴を自動的に学習し、検出することが可能となります。
本技術の特長は、従来の文書解析方式では 10,000 個の特徴が必要だったのに対し、今回開発した外形的
特徴に基づく方式ではわずか 26 個の特徴を用いるだけで 90.3%※という高い精度で有害サイトを検出する
ことが可能となりました。また、処理速度も従来の文書解析方式と比較して、3 倍以上の高速処理を実現し
ています。
これにより、従来の方式と比べて誤検出が尐なく、短時間で有害 Web 検出フィルタリングが可能となる
ため、フィルタリングシステムが導入されたブラウザなどを快適に利用することができるようになります。
(※ 1 万の有害サイトと 1 万の無害サイトの合計 2 万サイトという環境下で、本技術を使用して有害サイトを検出した結果、90.3%という精度で検出)
【今後の展望】
今後は本技術を活用したフィルタリングシステムを PC などのブラウザや、ISP(インターネット接続事
業者)のフィルタリングサービス、監視事業者における Web サイトの監視業務などへ導入するため、技術
開発を進めて行くとともに早期の実用化を目指します。
【補足資料】
各方式の特性
方式
検出方法
特徴
URL
(Black/Whiteリスト)
WebサイトのURLを
データベースと照合
URL一致による判定のため、処理速度が高速。同一ド
メイン下に有害・無害なWebサイトが混在する場合に
精度が低下。URLを定常的に管理する必要があるた
め運用コストが大きい。
文書解析
Webサイトに記載の
文書に含まれる単語
を解析
高精度な判定を行うためには多くの単語を組み合わせ
て判定を行う必要があるため、処理速度が低下。
画像解析
Webサイトに掲載さ
れている画像を解析
高精度な判定を行うためには画像の多くの特徴を組み
合わせて判定を行う必要があるため、処理速度が低下。
外形的特徴
(今回の開発技術)
Webサイトを構成す
るHTMLタグ内の記
述を解析
有害Webサイトの外形的な特徴は類似性が高いため、
少数の特徴のみを用いて高速・高精度な判定が可能。
今回の開発技術の動作の仕組み
外形的に無害
判定対象の
Webサイト
外形的特徴を用いた
フィルタリングエンジン
○:無害なサイト
外形的に有害
×:有害なサイト
画像リンク多用
背景色
ポップアップ
Webサイトの外観
フレーム多用
WebサイトのHTML