インターネット上の有害文章・非公開文章の高精度フィルタリング名古屋工業大学大学院工学研究科産業戦略工学専攻准教授伊藤孝行発表内容研究背景関連研究提案手法フィルタリング手法共起辞書の構築評価実験まとめ研究背景と目的 SNSや掲示板等のユーザーが書き込めるサイトが増えているユーザーが自由に記述できるため，未成年に有害な文章が書き込まれる事がある未成年に有害な文書は多くのサイトで対処されていないサイトによっては人手によって処理されるが，処理するコストが高い目的自動的な有害文書フィルタリング手法の提案関連研究ベイジアンフィルタリングスパムフィルタリングで使用されるスパムによく使われている単語が多いメールはスパム一般的な単語が多い場合，スパムではないと判定されるサポートベクターマシーン(SVM) 教師あり学習を用いた手法未学習のデータに対する精度が高い使用する関数等で大きく精度が変わる提案手法以下の3つのフィルタリングステップで構成 1. ブラックワードフィルタリングブラックワードが含まれていれば有害文書 2. グレイワードフィルタリンググレイワード（有害であるとも無害であるともいえない単語）が含まれていなければ有害で無い文書 3. 安全度フィルタリング共起辞書を用いたフィルタリング提案手法有害な文書安全度が閾値以下である有害度フィルタリング有害では無い文書安全度が閾値以上であるグレイワードが含まれていないグレイワードが含まれているグレイワードフィルタリングブラックワードが含まれていない入力文書単語へ分割ブラックワードフィルタリングブラックワードが含まれている３単語間共起辞書の構築正例（有害でない文書）と負例（有害な文書）から共起関係を抽出 3単語間共起とは？例：「吾輩は猫である．名前はまだ無い」の3単語間共起 [吾輩，猫，名前],[吾輩，名前，無い],[猫，名前，無い] 上記の1件のみを正例として作成したの共起辞書単語1 単語２単語３正例での出現回数負例での出現回数吾輩猫名前 1 0 吾輩名前無い 1 0 猫名前無い 1 0 補足：形態素解析と実験用データ単語の分割は形態素解析の後に処理を行う形態素解析ソフトにはMeCabを利用副詞や助詞など，単独では意味をなさない単語は省く実験用データの取得元正例：2chのグレイワードが含まれる記事負例：2chのブラックワードが含まれる書き込みブラックワード：負例を形態素解析し，人手で確認グレイワード：負例を形態素解析し，人手で確認安全度の計算安全度safe(sentence)を求める式は以下 ⎧ ⎫ N p (A,B,C) ⎬ Safe(sentence) = AVERAGE ⎨ (A ,B,C )∈sentence N (A,B,C) + N (A,B,C) ⎩ p ⎭ n (A,B,C)∈sentence：sentence内に含まれる単語(A,B,C)の組み合わせ Np(A,B,C) ：(A,B,C)が正例で出現した回数 Nn(A,B,C) ：(A,B,C)が負例で出現した回数有害度計算の例例入力文：「吾輩は猫である．名前はまだ無い」単語１単語２単語３正例での出現回数負例での出現回数吾輩猫無い 15 0 猫名前無い 8 8 共起辞書内の対応する共起関係有害度＝(1.0+0.5) / 2 = 0.75 実験環境計算機 CPU:Xeon(2core)*2 メモリ:8G OS:CentOS 5.3 使用ソフトウェアプログラミング言語：Ruby データベース:MySQL 形態素解析ソフト:MeCab 実験設定(旧) 有害な文書100件，有害でない文書100に対して有害度を求めるこれらの文書はブラックワードを含まない文書実験では閾値を0.5に設定データの種類数データの種類数正例 5,195 負例 9,605 ブラックワード 180 総単語数 79,109 実験結果(旧) 閾値有害文書 72/100 有害で無い文書 88/100 評価実験の判定率全体：160/200 80% 実験設定 SVM,ベイジアンフィルタリング，共起フィルタリングの比較を行う SVMの素性は単語のIDを用い，重みは出現回数を用いる(libsvmを利用，設定はデフォルト) ベイジアンフィルタリング，共起フィルタリングでは閾値を0.5に設定実験データは学習データと同じデータを用いるデータの種類数データの種類数正例 10,001 負例 10,001 共起の総数 296,944,688 総単語数 39,797 比較実験(仮) SVM(単語IDが素性) 53.2097% (10643/20002) ベイズ正:0.754824517548245(7549/10001) 負:0.994900509949005(9950/10001) 合計：87.486%(17499/20002) 共起正:0.99(99/100) 負:1.0(100/100) all:0.995(199/200) 従来技術・競合技術との比較メールのスパムフィルタなどで使われるベイジアンフィルタや、文章分類で使われるサポートベクターマシーンと比較して・本技術で使う共起辞書は、辞書の構築が比較的簡単でありながら、精度が高い。新技術の特徴と想定される用途新技術の特徴 ■有害な文書を集め、学習することで、高精度なフィルタリングが可能 ■フィルタリングしたい文章を集めて、単語を学習することで、機密文章などにも応用可能 ■文章を単語の集まりとして処理する為、どのような文章にも対応可能想定される用途 ■有害文章、機密文章のフィルタリング ■報告書のフィルタリング本技術に関する知的財産 ■発明の名称：多彩なフォントを用いた電子的文章や言葉の高速配信方法 ■出願番号：特願2009-207852 ■出願人：国立大学法人名古屋工業大学 ■発明者：伊藤孝行お問い合わせ先名古屋工業大学産学官連携センター産学官連携コーディネーター山本豊 TEL：052-735-5787 FAX：052-735-5542 e-mail [email protected]