スライド - 北村達也

検索エンジンを利用した
主格省略自動判定
システム
甲南大学学部生 中村慶太
甲南大学 北村達也
東京国際大学 川村よし子
背景と目的1
日本語非母語話者への情報伝達において
それぞれの母国語で伝えるのはコスト大
彼らにもわかりやすい日本語で
伝えることが必要
どこをどう直し
たらいいのか
一般の
日本語母語話者
知識・経験が
豊富です
日本語教育が
培ってきたノウハウ
日本語教師
背景と目的2
n 
日本語文章の難易度を高める要因,川村ら(2011)
単語の難易度
補助動詞
n 
n 
構文の複雑さ
視点の移動
ゼロ格
(主格省略)
慣用表現
日本語教育が培ってきたノウハウを活かし主格省
略を検出するシステムを開発
検索エンジンを利用した用例検索により主格の有
無を判定
主格省略文の例
・うどんが食べたい
・マンガを読む
・ドアを閉める
動作主である「私」などの主格が省略されている
処理の流れ1
Step 1 入力文を構文解析する
入力文
「私は本を読んだ」
構文解析システム
KNP ver. 3.01
私は
本を 読んだ
処理の流れ2
Step 2 述語に係っている文節の助詞が
主格を取り得るか調べる
表:主格を取り得る助詞のリスト
主格を取り得る助詞
私は
本を 読んだ
が
しか
ばかり
ぐらい
だけ
ほど
こそ
でも
まで
さえ
は
も
主格を取り得る助詞がない → 主格なし
処理の流れ3
Step 3 :検索文を作り検索エンジンで検索し、
主格の有無を判定する
「私は」は「読んだ」の主格になるか調べる
ガ格文が多いとき
主格あり
ガ格文
私が読む 検索エンジン
(Yahoo!)
ヲ格文
私を読む 検索数
の比較
ヲ格文が多いとき
主格なし
処理の流れ3(2)
入力文章「本も読んだ」の場合
「本も」は「読んだ」の主格になるか調べる
ガ格文が多いとき
主格あり
ガ格文
本が読む 検索エンジン
(Yahoo!)
ヲ格文
本を読む 検索数
の比較
ヲ格文が多いとき
主格なし
再検索
ガ格文とヲ格文の検索数が少ない場合や僅差の場合
再検索
ガ格文
アスタリスク1個が
形態素1個に対応
私が*読む , 私が**読む
ヲ格文
私を*読む , 私を**読む 判定例
猫は食べた
猫が食べる (2290)
( )内の数値は
検索数
猫を食べる (2640)
再検索
猫が*食べる (4970)
猫を*食べる (6290)
再検索
猫が**食べる (187000)
猫を**食べる (57600)
「猫は」は「食べる」の主格になる
まとめ
n 
n 
n 
本研究では日本語教育のノウハウを活かして主格
省略自動検出システムの開発を行った
提案法と人を比較した結果、人が主格省略と判定し
た文章のうち8割を超える精度が確認できた
ポスター発表にて提案法が使えるデモを用意してい
ます
本研究の一部は,平成23年度科研費基盤研究(B)(21320095) および平成23年度
私立大学等経常費補助金の支援を得て行われた.開発にご協力いただいた,甲南
大学知能情報学部3回生小林謙太郎君に感謝します.