日本語解析済みコーパス管理ツール: 茶器(ChaKi.NET) 松本裕治, 浅原正幸, 岩立将和, 森田敏生* 奈良先端科学技術大学院大学 情報科学研究科 *総和技研 茶器:コーパス管理・検索システム • タグ付きコーパスのデータベース管理 – 形態素解析,文節区切り,文節係り受けを施し たコーパスを格納し,各種検索機能や修正機能 を提供 • 種々の検索 – 文字列検索,単語(列)検索,係り受け構造検索 • コーパスのタグ付け誤りの修正 – 形態素,文節区切り,係り受け誤りの修正 • コロケーション抽出機能 – 単語の共起出現頻度,単語N-gram,頻出単語 列の抽出 茶器(ChaKi.NET)の構成 文書データ (文集合) 言語解析ツール (茶筌,MeCab, 南瓜) / 手作業による解析 解析済み + テキスト 辞書 ChaKi 検索と 誤り修正 関係データベース (MySQL, SQLite) 南瓜の出力 フォーマット 1文が1行に 茶器(ChaKi)の構成 特になくてもよい. ない場合は,コー パス中の単語が辞 書として取り扱わ れる なったファイル 文書データ (文集合) 言語解析ツール (茶筌, MeCab,南瓜) / 手作業による解析 解析済み + テキスト 辞書 ChaKi 検索と 誤り修正 関係データベース (MySQL, SQLite) 茶器の機能 • 対象: – 形態素解析または係り受け解析済みコーパス (日, 中, 英) • 検索機能 – 文字列 (正規表現) 検索 – 形態素情報(品詞,読み,活用など)を用いた単語列検索 – 係り受け木の検索 • 検索結果の表示機能 – KWIC形式による文単位の表示 – 文毎の係り受け木の表示 – 統計抽出結果の表示 • 統計機能 – 単語の頻度統計,共起頻度統計,頻出系列の抽出 • 修正機能(一部未実装) – 検索結果の修正(形態素情報,係り受け情報) – 形態素解析については,複数の文の一括修正が可能 茶器の実行画面 コーパスサイズ ヒット数の表示 検索質問 検索履歴 KWIC表示 単語情報 依存構造木 前後文脈 コーパスの指定 このボタンを押して,データベースの中からコーパスを指定する 文字列検索 1.Stringタブを選ぶ 2.Search Expressionの右に検索したい文字列を入力する 3.Searchボタンで検索を開始 文字列検索結果の例 単語検索 1.Tag を選ぶ 2.この箱に検索したい単語の情報を記入する 箱を追加したい場合は, 追加したい側の+をクリック 単語検索の例 • 品詞(PartOfSpeech)を選ぶ際は,品詞一覧が自動的 に表示されるので,選択するだけでよい • 各箱の右上の赤いくさび型をクリックするとそこが中心 位置とみなされる 単語検索結果の例 係り受け検索 Dependencyタブを選ぶ 係り受け検索質問 • 文節,および,文節内の単語の箱の追加の方法は単語検索 の場合と同様. • 一つの文節からもう一つの文節へマウスをドラッグアンド ドロップすると,文節間の係り受け関係を定義できる 係り受け検索の結果 コロケーション検索 • • • • Collocationタグを選ぶ 検索したい統計情報(Raw Frequency, MI-scoreなど 計数の対象とする単語情報(表層,原形など)を選ぶ 計数する前後文脈長を選ぶ コロケーション検索結果の例 係り受け木の表示と修正インタフェース 茶器(ChaKi.NET)の情報 • 文部科学省科学研究費補助金 基盤研究B「言語研究のための コーパスの作成と利用に関する研究」(2002-2005年度),および, 文部科学省科学研究費補助金 特定研究「日本語コ-パス」 (2006年度-2010年度)による支援 • 関連文献: – Yuji Matsumoto, et al, “An Annotated Corpus Management Tool: ChaKi,” Proceedings of the 5th International Conference on Language Resources and Evaluation, Genoa, Italy, May 2006. – 松本裕治, 浅原正幸, 橋本喜代太, 投野由紀夫, 大谷朗, 森田敏生, 「タグ付きコーパス管理/検索ツール『茶器』 」, 言語処理学会第12回 年次大会論文集, pp.460-463, March 2006. • 現メンバー – 松本裕治,浅原正幸,岩立将和(以上,奈良先端大),森田敏生(総和 技研) • 公開ページ – http://sourceforge.jp/projects/chaki/releases/ – このページのChaKi.NETの Setup.msi をダウンロード
© Copyright 2025 Paperzz