商品説明書 第 1.02 版 TERMANAGE 方言辞書 目次 目次 改訂履歴....................................................................................................................3 第1章 「TERMANAGE 方言辞書」とは......................................................................4 1.1 商品の概要...........................................................................................................................4 1.2 主な効果 ..............................................................................................................................5 1.3 商品の特長...........................................................................................................................6 第2章 方言辞書ファイルの提供内容 ......................................................................7 2.1 ユーザー単語辞書ファイル..................................................................................................8 2.2 同義語辞書ファイル ............................................................................................................9 2.3 納品媒体について .............................................................................................................. 11 第3章 ご利用方法 ................................................................................................12 3.1 「見える化エンジン」への導入方法 .................................................................................12 3.2 単語の追加・修正方法.......................................................................................................12 3.3 想定と異なる結果が出る場合 ............................................................................................13 3.4 複数の方言辞書を利用したい場合 .....................................................................................14 連絡先 .....................................................................................................................15 TERMANAGE 方言辞書 改訂履歴 改訂履歴 改訂日 版 改訂内容 2013/01/23 1.00 初版作成 2013/03/01 1.01 表紙の変更、連絡先に PAM サービスサイトに関する記載を追記 2014/06/01 1.02 連絡先 営業担当窓口の電話番号変更 会社ロゴデザイン変更に伴う、表紙デザイン及び最終ページ会社ロゴ変更 3 TERMANAGE 方言辞書 「TERMANAGE 方言辞書」とは 第1章 「TERMANAGE 方言辞書」とは 1.1 商品の概要 「TERMANAGE 方言辞書」は、テキストマイニングツール用の方言辞書です。方言は、普段話し 言葉などとして何気なく使われる言葉なので、発言する人の気持ちが反映されやすくなってい ます。例えば、ブログなどでは、書き手によって同じ内容が標準語でも方言でも発言されてい ます。そのため、方言で書かれたテキストから得られる心理的な情報もあります。 テキストマイニングツールで、より精度の高い結果を得たいと考えた場合、「ユーザー辞書」 を作る必要が出てきます。例えば、新しい商品を発売したときに、該当の商品名や略称、愛称 などを「ユーザー辞書」に登録しておくことで商品名が 1 単語として集計されます。そのため、 その商品に対する発言をより多く見つけ出すことができるようになります。 同様に、「TERMANAGE 方言辞書」から標準辞書に登録されていない方言をユーザー辞書に登録 することで、テキスト内から方言での発言を多く見つけ出すことができます。それによって、 テキストの傾向をより詳しく見ることが可能となります。 4 TERMANAGE 方言辞書 「TERMANAGE 方言辞書」とは 1.2 主な効果 「TERMANAGE 方言辞書」をご利用いただくことで、以下の効果があります。 (1) 分析精度の向上 テキストマイニング結果の集計の際、テキストマイニングツールの標準辞書に含まれていない 方言は、結果として検出されなかったり1単語とは見做されずに結果が分散したりすることが あります。「TERMANAGE 方言辞書」をユーザー単語辞書に登録しておくことで、方言を含むテ キストからも傾向や特徴的な結果といった情報を発見できます。 例えば、 「母親」は大阪では「おかん」と表現されます。 「おかん」をテキストマイニングツー ルのユーザー辞書に登録し、 「母親」と同義であると設定すれば、母親に関する話題をまとめて 捉えることが可能となります。例えば、母の日のキャンペーン後にどのような反応があったか を分析したいといった場合に、 「母親」に関する発言をしているものをまとめることができます。 「母親」という単語を中心とした話題の繋がりや広がりについても、まとまった結果として見 ることができますので、より精度の高い結果となります。 (2) 辞書メンテナンス作業の簡易化 地域ごとの方言をまとめた辞書となっており、テキストマイニングツールのユーザー辞書登録 の手間を減らすことができます。テキスト内でどのような単語が使われるかを調べたり、単語 を一つずつ登録したりといった作業を削減できます。 ※当辞書は、現段階では、株式会社プラスアルファ・コンサルティングのテキストマイニング ツール「見える化エンジン」(以下「見える化エンジン」)の辞書インポート機能のフォーマッ トに対応しており、そのまま取り込むことが可能となっております。 その他のテキストマイニングツールで利用する場合は、ツールの仕様に合わせてレコード項目 やファイル形式などの編集が必要となります。 5 TERMANAGE 方言辞書 「TERMANAGE 方言辞書」とは 1.3 商品の特長 (1) チューニングした収録内容 収録する単語や品詞などは、実際のユーザー辞書登録や解析でのノウハウを元に内容を 精査しております。 誤りだとわかる結果に繋がる単語は収録の対象から外しています。ユーザー辞書登録を した単語は優先して分析されます。そのために、2文字程度の短いひらがなの方言単語、 例えば大阪弁で「持ち上げる」の意味をもつ「かく」をユーザー辞書登録していると「せ っかくの……」の「かく」なども「持ち上げる」という標準語に集約してしまうことが わかりました。そこで、ひらがな2文字の単語に関しては収録対象外としています。 (2) 単語登録用辞書と標準語との紐づけを収録した同義語辞書をセットでご提供 方言の単語を登録するための辞書と、方言と標準語の紐づけを定義した辞書をご提供し ます。合わせてご利用いただくことで、方言の結果と標準語の結果を統合して確認する ことができます。 単語登録用の辞書で、テキスト内から方言の単語を見つけ出します。紐付けを定義する ファイルで、発見した方言を標準語の結果と合わせて集計します。 大阪弁の「ちゃう」は標準語では「違う」に紐付けされています。例えば、何か商品を 使っての感想を分析したい場合に方言辞書を使うことで、 「違う」と「ちゃう」の結果が 統合されるので、 “何か思っていたのと違っていた”というような発言の総数を得ること が可能になります。 (3) 必要な地域を選択可能 辞書データは都道府県ごとのファイルとなっています。お持ちのテキストの内容や傾向 に合わせて、必要な地域を選んでいただけます。 (4) カスタマイズ可能 辞書データはテキスト形式でのご提供となりますため、お客様環境での編集も可能です。 分析の対象となるテキストの内容や実施したい分析に応じて個別に修正いただけます。 6 TERMANAGE 方言辞書 方言辞書ファイルの提供内容 第2章 方言辞書ファイルの提供内容 「TERMANAGE 方言辞書」は、単語を収録した「ユーザー単語辞書ファイル」と、標準語との関 連を定義した「同義語辞書ファイル」の 2 ファイルで構成しています。 「ユーザー単語辞書ファイル」を使用して、ユーザー辞書に単語を登録できます。登録した文 字列は、テキストマイニングツールの該当プロジェクトで 1 単語として認識されるようになり ます。 「同義語辞書ファイル」を使うことで、方言辞書では、標準語と方言単語を同義語として登録 することができます。同義語として登録すると、方言の単語の集計結果と標準語の単語の集計 結果をまとめることができます。 ※現段階では、「見える化エンジン」で取り込み可能な収録内容、ファイルフォーマットとな っております。 他のテキストマイニングツールをお使いの場合は、ご利用のツールのユーザー辞書登録機能を ご確認ください。 7 TERMANAGE 方言辞書 方言辞書ファイルの提供内容 2.1 ユーザー単語辞書ファイル 「ユーザー単語辞書ファイル」には、方言の単語と品詞を収録しています。 表 2.1-1)レコード項目一覧 NO 項目名 項目説明 1 単語 方言の単語です。 2 品詞 単語の種類です。以下の3種類です。 ・”名詞” ・”形容詞” ・”動詞” ※形容詞、動詞の場合、登録できる単語の形が決められているため、 形容詞、動詞にあたる単語を名詞として収録している場合がありま す。 3 副品詞 品詞が名詞の場合に設定する項目です。以下の4種類です。 ・”-”(通常の名詞 もしくは品詞が名詞以外の場合) ・”形容” ・”サ変接続” ・”固有” 4 活用 品詞が動詞の場合に設定する項目です。以下の4種類です。 ・”五段” ・”一段” ・”サ変” ・”-”(品詞が動詞以外の場合) 表 2.1-2)ユーザー単語辞書ファイル 収録例 単語 品詞 副品詞 活用 おがる 動詞 - 五段 けったいだ 形容詞 - - じんじり 名詞 - - てれこ 名詞 形容 - ※実際の提供データはカンマ区切りテキスト形式(CSV 形式)です。 8 TERMANAGE 方言辞書 方言辞書ファイルの提供内容 2.2 同義語辞書ファイル 「同義語辞書ファイル」は、標準語の同義語としての紐づけを定義するデータです。 「元単語」 に収録した方言が「統一語」に収録した標準語とまとめて集計されます。結果は「統一語」に 指定した標準語で表示されます(元文書は変更されません)。収録対象となる「元単語」の方言 単語は、「ユーザー単語辞書ファイル」の方言単語と同じです。 表 2.2-1)レコード項目一覧 NO 項目名 項目説明 1 統一語 方言を集約させる標準語です。 2 統一語 品詞 統一語に指定した単語の種類です。以下の3種類です。 ・”名詞” ・”形容詞” ・”動詞” ※形容詞、動詞の場合、登録できる単語の形が決められているた め、形容詞、動詞にあたる単語を名詞として収録している場合が あります。 3 統一語 否定語フラグ 統一語が否定形(~ない)の場合に”1”を設定します。 ・”0”:肯定 ・”1”:否定(~でない) 例)単語「おもしろい」+ 否定語フラグ”1”で、 「おもしろくない」、 「おもしろくなかった」などの表記が対象となります。 4 元単語 5 元単語 方言単語です。 品詞 元単語に指定した単語の種類です。以下の3種類です。 ・”名詞” ・”形容詞” ・”動詞” ※形容詞、動詞の場合、登録できる単語の形が決められているた め、形容詞、動詞にあたる単語を名詞として収録している場合が あります。 6 元単語 否定語フラグ 元単語が否定形(~ない)の場合に”1”を設定します。 ・”0”:肯定 ・”1”:否定(~でない) 例)単語「おもしろい」+ 否定語フラグ”1”で、 「おもしろくない」、 「おもしろくなかった」などの表記が対象となります。 9 TERMANAGE 方言辞書 方言辞書ファイルの提供内容 表 2.2-2)同義語辞書ファイル 収録例 統一語 統一語 統一語 品詞 否定語フラグ 叫ぶ 動詞 0 奇妙な 形容詞 つむじ 元単語 元単語 元単語 品詞 否定語フラグ おがる 動詞 0 0 けったいだ 形容詞 0 名詞 0 じんじり 名詞 0 互い違い 名詞 0 てれこ 名詞 0 面白い 形容詞 1 おもんない 形容詞 0 ※実際の提供データはカンマ区切りテキスト形式(CSV 形式)です。 10 TERMANAGE 方言辞書 方言辞書ファイルの提供内容 2.3 納品媒体について 納品媒体は、CD-R となります。 表 2.3-1)納品媒体 CD-R 数量 1枚 形式 ISO9660 Level2 フォーマット ファイル カンマ区切りテキスト形式(CSV形式)ファイル ※各項目ダブルクォーテーション付 文字コード Shift-JIS 提供ファイル・ ・ユーザー単語辞書ファイル ファイル名 TMDI_都道府県名(ロ―マ字)_USERDIC.csv 例)「大阪府」のファイル TMDI_OOSAKA_USERDIC.csv ・同義語辞書ファイル TMDI_都道府県名(ロ―マ字)_SYNONYM.csv 例)「大阪府」のファイル TMDI_OOSAKA_SYNONYM.csv ※各都道府県につき、それぞれ1ファイルずつとなります。 収録件数 ・ユーザー単語辞書ファイル 100レコード程度 ・同義語辞書ファイル 100レコード程度 ※1レコードにつき1単語データの収録となっています。 11 TERMANAGE 方言辞書 ご利用方法 第3章 ご利用方法 「TERMANAGE 方言辞書」のご利用方法です。 ※導入方法、ユーザー辞書の構成に関する部分は、「見える化エンジン」に準拠しています。 その他のテキストマイニングツールをお使いの場合は、それぞれのご利用方法をご確認くださ い。 3.1 「見える化エンジン」への導入方法 任意の位置に配置した「TERMANAGE 方言辞書」のファイルを、「見える化エンジン」辞書管理 のファイルインポート機能を使って一括で取り込みます。 ユーザー単語辞書ファイル(TMDI_(都道府県名)_USERDIC.csv)を、対象プロジェクトの[プロ ジェクト設定]タブ内[辞書管理]-[ユーザー単語]ページのインポートボタンを利用して取り 込みます。取り込み後は再度構文解析を実行します。 同義語ファイル(TMDI_(都道府県名)_SYNONYM.csv)を、対象プロジェクトの[プロジェクト設 定]タブ内[辞書管理]-[同義語] ページのインポートボタンを利用して取り込みます。取り込 み後は再解析を実行します([辞書管理]-「ユーザー単語」ページの構文解析実行ボタンでも 同義語の再解析処理は実行されます)。 3.2 単語の追加・修正方法 分析対象のテキストデータの内容によって、ユーザー辞書登録が必要な単語が他にある場合に は、方言辞書ファイルに追記し取り込んでいただくことで、方言辞書ファイルのデータ以外の 単語も同時に追加できます。 ファイルはテキスト形式でのご提供となっておりますので、お客様環境でも編集可能です。 12 TERMANAGE 方言辞書 ご利用方法 3.3 想定と異なる結果が出る場合 分析する文章の内容によっては、ユーザー辞書の登録をすることで、想定とは異なる結果が出 る場合があります。例えば、商品名と方言の単語が同じである場合でも、その商品に関する分 析をしたい場合には、商品名が分析結果として出ることを想定します。 しかし、方言辞書を ユーザー辞書に登録をすると別の標準語と同義語として登録されますので、商品名が標準語に 統一された結果となります。 このような場合には、登録した該当の方言単語を削除するなどの調整をお願いします。 なお、ユーザー辞書に登録した単語の削除は一括で実施することができません。テキストマイ ニングツールの辞書を管理するページ上で一件ずつ確認しながら削除対象の単語を探す必要が あります。そのため、お客様が登録したユーザー辞書をバックアップしておくことをお勧めい たします。 13 TERMANAGE 方言辞書 ご利用方法 3.4 複数の方言辞書を利用したい場合 「見える化エンジン」では、1つの方言(元単語)を、複数の標準語の同義語として登録する ことはできません。 図 3.4-1) 同義語登録の可不可 登録可 登録不可 方言(イ)、 (ロ)ともに、標準語(甲)と同義にできる 方言(ハ)を 2 つの標準語(乙) 、(丙)の同義とはできない (統一語) (元単語) (統一語) (元単語) 方言(イ) 標準語(乙) 方言(ハ) 方言(ロ) 標準語(丙) 標準語(甲) 登録不可 そのため、複数地域の方言辞書を登録する際に、同じ表記の方言で地域によって標準語が異な る場合にはいずれか一つを選択する必要があります。 例)方言単語「いちびる」 (動詞)は、大阪府では「ふざける」、京都府では「調子に乗る」の 同義語として収録しておりますが、 「見える化エンジン」に登録できるのはどちらか一方です。 両地域の辞書を同時に使用する場合には、 「ふざける」、 「調子に乗る」のどちらの標準語を使用 するかを決め、ファイルを修正していただく必要があります。ファイル内にある使用しない単 語のデータを削除するか、ユーザー辞書登録後にテキストマイニングツールの辞書管理機能を 使用しての確認・修正をする対応をお願いします。 ※そのほか、お客様が登録している単語と同一表記の単語についても登録はできません。いず れか1つを選択していただく必要があります。 14 TERMANAGE 方言辞書 連絡先 連絡先 商品に関する障害や、不明な動作、ご質問などは、内容に応じて下記にお問い合わせください。 ・商品詳細情報のダウンロードやお見積り アグレックス PAMサービス サイト URL https://weborder.mss.agrex.co.jp/ ・ドキュメントや技術的な内容、障害に関するお問い合わせ 商品サポート窓口(各商品担当) 電話番号 042-330-7476 メールアドレス [email protected] ・価格、ライセンスに関するお問い合わせ 営業担当窓口 電話番号 03-5990-5210 メールアドレス [email protected] http://www.agrex.co.jp 15
© Copyright 2024 Paperzz