顔文字を利用した文字ベースのコミュニケーション支援に関する研究 奥村研究室 修士 2 年 田中裕紀 1 研究背景・目的 分類には、「怒り」「喜び」「悲しみ」「驚き」「その他・ 無感情」の 5 分類を用いる。 インターネットに代表されるような通信環境の普及に よって、直接相手と接するのではなく、コンピュータを 2.2 介したコミュニケーション(CMC; Computer Mediated Communication)の手段を利用する機会が飛躍的に増 えた。CMC コミュニケーションのうちインターネット チャットや電子掲示板、電子メール等のような文字ベー スのコミュニケーションにおいては、文字だけでは表し にくい意味や意図を表すために、顔文字がよく用いら れている。これら文字ベースのコミュニケーションにお いて、我々は顔文字とそれの付与される文章や文脈との 関係等の情報を統合して、発言の意味や話者の感情、意 図を理解している。このような顔文字と文章、表す意味 2.1 節で作成した顔文字タグ付きコーパスを用い、以 下の手順で顔文字の出現パターンを学習する。 1. テキストの形態素解析 得られた掲示板コーパス中のテキストを、形態素 解析器「茶筅」[2] を用いて形態素解析する。 2. 形態素情報の付与 テキストを文字単位に分割し、各文字に対して表 1 のような形態素の情報を表す品詞タグを付与する。 の関係を把握する事ができれば、その関係を元に、文章 に顔文字が付与された意図を推測する事が可能となる。 表 1: 形態素解析結果に付与するタグ S 一文字で形態素を構成する文字 B 二文字以上の形態素中の最初の文字 また、文章とその表したい意味から、付与されるのに適 当な顔文字を推測する事ができる。本研究では、これら 文章と顔文字との関係を調べるために、顔文字を含む文 E I 章から顔文字の位置と話者の感情を推定する手法につ いて提案し、その結果を文字ベースのコミュニケーショ 二文字以上の形態素中の 3. 顔文字の抽出 テキスト中の顔文字の位置を、サポートベクトル マシン [3] を基にしたチャンカーである yamcha[4] を用いて学習、抽出する。 進捗状況 2.1 二文字以上の形態素中の最後の文字 最初でも最後でもない文字 ンの理解や支援に役立てる方法について検討する。 2 文章中からの顔文字抽出 顔文字タグ付きコーパスの作成 まず実際に顔文字がどのような状況で用いられてい yamcha はテキストの先頭(左側)から、文字単位 で顔文字をチャンキングする。今回は位置 i の文字 における顔文字タグを推定するために、位置 i − 4 るかを知るために、顔文字の付与されている文章を収集 する必要がある。これには電子掲示板(以下掲示板)の 無料貸し出しサービス [1] 上に存在する、約 1600 の掲 から i+4 までの文字、品詞、品詞タグと、位置 i−4 示板への書き込みをデータとして用いた。 から i − 1 までの顔文字タグを素性として用いた。 これら掲示板の HTML ソースを収集した後、ユーザ なお、顔文字の位置情報の表現には表 2 のタグを によって書き込まれた文章以外のテキストを取り除く事 用いた。また感情の情報を付与する場合は、表 2 の によって、掲示板コーパス約 118000 文(行)を得た。 タグに加えさらに表 3 のような添字を付与する。 これに対して、人手により顔文字出現位置に顔文字タグ その結果得られるコーパスは表 4 のようになる。 付けを行った。現在タグ付けを終えた顔文字の数は、約 13000 文中に出現した 913 である。 この一連の手順による顔文字抽出は、感情情報を考慮 またこの顔文字タグに加え、さらに顔文字が表す感情 しない単純な顔文字抽出の場合、精度で 85.47%、再現 の情報も合わせて付与する場合も扱う。この際の感情の 率で 86.67%であった。感情情報を考慮した顔文字抽出 1 2.3 については、現在はタグ付け済みデータが少ないので、 有効な結果はまだ得られていない。 得られた感情情報を基に、文章と顔文字との関係につ いて整理する。例えば話者の感情に関する情報は、顔文 表 2: 顔文字のチャンキングに用いるタグ B 顔文字の始まりの文字 I O 文章と顔文字との関係の考察 字だけではなく文章中にも、感情を表す語として存在す る事が多い。しかし、文章中の感情を表す語と顔文字の 顔文字の内部の文字 表す感情が同じである場合も、そうでない場合もある。 顔文字の外部の文字 このような文章との顔文字との関係について調べる。 但し対象となる文章の多くは口語表現が多いこと等か ら、正しく形態素に分ける事が困難であるものもある。 a b c d e 文字 よって、単語だけではなく文字列や予め用意した特定の 表 3: 感情情報の付与に用いる添字 「怒り」を表す顔文字を構成する文字 感情を表す語との共起について調べる、等複数の方法を 検討する。 「喜び」を表す顔文字を構成する文字 これにより、文中での顔文字の様々な役割や機能を把 「悲しみ」を表す顔文字を構成する文字 握する。そして顔文字の付与された文章を正しく理解、 「驚き」を表す顔文字を構成する文字 処理したり、コンピュータへの顔文字付き文章の入出力 その他・無感情な顔文字を構成する文字 品詞 表 4: コーパス例 品詞タグ ば 助詞-副助詞 か 助詞-副助詞 り 助詞-副助詞 の 助詞-連体化 毎 名詞-副詞可能 日 名詞-副詞可能 で 助詞-格助詞-一般 ( 記号-括弧開 − 記号-一般 _ 記号-一般 − 記号-一般 ) 記号-括弧閉 にも役立てる方法について検討する。 3 顔文字タグ B I E S B O O O O O E S S O O Bc S S S S Ic Ic Ic Ic 今後の課題 顔文字を含んだ文章を正確に扱うには、より高い顔文 字抽出精度が求められる。現在の顔文字抽出の精度は 85%程度であり、精度の向上には訓練用の顔文字タグ付 きコーパスの充実や形態素以外の素性の付与、場合に よっては他の手法との併用等を考えなければならない。 文章と顔文字との関係を整理する方法については、ま だ具体的な作業に入っておらず、今後実際に有効な手法 を検討していかなければならない。 また、現在は感情の分類に「怒り」「喜び」「悲しみ」 「驚き」 「その他・無感情」の 5 分類を用いているが、こ れも分類結果の利用方法に応じて、より相応しい分類を 検討する必要がある。 EOS 参考文献 [1] Teacup BBS (http://www.teacup.com/index.html) また、既存の顔文字辞書を用いた単純なマッチングに [2] 松本裕治、北内啓、平野善隆、高岡一馬、浅原正幸、 形態素解析システム『茶筅』Version2.2.9 使用説明書、 よる抽出法との比較をするために、実際にインターネッ ト上で配布されている 14 の顔文字辞書から得られた計 5738 種の顔文字リストを用いて、顔文字抽出を行った。 奈良先端科学技術大学院大学、2002 その結果は再現率で 79.96%(精度は原理上 100%とな [3] V.N. Vapnik、Statistical Learning Theory、A る)であった。しかし辞書を用いる手法の場合は、辞書 Wiley-Interscience Publication、1998 中の特定の顔文字しか抽出できないが、本手法では未知 の顔文字を抽出する事も可能であり、また感情情報を推 [4] 工藤拓、松本裕治、Support Vector Machine を用い た Chunk 同定、自然言語処理、Vol.9、No.5、pp.3- 定する事もできる。 23、2002 以上の結果を用いて、顔文字付きコーパスから顔文字 を抽出し、またその表す感情情報を得る。 2
© Copyright 2024 Paperzz