顔文字を利用した文字ベースのコミュニケーション支援

顔文字を利用した文字ベースのコミュニケーション支援に関する研究
奥村研究室 修士 2 年 田中裕紀
1
研究背景・目的
分類には、「怒り」「喜び」「悲しみ」「驚き」「その他・
無感情」の 5 分類を用いる。
インターネットに代表されるような通信環境の普及に
よって、直接相手と接するのではなく、コンピュータを
2.2
介したコミュニケーション(CMC; Computer Mediated
Communication)の手段を利用する機会が飛躍的に増
えた。CMC コミュニケーションのうちインターネット
チャットや電子掲示板、電子メール等のような文字ベー
スのコミュニケーションにおいては、文字だけでは表し
にくい意味や意図を表すために、顔文字がよく用いら
れている。これら文字ベースのコミュニケーションにお
いて、我々は顔文字とそれの付与される文章や文脈との
関係等の情報を統合して、発言の意味や話者の感情、意
図を理解している。このような顔文字と文章、表す意味
2.1 節で作成した顔文字タグ付きコーパスを用い、以
下の手順で顔文字の出現パターンを学習する。
1. テキストの形態素解析
得られた掲示板コーパス中のテキストを、形態素
解析器「茶筅」[2] を用いて形態素解析する。
2. 形態素情報の付与
テキストを文字単位に分割し、各文字に対して表 1
のような形態素の情報を表す品詞タグを付与する。
の関係を把握する事ができれば、その関係を元に、文章
に顔文字が付与された意図を推測する事が可能となる。
表 1: 形態素解析結果に付与するタグ
S 一文字で形態素を構成する文字
B 二文字以上の形態素中の最初の文字
また、文章とその表したい意味から、付与されるのに適
当な顔文字を推測する事ができる。本研究では、これら
文章と顔文字との関係を調べるために、顔文字を含む文
E
I
章から顔文字の位置と話者の感情を推定する手法につ
いて提案し、その結果を文字ベースのコミュニケーショ
二文字以上の形態素中の
3. 顔文字の抽出
テキスト中の顔文字の位置を、サポートベクトル
マシン [3] を基にしたチャンカーである yamcha[4]
を用いて学習、抽出する。
進捗状況
2.1
二文字以上の形態素中の最後の文字
最初でも最後でもない文字
ンの理解や支援に役立てる方法について検討する。
2
文章中からの顔文字抽出
顔文字タグ付きコーパスの作成
まず実際に顔文字がどのような状況で用いられてい
yamcha はテキストの先頭(左側)から、文字単位
で顔文字をチャンキングする。今回は位置 i の文字
における顔文字タグを推定するために、位置 i − 4
るかを知るために、顔文字の付与されている文章を収集
する必要がある。これには電子掲示板(以下掲示板)の
無料貸し出しサービス [1] 上に存在する、約 1600 の掲
から i+4 までの文字、品詞、品詞タグと、位置 i−4
示板への書き込みをデータとして用いた。
から i − 1 までの顔文字タグを素性として用いた。
これら掲示板の HTML ソースを収集した後、ユーザ
なお、顔文字の位置情報の表現には表 2 のタグを
によって書き込まれた文章以外のテキストを取り除く事
用いた。また感情の情報を付与する場合は、表 2 の
によって、掲示板コーパス約 118000 文(行)を得た。
タグに加えさらに表 3 のような添字を付与する。
これに対して、人手により顔文字出現位置に顔文字タグ
その結果得られるコーパスは表 4 のようになる。
付けを行った。現在タグ付けを終えた顔文字の数は、約
13000 文中に出現した 913 である。
この一連の手順による顔文字抽出は、感情情報を考慮
またこの顔文字タグに加え、さらに顔文字が表す感情
しない単純な顔文字抽出の場合、精度で 85.47%、再現
の情報も合わせて付与する場合も扱う。この際の感情の
率で 86.67%であった。感情情報を考慮した顔文字抽出
1
2.3
については、現在はタグ付け済みデータが少ないので、
有効な結果はまだ得られていない。
得られた感情情報を基に、文章と顔文字との関係につ
いて整理する。例えば話者の感情に関する情報は、顔文
表 2: 顔文字のチャンキングに用いるタグ
B 顔文字の始まりの文字
I
O
文章と顔文字との関係の考察
字だけではなく文章中にも、感情を表す語として存在す
る事が多い。しかし、文章中の感情を表す語と顔文字の
顔文字の内部の文字
表す感情が同じである場合も、そうでない場合もある。
顔文字の外部の文字
このような文章との顔文字との関係について調べる。
但し対象となる文章の多くは口語表現が多いこと等か
ら、正しく形態素に分ける事が困難であるものもある。
a
b
c
d
e
文字
よって、単語だけではなく文字列や予め用意した特定の
表 3: 感情情報の付与に用いる添字
「怒り」を表す顔文字を構成する文字
感情を表す語との共起について調べる、等複数の方法を
検討する。
「喜び」を表す顔文字を構成する文字
これにより、文中での顔文字の様々な役割や機能を把
「悲しみ」を表す顔文字を構成する文字
握する。そして顔文字の付与された文章を正しく理解、
「驚き」を表す顔文字を構成する文字
処理したり、コンピュータへの顔文字付き文章の入出力
その他・無感情な顔文字を構成する文字
品詞
表 4: コーパス例
品詞タグ
ば
助詞-副助詞
か
助詞-副助詞
り
助詞-副助詞
の
助詞-連体化
毎
名詞-副詞可能
日
名詞-副詞可能
で
助詞-格助詞-一般
(
記号-括弧開
−
記号-一般
_
記号-一般
−
記号-一般
)
記号-括弧閉
にも役立てる方法について検討する。
3
顔文字タグ
B
I
E
S
B
O
O
O
O
O
E
S
S
O
O
Bc
S
S
S
S
Ic
Ic
Ic
Ic
今後の課題
顔文字を含んだ文章を正確に扱うには、より高い顔文
字抽出精度が求められる。現在の顔文字抽出の精度は
85%程度であり、精度の向上には訓練用の顔文字タグ付
きコーパスの充実や形態素以外の素性の付与、場合に
よっては他の手法との併用等を考えなければならない。
文章と顔文字との関係を整理する方法については、ま
だ具体的な作業に入っておらず、今後実際に有効な手法
を検討していかなければならない。
また、現在は感情の分類に「怒り」「喜び」「悲しみ」
「驚き」
「その他・無感情」の 5 分類を用いているが、こ
れも分類結果の利用方法に応じて、より相応しい分類を
検討する必要がある。
EOS
参考文献
[1] Teacup BBS (http://www.teacup.com/index.html)
また、既存の顔文字辞書を用いた単純なマッチングに
[2] 松本裕治、北内啓、平野善隆、高岡一馬、浅原正幸、
形態素解析システム『茶筅』Version2.2.9 使用説明書、
よる抽出法との比較をするために、実際にインターネッ
ト上で配布されている 14 の顔文字辞書から得られた計
5738 種の顔文字リストを用いて、顔文字抽出を行った。
奈良先端科学技術大学院大学、2002
その結果は再現率で 79.96%(精度は原理上 100%とな
[3] V.N. Vapnik、Statistical Learning Theory、A
る)であった。しかし辞書を用いる手法の場合は、辞書
Wiley-Interscience Publication、1998
中の特定の顔文字しか抽出できないが、本手法では未知
の顔文字を抽出する事も可能であり、また感情情報を推
[4] 工藤拓、松本裕治、Support Vector Machine を用い
た Chunk 同定、自然言語処理、Vol.9、No.5、pp.3-
定する事もできる。
23、2002
以上の結果を用いて、顔文字付きコーパスから顔文字
を抽出し、またその表す感情情報を得る。
2