Summarizing microblog stream

人工知能学会研究会資料
SIG-SWO-A1001-03
Summarizing microblog stream
高村大也∗
Hiroya Takamura
横野光
Hikaru Yokono
奥村学
Manabu Okumura
東京工業大学精密工学研究所
Tokyo Institute of Technology
Precision and Intelligence Laboratory
Abstract: We address the task of summarizing numerous short documents on microblogs including Twitter. On microblogs, thousands of short documents on a certain topic such as sports games
or TV dramas are posted by users. Noticeable characteristics of microblog data are that documents
are often very highly redundant and are aligned on timeline. There can be dozens of documents
on one event in the topic. Two very similar documents will refer to two distinct events when the
documents are temporally distant. We examine the microblog data to gain more understanding
of those characteristics, and propose a summarization model for numerous short documents on
timeline, along with an approximate fast algorithm for generating summary. We empirically show
that our model generates a good summary on the dataset of microblog documents on sports games.
1
序論
Twitter1 に代表されるマイクロブログが多くの人々
に使われるようになってきている.マイクロブログは,
いくつかの点において通常のブログと異なっている.
まず,マイクロブログのエントリは非常に短い.例え
ば Twitter の場合では,tweet と呼ばれる各エントリは
140 文字という長さ制限がある.また,マイクロブロ
グはその手軽さゆえに,ユーザがその瞬間に何をして
いるか,あるいは何を感じているかを記述することに
利用されることが多い.これは,通常のブログがその
日にあったことや,最近考えていることなどを記述す
るのによく使われることと対照を成す.このような違
いから,マイクロブログはこれまでのブログと異なる
情報を有していると期待され,その情報源としての活
用方法が模索されている.
ユーザは様々な形でマイクロブログを利用する.特
徴的なものとしては,スポーツの試合のテレビ中継な
どを見ながらその様子や感想をポストするなどの使い
方がある.非常に多くのユーザが同時にポストするの
で,単一のトピックに関する短文書が大量に集められ
ることになる.またスポーツの試合のようなトピック
∗ 連絡先:東京工業大学精密工学研究所
〒 226-8503 神奈川県横浜市緑区長津田町 4259
E-mail: [email protected]
1 http://twitter.com
は,その状況が時間と共に動的に変化するという特徴
を持っている.このように時間と共に動的に変化する
トピックに関するマイクロブログのエントリの集合を
マイクロブログストリームとよぶことにしよう.本稿
の目的は,マイクロブログストリームの要約を自動的
に生成する手法を提案することである.このような技
術により,ストリームをすべて読むという非現実的な
作業をすることなく,そのトピックで何が起こってい
るのか,人々がそのトピックで起こっていることについ
てどのような感想を持っているのかなどを,我々は簡
単に知ることができる.スポーツの試合は,時間と共
に動的に変化するトピックの典型的な例であるが,こ
れ以外にも多くの応用先が存在する.たとえば,テレ
ビドラマなどもあるだろう.また,Ustream2 などの動
画配信サービスに関するマイクロブログなども例とし
て挙げられる.また,そのような放送の類だけでなく,
例えば為替レートなどの経済指標も動的に変化するの
で,それに対するマイクロブログも提案技術の応用先
となりうる.
文書要約の主流となっている手法は文選択要約であ
る [6].文選択要約とは,要約対象となる文書集合がす
べて文に分割され,そこから少数の文からなる文集合
を選んで並べることにより要約を生成する手法である.
これに倣い,本タスクにおいては,我々はエントリ選択
2 http://www.ustream.tv/
03-1
というアプローチを採る.マイクロブログのエントリ
は非常に短く,多くの場合は単一の事柄について書か
れているので,エントリ選択は適切なアプローチであ
ると考えられる.選択されたエントリを代表エントリ
とよぶことにしておく.既存の文書要約技術をそのま
まマイクロブログストリームに適用することも可能で
あるが,より良い要約を生成するためには,マイクロ
ブログデータの次のような二つの特徴を考慮に入れる
必要がある.一つ目は,各エントリは時間軸上に整列し
ており,時間的に離れたエントリは異なるイベントに
関するものである可能性が高いということである.例
えばサッカーの試合に関するマイクロブログストリー
ムでは,前半 10 分の「玉田選手のシュート」と後半 30
分の「玉田選手のシュート」は異なるイベントである
が,テキストだけを処理対象としているとこれらが混
同されてしまう可能性がある.よって,ポスト時刻を
適切に利用する必要が出てくる.二つ目は逆に,トピッ
ク中のあるイベントに関するエントリはその時刻にポ
ストされるとは限らないということである.多くの場
合,いくらかの時間的遅れを伴ってポストされる.こ
れらの特徴を組み込むため,我々は施設配置問題によ
る要約モデル [12] を拡張する.我々は二つの異なる形
でモデルを拡張する.一つはモデルの係数に時間情報
を取り入れる方法であり,もう一つは線形分割条件と
いう条件を導入する方法である.このそれぞれの拡張
により,より高性能なマイクロブログストリーム要約
が実現できる.ここで扱う研究課題は,時間軸上に並
ぶ短文書の要約という,より一般的な範疇の研究課題
の一例であり,これまで研究されてこなかった新たな
研究課題である.我々の提案手法は,マイクロブログ
ストリーム要約を実現するだけでなく,この一般的な
研究課題の有力な解決方法となっている.
2
マイクロブログデータの分析
マイクロブログの特徴について調べるために,マイ
クロブログを収集し分析を行った.ここでは,トピッ
クとしてサッカーの試合を取り上げる.特に,2010 年
の東アジア選手権の日本対香港を分析対象とした.玉
田圭司選手の二得点などで日本が 3 対 0 で勝った試合
である.Twitter から,Streaming API を用いて試合
時間の tweet(エントリ) を収集した.これらのエント
リのうちサッカーに関するものを分析する.このデー
タの詳細は 6.2 節で報告する.
まず,“ゴール” という単語の出現頻度を算出し,図 1
を得た.わかりやすくするために,図中のプロット曲
線は移動平均法により平滑化してある.このプロット
曲線は多くの山を持つことがわかる.実際にマイクロ
ブログストリームデータを調査した結果,これらの山
03-2
図 1: 2010 年 2 月 11 日に行われた日本対香港の試合に
関するエントリで “ゴール” という用語を含むものの頻
度.曲線は移動平均法により平滑化した.
はそれぞれ異なるイベントを原因とすることがわかっ
た.試合開始から 25 分の時点での傾斜のなだらかな山
は,主に日本代表の得点力のなさを嘆くエントリによ
り生成されたものであった.また,40 分の時点の山は,
玉田圭司選手の一点目により生成されたものであった.
また,80 分の時点の山は田中マルクス闘莉王選手の得
点によるものであり,100 分の時点の山は玉田圭司選
手の二点目の得点によるものであった.これらの山を
成すエントリのテキストはお互いに類似していること
が多かった.特に,玉田圭司選手の二つの得点に関す
るエントリはさらに類似している傾向が高かった.こ
の調査により,自動要約において時間軸上の二つのエ
ントリの類似度を測る場合は,テキスト部分が似てい
るが異なるイベントに言及しているエントリ同士を区
別できるように,それらのポストされた時刻を考慮す
る必要があることがわかる.
次に,玉田圭司選手の一点目について言及している
エントリの頻度を調べ,図 2 を得た.この図より,エ
ントリのポスト時刻は,それが言及しているイベント
の生起時刻の直後とは限らないことがわかる.この図
のエントリは試合開始から 2250 秒から 2350 秒以降の
範囲にまで分布している.質の高い要約を生成するた
めには,これらのエントリが単一のイベントに言及し
ていることを認識できる必要がある.
これら二つの調査をまとめると,1 節で述べたような
次の二つのマイクロブログの特徴が明らかになる; (i)
テキスト上は類似した二つのエントリも,時間的に離
文の割当が行われる.彼らの選択単位は文であったが,
以下の定式化における説明では,本稿での問題設定に
合わせて選択単位をエントリとする.本質的な部分は
まったく変わらない.
eij により,エントリ di がエントリ dj を内容的に被
覆する度合いを表すことにする.この係数をエントリ
間係数とよぶことにしよう3 .zij を,dj が di に割当
てられたときに 1 となり,それ以外は 0 であるような
∑
決定変数とする.すると割当全体の良さは i,j eij zij
で表されることになり,これを要約の質の指標とみな
して最大化することを考える.次に,p 個以下のエン
トリで要約が構成されるように,要約長制約を入れる.
xi を,di が選択されたときに 1 となり,それ以外は 0
であるような決定変数とする.すると,要約長制約は
∑
i xi ≤ p で表すことができる.結局,p-メディアン要
約モデルは次のように定式化できる:
∑
max.
i,j eij zij
s.t.
図 2: 2010 年 2 月 11 日に行われた日本対香港の試合に
関するエントリで試合開始から 37 分の時点での玉田圭
司選手のゴールに言及しているものの頻度.曲線は移
動平均法により平滑化した.
れていれば異なるイベントに言及している可能性が高
い,(ii) エントリは時間的な遅れを伴ってポストされ
る.これらは,サッカーに関するマイクロブログだけ
の特徴ではなく,それ以外のトピックを扱ったマイク
ロブログについても同じことが言えるだろうと我々は
考える.本稿では,この相反する二つの特徴を適切に
考慮した要約モデルを構築する.
3
zij ≤ xi ;
∑
i xi ≤ p,
∑
i zij = 1;
∀i, j,
(1)
(2)
∀j,
(3)
zii = xi ;
∀i,
(4)
xi ∈ {0, 1};
∀i,
(5)
zij ∈ {0, 1}; ∀i, j.
(6)
式 (1) は割当先となったエントリは選択されているこ
とを保証する.式 (2) は要約長制約である.式 (3) はす
べてのエントリがいずれかのエントリに割当てられる
ことを保証し,式 (4) は選択されたエントリは自分自
身に割当てられるとしていることを意味する.決定変
数 zij に対する二値制約を表す式 (6) は,この問題では
自動的に満たされる.この最適化問題は NP 困難であ
るが,問題のサイズが小さいときは分割統治法 [3] など
を用いて厳密解が求められる.本稿でも小規模のデー
タに対しては分割統治法を用いることにする.
前述のように,エントリ間係数 eij は di が dj を内容
的に被覆する度合いを表す.Takamura ら [12] は,次
のように eij を決めた:
p-メディアン問題による文書要約
モデル
ここでは,Takamura ら [12] によって提案された予
算制約付きメディアン問題による要約モデルを紹介す
る.予算制約付きメディアン問題は施設配置問題 [2] の
一種であり,住民がアクセスしやすいように病院や学
校の配置場所の決定するなどの実用的な問題に応用さ
れている.本稿で扱う課題設定では,各選択対象が同
じコストを持ち (すなわち,最大 p 個のエントリを選択
して要約を作るという問題を解いており),住民の居住
地を配置場所候補としている (与えられたエントリか
ら代表エントリを選ぶ) のでこの場合は予算制約付き
メディアン問題は p-メディアン問題となる.Takamura
らのモデルでは,与えられたすべての文 (本稿ではエ
ントリ) が代表文 (代表エントリ) のいずれかによって
内容的に被覆されるように,代表文の選択とすべての
eij
=
|di ∩ dj |
.
|dj |
(7)
ここでは便宜的に,エントリ di はそれが含む内容語の
集合として表現されている.よって di ∩ dj は,di と dj
に共通して出現する内容語の集合となる.
4
マイクロブログ要約手法
本節ではマイクロブログ要約手法を提案する.この
提案手法は,3 節で紹介した文書要約手法を基にして
3 先行研究では文間係数とよばれていた.
03-3
いる.
2 節で調査した二つの特徴に注目する; (i) テキスト
上は類似した二つのエントリも,時間的に離れていれ
ば異なるイベントに言及している可能性が高い,(ii) エ
ントリは時間的な遅れを伴ってポストされる.この二
つの特徴をモデルに組み込むための,二つの異なる手
法を提案する.一つはエントリ間係数 eij に時間情報
を組み込む方法であり,もう一つはエントリ割当に線
形分割条件を課す方法である.
4.1
図 3: 線形分割条件無しのエントリ割当例.右向きの直
線矢印は時間軸を表す.●は代表エントリを,○は選
択されていないエントリを表す.曲線矢印は割当関係
を表す.
エントリ間係数への時間情報の組み込み
二つのエントリが時間的に離れているときは,たと
えテキストとしてそれらが類似していても,エントリ
間係数が小さくなるようにしたい.よって,時間差に
ついての減少関数を eij に積算することを考える.無
数の減少関数が存在するが,ここでは次のような関数
を考える:
0.5|t(di )−t(dj )|/β .
(8)
図 4: 線形分割条件付きのエントリ割当例.右向きの直
線矢印は時間軸を表す.●は代表エントリを,○は選
択されていないエントリを表す.曲線矢印は割当関係
を表す.
たりする.この図において,横軸は時間軸を,黒丸は
代表エントリを,白丸は選択されていないエントリを
表す.一方,図 4 のように,矢印が交差したり,他の代
表エントリを飛び越して割当てたりするようなことが
ない割当も考えられる.そのような割当のみ許すとい
う制約を課すことを我々は提案する.一つの選択エン
トリに割当てられたエントリの集合をクラスタと見な
すと,このような制約を課すことは,時間軸を p − 1 個
の境界を引くことによって p 個のクラスタに分割する
ことと同等である.そこで我々はこの制約を,時間軸
上の線形分割条件,あるいは簡単に線形分割条件とよ
ぶことにする.線形分割条件を課すことは,マイクロ
ブログストリームにおいて各イベントへの言及は時間
的に凝集していると仮定していることに相当する.こ
れにより,時間的に離れたエントリ同士が同じイベン
トに言及していると判定されることを防ぐことができ,
また少々の時間的な遅れを伴ってポストされたエント
リも適切に割当てられることが期待できる.
線形分割条件を課した p-メディアン要約モデルは次
のように定式化できる:
∑
max.
i,j eij zij
ここで t(d) はエントリ d がポストされた時刻 (秒) であ
り,β は正の定数であるとする.減少関数についての
詳細な調査は今後の課題としておく.
この減少関数により,時間的に互い離れたエントリ
間の係数は非常に小さくなる.しかし,わずかな時間
差でポストされた類似エントリ同士は,依然として大
きなエントリ係数を持つ.β を大きくすると時間差に
よるペナルティは小さくなり,逆に β を小さくすると
時間差によるペナルティは大きくなる.
しかし,このままでは長いエントリが選ばれやすく
なる.長いエントリは多くの単語トークンを含んでい
るので,それだけ他のエントリに対するエントリ間係
数が大きくなるからである.このような傾向を軽減す
るため,エントリ間係数に長さに関するペナルティ1/ci
を与えることにする.ここで ci はエントリ di の長さで
あり,単語トークンの数で測られる.結局,最終的な
エントリ間係数 etime
は次のようになる:
ij
etime
ij
4.2
=
eij |t(di )−t(dj )|/β
0.5
.
ci
(9)
エントリ割当における線形分割条件
s.t.
要約モデルに時間情報を取り入れるもう一つの方法
は,p-メディアン要約モデルに線形分割条件を課すこ
とである.
本稿で扱う研究課題においては,エントリは時間軸
上に整列している.p-メディアン要約モデルにおいて
は,各エントリは時間軸上のどのエントリにも割当可
能である.それゆえ,図 3 でエントリ割当を表す矢印
は,互いに交差したり,他の代表エントリを飛び越え
03-4
zij ≤ xi ;
∑
i ci xi ≤ p,
∑
i zij = 1;
∀i, j,
∀j,
zii = xi ;
∀i,
zij ≤ zik ;
∀i, j, k(j ≤ k ≤ i)
(10)
zij ≤ zik ;
∀i, j, k(i ≤ k ≤ j)
(11)
xi ∈ {0, 1};
∀i,
zij ∈ {0, 1};
∀i, j.
制約式 (10) と (11) が,新たに加えられている.
各イベントへの言及は時間的に凝集しているという
仮定は当然ながら正しくはない.しかし,要約という
目的においては,そのように仮定したモデルを用いる
ことで,データの性質をうまく利用でき,性能の向上
が期待できる.ただし,根本的に複数のイベントが時
間的に重なって起こっているようなデータに対しては,
このモデルはうまく機能しないと思われるので,デー
タの種類によっては別のモデルを用いるべきであろう.
ここで,我々の目的は良い要約を生成することであり,
正しい割当を推定することではないことをここで確認
しておく.
また,線形分割条件を課すことは,4.3 節で提案する
ような高速近似アルゴリズムを適用することが可能に
なるという利点もある.
4.3
線形分割条件付 p-メディアン問題のた
めの近似アルゴリズム
線形分割条件付 p-メディアン問題を解くための近似
アルゴリズムを提案する.このアルゴリズムは,よく
知られた k-平均法のように,すべてのエントリの代表
エントリへの再割当と,代表エントリの更新を繰り返
す.アルゴリズムの擬似コードはは次のようになる:
近似アルゴリズム
無作為に p 個の初期代表エントリを決定:dm1 , · · · , dmp
ただし,∀i ≤ j, t(dmi ) ≤ t(dmj ) とする.
while 代表エントリが更新される
for l = 1 to p
dml +1 , · · · , dml+1 −1 を各々dml か dml+1 に再割当
end for
for l = 1 to p
dml に割当てられたエントリのうち
最も良い代表エントリを選択
end for
end while
アルゴリズム中のエントリの再割当において,まず
次の hmax を見つけ:
hmax =
argmaxh:ml ≤h<ml+1
h
∑
j=ml
∑
ml+1
eml j +
eml+1 j ,
j=h+1
そして,dhmax とその左側のエントリを代表エントリ
dml に割当て,その右側のエントリを代表エントリ dml+1
に割当てる.上の hmax の発見は,動的計画法を用いる
ことで高速に実行することができる.これは,h + 1 に
おける目的関数値は,h における目的関数値に eml h+1 −
eml+1 h+1 を加算することで得られるからである.
03-5
アルゴリズム中の,代表エントリ dml に割当てられ
たエントリの中から,もっとも良い新たな代表エント
リを選択するステップは,単純に各エントリを代表エ
ントリとしたときの目的関数値を計算し,最大となる
ようなエントリを選ぶことで実現できる.
これらの繰り返しによって,目的関数値が非減少で
あることを示すのは容易である.よってこのアルゴリズ
ムは少なくとも局所最適解にたどりつくことがわかる.
5
関連研究
Sharifi ら [10] もマイクロブログの要約に取り組んだ
が,彼らの手法は,与えられたクエリを含む頻出単語列
パターンを見つけることで要約とするものである.生
成される要約は通常は平均的な単一エントリよりも短
く,またトピックの動的な移り変わりを捉えようとし
たものでない.よって問題設定と目的が我々のものと
は大きく異なる.
O’Connor ら [7] は,Twitter のための検索手法を提
案した.クエリを含む tweet(エントリ) の集合と共に,
その集合内の頻出単語を返し,また得られたエントリ
集合を各頻出単語を含むか否かでグループ化するとい
う特徴を持つ.Swan and Jensen [11] の試みは前述の
O’Connor らのものと似ている.Swan and Jensen の手
法は,単に頻出単語を見つけるのでなく,時間情報を
考慮した重要単語を見つける,彼らは提案手法を Topic
Detection and Tracking (TDT) コーパス [1] に適用し
ている.どちらの研究においても,その目的は要約を
生成するという我々の目的と異なる.
上述の Topic Detection and Tracking (TDT) タス
ク [1] は,文書が時間軸上に整列しているという点で,
我々の研究課題と関連がある.しかし,TDT は,時間
軸上に整列した文書群から同じトピックに関する文書
を発見するタスクであり,要約生成とは異なる.TDT
の技術は,我々の技術を適用する場合の前処理として,
同じトピックに関するエントリを集めるために応用で
きる可能性がある.
本研究課題は,データストリームクラスタリング [5]
と関連がある.もちろん,我々の目的はクラスタリン
グそのものでなく要約であるが,データストリームク
ラスタリングで開発された技術やアルゴリズムは本研
究課題の要素技術として利用できる可能性がある.今
後の発展の方向性として有望であろう.
最後に,要約とは直接関係がないが,マイクロブロ
グは今日多くの研究者により盛んに研究されているこ
とを付け加えておく [8, 9].
6
6.1
実験
マイクロブログストリーム要約の評価
指標
マイクロブログストリーム要約のための自動評価指
標を導入する.さて,前提条件として,正解要約が与
えられ,その正解要約の各部分も時間軸上に整列して
いるとする.すなわち,正解要約はいくつかのより短
い文書から成り,各短文書には時間軸上の時刻が付随
しているとする.
通常の文書要約においては,ROUGE[4] とよばれる
自動評価指標がよく知られている.ROUGE は,正解
要約に含まれる単語のうち,生成された要約に含まれ
るものの割合を表す.しかし,本研究課題においては
ROUGE は適切な評価指標とはいえない.それは,生
成要約に出現した単語が,時間的に離れた位置にある
正解要約の単語を内容的に被覆していると見なすこと
には本質的な誤りがあるからである.そこで,ここで
は ROUGE を修正したものを用いることにする.修正
版 ROUGE では,正解要約中の単語は,決められた時
間差内の生成要約にその単語が出現した場合にのみ被
覆されていると見なされる.この時間差は,本稿での
実験では 10 分としている.
修正版 ROUGE の計算には,内容語 (名詞,動詞,
形容詞) のみ用いた.また,“する”,“いる”,“なる”,
などのストップワードは ROUGE の計算には入れてい
ない.
6.2
データセット
二種類のデータセットを準備した.どちらもサッカー
の試合が中継されている時間帯のデータである.
一つ目のデータセットは,2010 年東アジア選手権に
おける日本代表の 2 試合 (日本対香港,日本対韓国)4 に
関する tweet のデータである.Twitter より提供され
ている Streaming API を用いて,これらの試合時間の
tweet(エントリ) を収集した.テキスト部分に日本語が
含まれているもののみを収集した.ほとんどのユーザ
はテレビ中継を視聴しながらエントリをポストしてい
ると考えられる.これらのサッカーの試合に関するエ
ントリは人手で分別された5 .
4 東アジア選手権では日本対中国の試合もあった.しかし,この
試合に関するエントリは後で述べるフィルタリングによって非常に
少数になってしまい,要約の実験のデータとして適切でないと考え
られたので採用しなかった.
5 我々は,サッカーの試合に関連するエントリをそれ以外のエン
トリから分類する問題に対して,教師付き分類手法も試した.交差
検定の結果,97.8%という高い分類正解率を記録した.今回の要約
実験では人手の分類結果を用いたが,自動分類を用いた場合でもそ
の後の処理に大きな影響を与えないであろう.
二つ目のデータセットは,2010 年 FIFA ワールドカッ
プのグループステージにおける日本代表の試合 (日本
対カメルーン,日本対オランダ,日本対デンマーク) に
関する日本語のエントリである.ここでも Streaming
API を用いたが,一つ目のデータの場合と異なり,試
合時間中にポストされたエントリで関連するハッシュ
タグ (#soccer, #jfa, #wc2010, #jfa2010, #daihyo,
#2010wc) が付けられているものを収集した.
このようにして集めたデータには,今回生成しよう
としている要約の要素として相応しくないエントリが
多く含まれている.例えば,叫び声だけのもの,日本人
選手の名前だけを連呼しているもの,省略によりその
エントリだけでは意味をなさないもの,などがある6 .
よって,選手名もしくはチーム名と,サッカー用語の両
方を含むものだけを要約処理の対象とするというフィル
タリングを施した.選手名とサッカー用語のリストは,
日本サッカー協会により運営されているサッカー日本
代表チームのウェブサイト (http://samuraiblue.jp)
を参考にして作成した.
フィルタリング前後のエントリ数を含むデータに関
する情報は表 1 にまとめた.東アジア選手権データの
エントリ数は,ワールドカップデータのエントリ数に
比較して,非常に小さい.これにはいくつかの要因が
あると考えられる.東アジア選手権データの収集には,
Streaming API の statuses/sample7 を用いた.これは,
エントリ集合全体からのランダムサンプルであり,サ
イズとしては全体の約 5%である.一方,ワールドカッ
プデータに対しては,Streaming API の statuses/filter
というキーワードフィルタを用いた.この場合は,エ
ントリ集合全体から集めることができるので,データ
量は大きくなると考えられる.別の理由としては,東
アジア選手権と比較してワールドカップは世間の注目
を多く集めたので,エントリがもともと多かったであ
ろうことが挙げられる.
表 1 からわかるように,フィルタリングによりエン
トリ数が大きく減少しているが,エントリを選択して
要約を生成する最適化問題は依然として困難な問題で
ある.特にワールドカップデータは,各試合について
数千個のエントリが残っており,この場合は厳密解は
求められない.
評価のための正解要約の作成方法について述べてお
く.正解要約の統計量は表 2 に示す.東アジア選手権
データについては,我々はフィルタリング後のエント
リ集合から人手でエントリを選択することで正解要約
を作成した.ワールドカップデータについては,サイ
ズが大き過ぎて人手でエントリを選択することは現実
的でないので,インターネット上のテキスト速報を正
6 そのようなエントリは,雰囲気や興奮度合いを伝えるなどの意
味では大きな手がかりとなる.しかしそれらは本稿での目的とは異
なる.
7 http://dev.twitter.com/pages/streaming_api
03-6
表 1: データの統計量
大会名
東アジア選手権
FIFA ワールドカップ
対戦国
香港
韓国
カメルーン
オランダ
デンマーク
表 2: 正解要約
対戦国
エントリ数
香港
7
韓国
8
カメルーン
26
オランダ
29
デンマーク
41
試合日程
2010 年 2 月 11 日
2010 年 2 月 14 日
2010 年 6 月 14 日
2010 年 6 月 19 日
2010 年 6 月 24 日
タがある (4.1 節).β としては 300,600,900(秒) を試
した.これらはそれぞれ 5 分,10 分,15 分に相当する.
線形分割条件無しで eij を用いる場合は,Takamura ら
[12] により提案された p-メディアン要約モデルとなる.
また,eij は,etime
において β = ∞ とした場合に相当
ij
することを確認しておく.
単語数
102
121
439
580
690
6.4.1
実験設定
の計算においては,各エントリは内容語
eij と etime
ij
の集合とみなされる.ただし,ストップワードは削除
し,内容語は基本形に変換した.
6.4
ワールドカップデータに対する実験
もう一つの実験はワールドカップデータに対して行
う.このサイズのデータに対して p-メディアン問題を
厳密に解くのは現実的に不可能であるので,4.3 節で提
案した近似アルゴリズムを用いる.
この近似アルゴリズムは線形分割条件付きの場合に
のみ適用可能である.一つ目の実験と同じように,最
大要約長は正解要約の長さとした.すなわち,日本対
カメルーンでは 26 エントリ,日本対オランダでは 29
エントリ,日本対デンマークでは 41 エントリである.
提案手法の有効性を示すため,次のような二つのベー
スライン手法を用意した:
解要約として用いた8 .
各エントリと正解要約に対する単語分割と品詞タグ
付けには,MeCab9 を用いた.
6.3
エントリ数
フィルタリング前 フィルタリング後
1024
110
2119
145
61666
2814
56976
3219
93336
5196
• random: p 個のエントリを無作為に選択する手
法である.ここで p は最大要約長である.結果は
生成される乱数に依存するので,我々はこの手法
を 100 回適用し,100 個の要約を生成し,それぞ
れの修正版 ROUGE の平均をこの手法のスコア
とする.この手法は無作為に選択するだけである
が,もしデータ中に類似したエントリがたくさん
あるならば,それらのエントリから選ばれる確率
は高くなる.
東アジア選手権データに対する実験
一つ目の実験は東アジア選手権データに対して行わ
れる.このデータセットは比較的小さいので,ILOG
CPLEX version 11.1 に実装されている分割統治法を用
いて p-メディアン問題の厳密解を求める.最大要約長
は,正解要約の長さとした.すなわち,日本対香港につ
いては 7 エントリ,日本対韓国については 8 エントリ
とした.これらの各試合について,線形分割条件無し
の p-メディアン要約モデルと,線形分割条件付きの pメディアン要約モデルをそれぞれ適用する.線形分割
条件無しの場合は,エントリ間係数として,eij と etime
ij
の両方を試す.etime
を用いる場合は β というパラメー
ij
• equal: エントリをポスト時刻に関して整列し,代
表エントリ間の間隔が等しくなるように p 個のエ
ントリを選択する.間隔は,時間でなくエントリ
数で測ることに注意してほしい.
8 http://mainichi.jp/enta/sports/soccer/10fwc/graph/
2010061402/
http://mainichi.jp/enta/sports/soccer/10fwc/graph/
2010061901/
http://mainichi.jp/enta/sports/soccer/10fwc/graph/
2010062403/
9 http://mecab.sourceforge.net/
6.5
結果
まず,東アジア選手権データセットに対する実験の
結果を報告する.結果は表 3 に示す.etime
を利用する
ij
03-7
表 3: 東アジア選手権データに対する p-メディアン要約モデルの修正版 ROUGE スコア.最大要約長はエントリ
数で与えられ,正解要約の長さと等しく設定した.
線形分割条件無
線形分割条件付
time
eij
eij
対戦国 最大要約長
–
β = 300 β = 600 β = 900
–
香港
7
0.273
0.545
0.545
0.455
0.545
8
0.382
0.588
0.412
0.412
0.588
韓国
ことで,要約の性能が向上していることがわかる.ま
た,実験を行った β = 300 から 900 の範囲では,etime
ij
の性能は安定して高い.線形分割条件の導入も要約性
能を向上させていることがわかる.エントリ間係数の
修正と線形分割条件の導入のどちらもマイクロブログ
ストリーム要約に効果的であることがわかった.その
二つのどちらが良いかという問いは,今回の結果から
は答えることができない.ただし,エントリ間係数の
修正の場合は β というパラメータを決定する必要があ
るが,線形分割条件を利用したモデルはパラメータを
決定する必要がないという点では優れているといえる.
東アジア選手権データのそれぞれの試合について,実
際の要約例を載せておく.以下にポスト時刻とテキス
ト部分を記す.
修正版 ROUGE スコアの観点から二つのベースライン
を上回っている.また,p-メディアン要約モデルが生成
した要約に含まれる内容語の数は,他と比較して少な
かったことを強調しておく.これは,etime
は 1/ci とい
ij
う長さについてのペナルティを与えられているからで
ある.例えば equal と比較すると平均的に 0.92 倍の数
の内容語しか含まなかった.つまり,提案手法である
p-メディアン要約モデルは,より少ない内容語で,正解
要約に含まれる内容語をより多く被覆したことになる.
また,近似アルゴリズムの平均計算時間は 79.38 秒で
あった10 .
日本対香港
時間軸上に整列した単一のトピックに関するマイク
ロブログエントリ群,マイクロブログストリーム,を要
約するという研究課題を新たに考え,その手法を提案し
た.データ分析により,テキスト上は類似していても,
時間的に離れたエントリは異なるイベントについて言
及していることがあることを確認した.また,あるイ
ベントに言及する場合も,いくらかの時間的遅れを伴っ
てポストすることも確認した.そして,マイクロブロ
グのこれらの特徴を考慮に入れた,要約モデルを提案
した.また,要約モデルを用いて要約を生成するため
の高速近似アルゴリズムも合わせて提案した.Twitter
から収集したサッカーの試合に関するエントリのデー
タにおける実験を通し,提案した要約モデルが要約の
質を向上させることを確認した.
今後の課題としては,まず提案手法のより詳細な評
価を行う必要があるだろう.人手の評価も合わせて行
うことも視野に入れている.また,サッカーの試合以
外のデータにも本手法を適用してみる予定である.例
えば,テレビドラマに関するエントリや,Ustream の
番組に関するエントリなどが,応用先として興味深い.
さらに,外国為替レートなどの経済指標も動的に変化
するので,それらに対するエントリも本手法の適用先
として考えている.モデルの改良という方向性では,エ
19:42:24
19:58:18
20:19:27
20:39:30
20:52:00
20:58:55
21:00:56
突破を図り、ファールを誘いました。玉田。
玉田は難しいゴール決めるなあ。
平山投入がはやいのが救いですな
闘莉王がゴール
平山、ナイス顔パス。
玉田得点!日本3点目!韓国戦が見たい…
闘莉王が敵のゴール前で良い位置にいるなぁ
平山が本来やるべきことなのにw
日本対韓国
19:19:39 稲本のボール奪取からのチャンスメイク
19:39:56 PK遠藤普通にキター
19:49:18 こんどは韓国にPK。あれは足出ちゃうよな
あ
20:03:41 2対1で負けてて、闘莉王が退場したぜ。
20:26:27 あ、韓国も1人退場。日韓戦は荒れるなあ。
20:32:02 日本人はホントにシュート打たないなあ。
20:36:29 韓国ってゴール前を死守するディフェンスう
まいな
21:08:58 負けたわ。結局攻撃力の低さがあだになって
る。成長しようよ日本。
次に,ワールドカップデータに対する実験の結果を
報告する.このデータセットはサイズが大きいので,pメディアン問題を厳密に解くことは困難である.よっ
て,4.3 節で提案した近似アルゴリズムを適用した場合
の結果のみを報告する.つまり,モデルとしては,線
形分割条件付きの p-メディアン問題を用いた.結果は
表 4 にまとめる.表が示すように,線形分割条件付き
の p-メディアン要約モデルは,すべての試合において,
7
結論
10 Perl
03-8
5.8.8 で実装した.
表 4: FIFA ワールドカップデータに対する p-メディアン要約モデルとベースライン手法の修正版 ROUGE スコ
ア.最大要約長はエントリ数で与えられ,正解要約の長さと等しく設定した.p-メディアン問題は近似アルゴリズ
ムを用いて解いた.
対戦国
最大要約長 random equal p-メディアン
カメルーン
26
0.145
0.173
0.200
オランダ
29
0.156
0.176
0.309
41
0.188
0.214
0.314
デンマーク
ントリ間係数の算出方法について調査する必要がある
だろう.
また別の方向性としては,マイクロブログストリー
ムの意見要約も考えている.現行の研究課題では,何
が起こったかについての要約を生成することを目的と
しているが,マイクロブログには多くの意見や感情が
表現されており,それらに着目して要約する技術も有
用性が高いだろう.
[8] Sasa Petrovic, Miles Osborne, and Victor
Lavrenko. Streaming first story detection with
application to twitter. In Proceedings of the 2010
Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL’2010), pages 181–189, Los Angeles,
California, June 2010. Association for Computational Linguistics.
[9] Alan Ritter, Colin Cherry, and Bill Dolan. Unsupervised modeling of twitter conversations. In
Proceedings of the 2010 Annual Conference of
the North American Chapter of the Association
for Computational Linguistics (NAACL’2010),
pages 172–180, Los Angeles, California, June
2010. Association for Computational Linguistics.
参考文献
[1] James Allan, Jaime Carbonell, George Doddington, Jonathan Yamron, Yiming Yang, Umass
Amherst, and James Allan Umass. Topic detection and tracking pilot study. In Proceedings of
the DARPA Broadcast News Transcription and
Understanding Workshop, pages 194–218, 1998.
[10] Beaux Sharifi, Mark-Anthony Hutton, and Jugal
Kalita. Summarizing microblogs automatically.
In Proceedings of the 2010 Annual Conference of
the North American Chapter of the Association
for Computational Linguistics (NAACL’2010),
pages 685–688, Los Angeles, California, June
2010. Association for Computational Linguistics.
[2] Zvi Drezner and Horst W. Hamacher, editors. Facility Location: Applications and Theory.
Springer, 2004.
[3] Juraj Hromkovič. Algorithmics for Hard Problems. Springer, 2003.
[11] Russell Swan and David Jensen. Timemines:
Constructing timelines with statistical models of
word usage. In Proceedings of the ACM SIGKDD
2000 Workshop on Text Mining, pages 73–80,
2000.
[4] Chin-Yew Lin. ROUGE: a package for automatic
evaluation of summaries. In Proceedings of the
Workshop on Text Summarization Branches Out,
pages 74–81, 2004.
[5] Alireza Rezaei Mahdiraji.
Clustering data
stream: A survey of algorithms. International
Journal of Knowledge-based and Intelligent Engineering Systems, 13:39–44, 2009.
[12] Hiroya Takamura and Manabu Okumura. Text
summarization model based on the budgeted median problem. In Proceedings of the 18th ACM
Conference on Information and Knowledge Management (CIKM 2009), short paper, pages 1589–
1592, November 2009.
[6] Inderjeet Mani. Automatic Summarization. John
Benjamins Publisher, 2001.
[7] Brendan O’Connory, Michel Krieger, and David
Ahn. Tweetmotif: Exploratory search and topic
summarization for twitter. In Proceedings of the
Fourth International AAAI Conference on Weblogs and Social Media, pages 384–385, 2010.
03-9