NTCIR-10 SpokenDoc-2 Spoken Term Detectionタスクの結果と知見

3-8-6
NTCIR-10 SpokenDoc-2 Spoken Term Detection タスクの結果と知見∗
○西崎博光 (山梨大)，秋葉友良 (豊橋技科大)，相川清明 (東京工科大)，
伊藤慶明 (岩手県立大)，河原達也 (京大)，胡新輝 (NICT)，中川聖一 (豊橋技科大)，
南條浩輝 (龍谷大)，山下洋一 (立命館大)
1
はじめに
過去 2 回の NTCIR (NII Testbeds and Community
for Information access Research) プロジェクトにお
いて，音声ドキュメント検索に関するタスクが実施
された．2013 年 6 月に開催された第 10 回 NTCIR
（NTCIR-10）では，音声ドキュメント検索に関する
タスク（SpokenDoc-2）として，音声中からの検索語
検出（Spoken Term Detection，STD）タスクと検索
語不検出（inexistent STD，iSTD）タスク，そして音
声内容検索（Spoken Content Retrieval，SCR）タス
クを実施した．
本稿では，STD および iSTD タスクに焦点を当て，
STD（iSTD）タスクの説明とテストコレクションの
設定，ならびに，タスクに参加したチームの評価結果
およびタスクを実施して得られた知見を述べる．な
お，本稿には，全ての結果や各参加チームのシステ
ムの説明，実験条件を掲載できないため，NTCIR-10
SpokenDoc-2 の overview paper[1]（現在オンライン
で閲覧可能）と併せてご覧いただければ幸いである．
2
STD タスク
NTCIR-10（NTCIR-9 でも同様）における STD タ
スクは，与えられた検索語（1 つの単語，あるいは複
数単語から成る複合語，以下クエリと示す) が，音声
ドキュメントの各発話に含まれているかいないかを
判別するタスクと定義している．また，情報処理学会
音声言語情報処理研究会音声ドキュメント処理ワー
キンググループが制定・公開している STD テストコ
レクションも NTCIR と同じ定義である [2]．これら
の定義は，アメリカ国立標準技術研究所（NIST）が
2006 年に実施した「2006 STD evaluation」[3] と若
干異なっている．NIST では，クエリが含まれている
音声中の正確な「位置」
（検索語の中心位置から± 0.5
秒の誤差まで許容）まで特定する必要があるが，実用
的には検索されたクエリの前後の区間の音声を聞い
て確認すると想定されるるため，NTCIR では発話単
位での検出で十分であるとした．NIST との比較につ
いては，文献 [2] で行われている．
一方で，iSTD タスクは今回の NTCIR-10 で始め
て導入されたタスクである．これは，クエリが検索対
象音声中に含まれていないことを確かめるタスクで
ある．例えばコールセンターで，ある特定の言葉を
∗
「言ったのか，言っていない」のかを確かめる需要が
あるが，こういったシーンでの応用を想定している．
NTCIR-10 での STD 関連タスクでは，以下の 3 つ
のサブタスクを実施した．
• large-size task（CSJ タスク）
• moderate-size task（SDPWS タスク）
• iSTD task（iSTD）タスク
各タスクにおけるテストコレクションの説明を次節
で行う．
3
テストコレクション
検索対象の音声コーパスは 2 種類用意している．1
つは，日本語話し言葉コーパス（CSJ），もう一方は，
第 1 回 ∼ 第 6 回までの音声ドキュメント処理ワー
クショップ（SDPWS）での学術研究発表講演音声で
ある．CSJ に含まれる，学会講演と模擬講演音声の
2,702 講演，約 602 時間の音声を検索対象とした．ま
た，SDPWS は 104 講演，約 28.6 時間の音声を対象
とした．
CSJ は，200ms のショートポーズで発話（Inter
Pausal Unit，IPU）毎に区切られているため，これ
を 1 つの発話単位として利用する．SDPWS も自動
的に発話単位に分割しており，この発話単位でクエリ
の検出・不検出を判断する．
3.1
音声認識
一般的な STD 研究では，検索対象音声を音声認識
し，単語もしくは音素等のサブワード系列に変換し
ておき，それに対する系列マッチングによって，クエ
リの有無を判断している．CSJ と SDPWS を合わせ
た約 630 時間にも及ぶ音声をタスク参加者が独自に
音声認識するのは大変な時間と労力が必要となるた
め，SpokenDoc-2 のタスクオーガナイザーで音声認
識結果を用意し，提供した．各音声コーパスに対し
て，音響モデル（AM）1 種類，言語モデル（LM）4
種類を用いて音声認識デコーダ Julius を利用して音
声認識を行なっている．各音声認識結果には，10-best
までの認識結果，コンフュージョンネットワーク，単
語（音節）ラティスの情報が含まれている．参加チー
Results and Findings Obtained through NTCIR-10 SpokenDoc-2 Spoken Term Detection Task. by
NISHIZAKI Hiromitsu (Univ. of Yamanashi), AKIBA Tomoyosi(Toyohashi Univ. of Tech.), AIKAWA
Kiyoaki (Tokyou Univ. of Tech.), ITOH Yoshiaki (Iwate Pref. Univ.), KAWAHARA Tatsuya (Kyoto
Univ.), XU Xinhui (NICT), NAKAGAWA Seiichi (Toyohashi Univ. of Tech.), NANJO Hiroaki (Ryukoku
Univ.) and YAMASHITA Yoichi (Ritsumeikan Univ.)
日本音響学会講演論文集
- 107 -
2013年9月
ムはこれらの情報を利用できる．また，各認識結果に
は音素・音節列表記の認識結果も含まれており，サブ
ワード単位での STD も行えるようになっている．
AM は CSJ から学習したトライフォン HMM を用
いている．また，4 種類の LM は，2 種類の認識単位
と 2 種類の学習データの組合せで実現している．
REF-WORD-MATCHED : CSJ の人手書き起
こしで学習した語彙サイズ 27k の単語トライグ
ラムによる認識結果
REF-WORD-UNMATCHED : 新聞記事で学習
した語彙サイズ 20k の単語トライグラムによる
認識結果
REF-SYLLABLE-MATCHED : CSJ の人手書
き起こしで学習した音節トライグラムによる認
識結果
REF-SYLLABLE-UNMATCHED : 新聞記事
で学習した音節トライグラムによる認識結果．
CSJ の音声を認識するために，CSJ の音声から学習
した LM と AM を利用しているが，これは認識デー
タに対してオープンな条件になるように学習してい
る [4]．CSJ を 2 分割し，一方を学習データ，もう一
方を認識データとすることで実現している．
本稿では，CSJ から学習した LM を単に “matched
条件”，新聞から学習した LM を “unmatched 条件”
と記す．音声認識率については文献 [1, 5] を参照いた
だきたい．なお，提供する音声認識結果は SCR タス
クと共通である．
最近では，IARPA の BABEL プロジェクトの影響
で，音響モデルや言語モデル等の学習データが十分に
ない（低資源）音声データに対する STD 研究が盛ん
になってきている [6]．そういった背景を鑑み，今回
の NTCIR では，検索対象の音声コーパスのドメイン
にマッチしていない新聞データから学習した LM を
用いた音声認識も用意している．
3.2
クエリセット
NTCIR-10 では，CSJ タスク，SDPWS タスク，
iSTD タスクの 3 つのタスクを制定している．CSJ
タスクでは，100 個のクエリを用意した．このうち，
CSJ の音声認識辞書を基準としたときの未知語のク
エリは 54 種類（総出現数 844），既知語は 46 種類
（総出現数は 953）である．
一方，SDPWS タスクと iSTD タスクは，共有のク
エリセットとした．SDPWS タスク用の 100 個のクエ
リと iSTD タスク用の 100 個のクエリ，合わせて 200
個のクエリセットとなっている．SDPWS タスク用の
クエリ 100 個のうち，未知語のクエリは 53 種類（総
出現数 480），既知語は 47 種類（総出現数 458）であ
る．iSTD 用のクエリは，当然，SDPWS 音声に含ま
れていない単語（フレーズ）である．
クエリは 1∼ 数単語で構成され，いずれのテスト
セットにおいても 1 クエリの長さは 3 モーラから 18
モーラとなっている．また，日本語の場合，漢字仮名
日本音響学会講演論文集
表記とその読み方はほぼ 1 対 1 で対応するため，ク
エリには発音表記を付与している．
3.3
参加者が提出する情報
CSJ タスクならびに SDPWS タスク参加者には，
検索結果としてクエリ毎に以下の情報を提出するこ
とを求めた．
• IPU 情報（ドキュメント ID と IPU ID）
• 検出スコア
• 参加チームが独自で設定した検出スコアの閾値
に基づく検出判定結果
• インデックスのサイズ
• 検索時間（CPU 時間）
STD タスクでは，高速化や少メモリ化の研究も盛んに
行われており，NTCIR ではインデックスサイズ（消
費メモリ量）や検索速度も性能比較対象とする．その
ため，参加チームはこれらの情報も提出する．なお，
SDPWS タスクでは，100 個の iSTD 用クエリも含ま
れており，参加者はどのクエリが iSTD クエリなのか
知らされていない．そのため，200 個のクエリに対す
る STD 結果を提出してもらい，結果の集計は 100 個
のクエリのみで行なっている．
iSTD タスクでは，STD タスクとは異なる．タスク
参加チームは，クエリ内の各検索語が，SDPWS のい
ずれかの講演音声内に実在しているか，していない
かを判定する．そして，各検索語の判定結果と「その
検索語が音声ドキュメント集合に含まれていない尤
もらしさのスコア」を結果として提出する．スコアの
とりうる範囲は 0.0 ∼ 1.0 となることが望ましいと
した (例えば，ある検索語が含まれていないと考えら
れるときはスコアは 1.0 に近くなるはずである)．参
加チームは，判定結果のスコアの高い順に検索語を
ソートし，そのリストを提出する．リストには，クエ
リ ID，スコア，参加チームが独自で設定したスコア
の閾値に基づいた検出判定結果を含める．
3.4
評価尺度
STD の評価尺度には，マイクロ平均（クエリの種類
に関わらず全ての検出結果に基いて算出）での RecallPrecision カーブにおける最大の F 値，参加チームが
独自で判断した検出スコアの最適閾値に基づく F 値，
さらにマクロ平均（クエリ毎の結果をクエリの種類
数で平均）尺度である平均適合率（MAP）である．
一方で，iSTD タスクの評価は，Recall-Precision
カーブ，カーブにおける最大の F 値，参加チームが
独自で判断したスコアの閾値に基づく F 値，上位 100
位（iSTD クエリは 100 個であるため）以上の結果を
対象にした F 値である．
4
4.1
評価結果
参加チーム
参加チームは全部で 8 チームであった．CSJ タス
クには 5 チームが参加し，計 21 個 (+3 個のベース
- 108 -
2013年9月
4.2
ϭϬϬ
>Ͳϯ
ϵϬ
>W^Ͳϭ
E</ϭϯͲϭ
^,hͲϮ
ϳϬ
d&ͲϮ
STD タスク
ϲϬ
ϱϬ
ϰϬ
ϯϬ
2
1 NTCIR-10 Conference Proceedings: http://research.
nii.ac.jp/ntcir/workshop/OnlineProceedings10/NTCIR/
toc ntcir.html#SPOKENDOC
2 各チームの提案手法において最も良い性能の run．
3 どの run がどの認識結果を利用しているのかについての詳細
は文献 [1] を参照．
ϮϬ
ϭϬ
Ϭ
Ϭ
ϭϬ
ϮϬ
ϯϬ
ϰϬ
ϱϬ
ϲϬ
ϳϬ
ϴϬ
ϵϬ
ϭϬϬ
ZĞĐĂůů΀й΁
Fig. 1
Recall-Precision curves of the CSJ task.
ϭϬϬ
>Ͳϯ
ϵϬ
ĂŬďůͲϭ
>W^Ͳϭ
ϴϬ
/tWhͲϭ
ŶŬŝϭϯͲϰ
ϳϬ
E<'tͲϮ
WƌĞĐŝƐŝŽŶ΀й΁
Table 1，2 に，各チームの主要 run の結果とベー
スラインの結果を示す．また，Fig. 1，2 に対応する
Recall-Precision カーブを示す．ベースライン手法は，
音声認識結果の音素列に対する DTW マッチング（編
集距離を利用）である．Table 1 と Fig. 1 は CSJ タ
スク，Table 2 と Fig. 2 は SDPWS タスクの結果であ
る．どの run がどのような条件の音声認識結果を利
用したのかについては，文献 [1] を確認いただきたい．
まず，得られた結果から分かることは，複数の音声
認識システムの音声認識結果を利用しているチーム
の STD 性能が総じて高いことが分かる．全ての参加
チームは，クエリと音声認識結果とのサブワード単
位でのマッチングを行なっており，複数の音声認識結
果の多様性がクエリとのマッチングを可能にしたと
言える．
また，今回の NTCIR-10 では，unmatched 条件の
モデルで認識した結果を提供している．CSJ タスクに
おいて，unmatched 条件の単語・音節認識結果を利用
した run の STD 性能が高いことが分かった3 ．一方で，
SDPWS タスクに対しては，unamtched 条件の音声
認識結果の利用はほとんど効果がない．これを未知語
の観点から分析する．CSJ タスクでは matched 条件
の LM に対しては 54 のクエリが未知語クエリであっ
たが，unmatched 条件と併用すると未知語クエリが
41 に大きく減少する．一方で，SDPWS タスクにつ
いては，matched 条件の未知語クエリが 53 だったの
に対して unmatched 条件を含めても未知語クエリは
3 つ減るだけであった．今回の CSJ タスクでは，異な
るドメインから学習した LM を用いることで，未知語
クエリを減らし STD 性能の改善に繋がったと言える．
さらに，CSJ タスクでの unmatched 条件の LM に対
する未知語は 56 クエリであったが，これらのクエリ
の平均モーラ長は 7.4 モーラであり，これは matched
条件の未知語 54 種類の平均モーラ長 (6.8 モーラ) よ
りも長いことから，検出が比較的容易になったことも
要因として考えられる．以上のことから，STD の性
能は未知語クエリと既知語クエリの区別に敏感であ
り，STD 性能を改善する 1 つの方法として，できる
だけ未知語を減らすような音声認識が必要であるこ
とが分かった．
また，各参加チームが利用した認識結果の種類と，
日本音響学会講演論文集
ĂŬďůͲϭ
ϴϬ
WƌĞĐŝƐŝŽŶ΀й΁
ライン) の結果（以下これを “run” と記す）が提出さ
れた．SDPWS タスクには 8 チームが参加し計 24 個
（+3 個のベースライン）の run が提出された．iSTD
タスクには 4 チームが参加し，15 個（+3 個のベース
ライン）の run が提出されている．
なお，各参加チームの提案手法については，NTCIR10 のプロシーディングスをご覧頂きたい1 ．
ϲϬ
^,hͲϭ
d&ͲϮ
ϱϬ
z>Ͳϭ
ϰϬ
ϯϬ
ϮϬ
ϭϬ
Ϭ
Ϭ
ϭϬ
ϮϬ
ϯϬ
ϰϬ
ϱϬ
ϲϬ
ϳϬ
ϴϬ
ϵϬ
ϭϬϬ
ZĞĐĂůů΀й΁
Fig. 2
Recall-Precision curves of the SDPWS task.
既知語／未知語クエリ別の性能を調査してみると，既
知語の STD には単語認識結果を利用した方が良さそ
うであること，未知語の STD は単語認識結果に基づ
くサブワード列を利用するよりも音節認識結果を利
用した方が良い結果が得られることが分かった．この
ことから，単語認識結果と音節認識結果の併用によっ
て STD 性能を大きく改善できそうである．
最後に，SDPWS のように音声認識が比較的難しい
タスクは，
（音声認識の枠組みを利用している限りに
おいて）STD が難しくなるが，音響的な評価を導入
している run（例えば “IWAPU-1”）は高い性能を得
られている．このように認識エラーに対してロバス
トに対処できる枠組みを導入することで STD 性能の
向上が期待できる．
4.3
iSTD タスク
表 3 に各チームが提出した最良の run の iSTD 結果
のみをまとめた（全結果は文献 [1] を参照）．各チーム
ともに STD タスクで利用した STD エンジンを基と
しているため，STD タスクの性能に連動する結果に
なっていることが分かる．SDPWS 音声に対する STD
タスクは CSJ と比べると困難であったが，iSTD タ
スクではベースラインを含めて全体的に高い性能が
- 109 -
2013年9月
run ID
BL-3
akbl-1
ALPS-1
nki13-1
SHZU-2
TBFD-2
run ID
BL-3
akbl-1
ALPS-1
IWAPU-1
NKGW-2
nki13-2
SHZU-1
TBFD-1
YLAB-1
Table 1 STD performances of each submission on the large-size task.
micro ave.
macro ave.
index
search
max. F [%] spec. F [%] max. F [%] spec. F [%] MAP size [MB] speed [s]
54.25
50.46
46.79
43.95
0.532
116
560
39.74
33.76
39.09
37.34
0.490
17250
0.0633
58.19
57.38
62.24
50.39
0.717
60
226.4
60.90
57.00
60.79
59.58
0.673
183.3
0.00296
51.14
44.20
48.27
46.93
0.510
118
13.59
65.62
65.62
63.63
63.63
0.551
3400
0.0881
Table 2 STD performances of each submission on the moderate-size task.
micro ave.
macro ave.
index
search
max. F [%] spec. F [%] max. F [%] spec. F [%] MAP size [MB] speed [s]
39.36
39.16
33.73
32.46
0.393
6.6
30.8
20.71
13.48
25.79
21.29
0.343
1120
0.00399
46.33
42.83
52.33
39.20
0.606
45
6.06
31.37
17.27
44.49
43.74
0.675
657
2.0
33.33
27.92
32.33
23.23
0.382
2900
0.165
40.24
39.73
39.97
38.29
0.456
15.6
0.000860
28.62
27.75
29.25
27.44
0.337
6
0.525
39.69
39.15
40.70
40.70
0.336
218
0.0425
24.10
24.04
21.57
19.93
0.221
—
569.6
num. of
ASRs
2
1
10
2
1
4
num. of
ASRs
2
1
10
4
1
3
2
4
1
Table 3 iSTD performances. (*1) Recall, precision and F-measure rates calculated by top-100-ranked
outputs. (*2) Recall, precision and F-measure rates calculated by using outputs which is speciﬁed by each
participant. (*3) Recall, precision and F-measure rates calculated by top-N-ranked outputs. N is set to
obtain the muximum F-measure.
Rank 100∗1
Speciﬁed∗2
Maximum∗3
run ID
R [%] P [%] F [%] R [%] P [%] F [%] rank R [%] P [%] F [%] rank
BL-3
75.00 75.00 75.00 81.00 70.43 75.35 115
90.00 68.18 77.59 132
akbl-1
72.00 72.00 72.00 89.00 66.92 76.39 133
95.00 65.97 77.87 144
ALPS-1
82.00 82.00 82.00 82.00 82.00 82.00 100
85.00 80.19 82.52 106
TBFD-6 74.00 74.00 74.00 70.00 74.47 72.16
94
88.00 73.33 80.00 120
YLAB-1 62.00 62.00 62.00 48.00 67.61 56.14
71
89.00 61.38 72.65 145
得られている．全 run 中最良の結果である “ALPS-1”
のシステムは F 値が 82%で，これは 100 の「発話さ
れていないターム」のうち約 8 割強については，不検
出を特定できている．本タスクは 4 チームの参加に
とどまり，詳細な分析が難しいが，複数の認識結果を
利用したシステムの結果が，単独に認識結果のみしか
利用したいないシステムよりも良好である．複数の
認識システムの結果を利用すると，誤検出が増加し，
それにともなってクエリの誤検出も増えると予想で
きるが，その影響は少ないようである．
5
おわりに
本稿では，NTCIR-10 SpokenDoc-2 タスクにおけ
る STD（iSTD）タスクについての説明と，Overview
論文に掲載できなかった参加チームの結果から得ら
れた知見について述べた．STD タスクでは，複数の
音声認識結果を利用すること，学習データが異なる
日本音響学会講演論文集
言語モデル・認識辞書を利用することでクエリを既知
語化することによって検索性能が改善することが分
かった．
参考文献
[1] T. Akiba et al., NTCIR-10 Conference, 573587, 2013.
[2] 伊藤他, 情報処理学会論文誌, 54 (2), 471-483,
2013.
[3] NIST,
http://www.itl.nist.gov/
iad/mig/tests/std/2006/docs/
std06-evalplan-v10.pdf
[4] 西崎他，情報処理学会研究報告 (SLP)，2010SLP-81(13)，1-8, 2010.
[5] 秋葉他，音講論（秋），3-8-7，2013.
[6] R. Prabhavalkar et al., ICASSP2013, 82878291, 2013.
- 110 -
2013年9月

Download Report