論文のステアリング性能

1-8-7
DOA-HMM ʹ‫ͮ͘ج‬ҠಈԻ‫ݯ‬ͷྼܾఆϒϥΠϯυԻ‫ݯ‬෼཭ ∗
ˑඉ‫࠸୎ޱ‬ɼߴफయ‫ݰ‬ɼதଜ༑඙ɼُԬ߂࿨ (౦େ৘ใཧ޻)
1
प೾਺෼ղΛ༻͍Δͱɼ৞ΈࠐΈࠞ߹Λۙࣅతʹॠ
͸͡Ίʹ
࣌ࠞ߹Ͱද͢͜ͱ͕Ͱ͖Δɻ͜ͷ‫؍‬ଌ৴߸Ϟσϧʹ
ຊߘͰ͸ɼҠಈԻ‫ݯ‬Λର৅ͱͨ͠ྼܾఆϒϥΠϯυ
Ի‫ݯ‬෼཭ͷ໰୊Λѻ͏ɻϒϥΠϯυԻ‫ݯ‬෼཭ (Blind
Source Separation; BSS) ͱ͸ɼԻ‫͔ݯ‬Β‫؍‬ଌ৴߸·
Ͱͷ఻ୡಛੑ͕ະ஌Ͱ͋Δ৔߹ʹɼෳ਺ͷԻ੠͕ࠞ
߹ͨ͠৴߸͔Β‫ݩ‬ͷԻ੠৴߸Λ෼཭͢Δٕज़Ͱ͋Δɻ
ྫ͑͹ɼձٞʹ͓͍ͯෳ਺ͷԻ੠৴߸ͷࠞͬͨ͡࿥Ի
σʔλ͔Βձٞ࿥Λࣗಈ࡞੒ͨ͠ΓɼϩϘοτʹपғ
ͷԻ‫ڥ؀‬Λೝࣝ͢Δ‫ػ‬ೳΛඋ͑ͤ͞Δ༻్΁ͷԠ༻
͕‫ظ‬଴͞Ε͍ͯΔɻ
BSS Ͱ͸‫؍‬ଌ৴߸͔ΒԻ‫ݯ‬৴߸ͱͦͷࠞ߹աఔΛ
ਪఆ͢Δඞཁ͕͋ΔͨΊɼ௨ৗ͸Ի‫ݯ‬΍ͦͷࠞ߹աఔ
ʹରͯ͠ԿΒ͔ͷԾఆΛஔ͖ɼͦͷԾఆʹΑΓཱͯΒ
ΕΔ‫ن‬४Λ΋ͱʹະ஌ม਺Λਪఆ͢Δ࠷దԽ໰୊ͱ
ͯ͠ఆࣜԽ͞ΕΔɻྫ͑͹ɼBSS ʹ͓͍ͯ‫؍‬ଌ৴߸਺
͕Ի‫਺ݯ‬ΑΓ΋ଟ͍༏ܾఆ໰୊Ͱ͸ɼԻ‫ݯ‬৴߸ؒͷಠ
ཱੑΛԾఆͯ͠෼཭͢Δಠཱ੒෼෼ੳ (Independent
Component Analysis; ICA) ͕༗༻Ͱ͋Δ͜ͱ͕஌Β
Ε͓ͯΓɼԻ‫ݯ‬৴߸ؒͷಠཱੑΛ࠷େԽ͢ΔΑ͏ʹ෼
཭ϑΟϧλΛਪఆ͢Δ͜ͱ͕໨తͱͳΔ [1]ɻ͔͠͠ɼ
ICA Ͱ͸‫؍‬ଌ৴߸਺͕Ի‫਺ݯ‬ΑΓ΋গͳ͍ྼܾఆ໰
୊Λѻ͏͜ͱ͸Ͱ͖ͣɼ͜ͷ৔߹͸ಠཱੑΑΓ΋͞Β
ʹ‫͍ڧ‬Ծఆ͕ඞཁͰ͋Δɻ
Ի੠Λର৅ͱͨ͠ྼܾఆ BSS Ͱ͸ɼԻ੠ͷ࣌ؒप
೾਺੒෼ͷεύʔεੑΛར༻ͨ͠Ξϓϩʔν͕༗ޮ
Ͱ͋Δ͜ͱ͕஌ΒΕ͍ͯΔ [2–9]ɻԻ੠ͷεύʔεੑ
ͱ͸ɼԻ੠৴߸ͷ࣌ؒप೾਺੒෼͕΄ͱΜͲͷ࣌ؒ
प೾਺఺ʹ͓͍ͯ΄΅ 0 ͱͳΔੑ࣭Ͱ͋Δɻ͜ͷੑ
࣭ʹΑΓɼෳ਺ͷԻ੠͕ಉ࣌ʹൃ࿩͞Εͨঢ়‫Ͱگ‬΋ɼ
֤Ի੠ͷ༏੎ͳ࣌ؒप೾਺੒෼͕‫ͱ΄ʹ͍ޓ‬ΜͲॏ
ͳΓ߹Θͳ͍ͱԾఆͰ͖Δ৔߹͕ଟ͍ɻΑͬͯɼνϟ
ωϧؒͷҐ૬΍ৼ෯ͷҧ͍౳Λखֻ͔Γͱ֤ͯ࣌͠
ؒप೾਺఺ͰͲͷԻ‫࠷͕ݯ‬΋༏੎Β͍͔͠ΛਪఆͰ
͖Ε͹ɼ໨తͷԻ੠৴߸ͷΈΛ௨աͤ͞Δ࣌ؒप೾
਺ϚεΫΛઃ‫͢ܭ‬Δ͜ͱͰ෼཭৴߸ΛಘΔ͜ͱ͕Ͱ
͖Δɻ
Ҏ্ͷԻ੠ͷεύʔεੑΛ‫؍‬ଌ৴߸ͷϞσϧʹ૊
ΈࠐΉͨΊʹ͸ɼ‫؍‬ଌ৴߸ͷϞσϧΛ࣌ؒप೾਺ྖ
ҬͰఆࣜԽ͢Δඞཁ͕͋Δɻ௨ৗɼ֤ϚΠΫϩϑΥϯ
ͷ‫؍‬ଌ৴߸͸Ի‫ݯ‬৴߸ͷ࣌ؒ஗ΕΛ‫ؚ‬Ή৞ΈࠐΈࠞ
߹Ͱද͞ΕΔ͕ɼԻ‫͔ݯ‬ΒϚΠΫϩϑΥϯ·ͰͷΠϯ
ύϧεԠ౴௕ʹରͯ͠े෼ʹ௕͍࣌ؒ૭Λ΋ͭ࣌ؒ
∗
‫ ͮ͘ج‬BSS ͸प೾਺ྖҬ BSS ͱ‫ݺ‬͹Εɼ࣌ؒྖҬͷ
BSS ʹରͯ͠ԋࢉྔͷগͳ͍ΞϧΰϦζϜΛ࣮‫Ͱݱ‬
͖Δ఺΍ɼԻ੠ͷεύʔεੑΛ૊ΈࠐΊΔ఺ͳͲಛ
௃͕͋ΔҰํͰɼप೾਺͝ͱʹ෼཭ͨ͠৴߸ΛԻ‫ݯ‬
͝ͱʹάϧʔϐϯά͢Δύʔϛϡςʔγϣϯ੔߹ͱ‫ݺ‬
Ϳ໰୊Λղܾ͢Δඞཁ͕͋Δɻ
ຊ‫ڀݚ‬ͷ໨త͸ɼ֤Ի‫͕ݯ‬Ҡಈͨ͠৔߹ʹ΋Ի‫ݯ‬
ҐஔΛ௥੻͠ͳ͕Βద੾ʹԻ‫ݯ‬෼཭Λߦ͑Δख๏Λ
࣮‫͢ݱ‬Δ͜ͱͰ͋Δɻզʑ͸ҎલɼԻ‫ݯ‬౸དྷํ޲Λ཭
ࢄ஋ͷજࡏม਺ͱѻ͍ɼͦͷࠞ߹ϞσϧʹΑΓ֤Ի‫ݯ‬
ͷεςΞϦϯάϕΫτϧΛ֬཰ϞσϧԽ͠ɼ‫؍‬ଌ৴߸
ͷੜ੒Ϟσϧʹ૊ΈࠐΉ͜ͱͰύϥϝʔλਪ࿦Λ௨
ͯ͠ύʔϛϡςʔγϣϯ੔߹ͱप೾਺ྖҬ BSS Λಉ
࣌ʹߦ͏ΞϓϩʔνΛఏҊͨ͠ [8] (ͳ͓ɼ΄΅ಉ࣌
‫ʹظ‬େ௩ΒʹΑͬͯ΋ྨࣅͨ͠Ξϓϩʔν͕ఏҊ͞
Ε͍ͯΔ [9])ɻຊߘͰ͸͜ΕΛ֦ு͠ɼ࣌ؒมԽ͢Δ
֤Ի‫ݯ‬ͷεςΞϦϯάϕΫτϧΛɼ཭ࢄԽ͞Ε֤ͨ֯
౓Λঢ়ଶͱ͢ΔӅΕϚϧίϑϞσϧ (Hidden Markov
Model; HMM) ʹΑΓ֬཰ϞσϧԽ͠ɼ‫؍‬ଌ৴߸ͷੜ
੒Ϟσϧʹ૊ΈࠐΈɼύϥϝʔλਪ࿦Λ௨ͯ͠ύʔ
ϛϡςʔγϣϯ੔߹ɼ֤ҠಈԻ‫ݯ‬ͷ౸དྷํ޲௥੻ɼप
೾਺ྖҬ BSS Λಉ࣌ʹߦ͏ख๏ΛఏҊ͢Δɻ
2
‫؍‬ଌϞσϧ
I ‫ݸ‬ͷԻ‫͔ݯ‬Β౸དྷ͢Δ৴߸Λ M ‫ݸ‬ͷϚΠΫϩ
ϑΥϯͰ‫؍‬ଌ͢Δ৔߹Λߟ͑ɼm ൪໨ͷϚΠΫϩϑΥ
ϯͰ‫؍‬ଌ͞ΕΔ৴߸ͷ࣌ؒप೾਺੒෼Λ ym (ωk , tl )ɼ
i ൪໨ͷԻ‫ݯ‬৴߸ͷ࣌ؒप೾਺੒෼Λ si (ωk , tl ) ͱ
͠ɼy(ωk , tl ) = (y1 (ωk , tl ), . . . , yM (ωk , tl ))T ∈ CM ,
s(ωk , tl ) = (s1 (ωk , tl ), . . . , yI (ωk , tl ))T ∈ CI ͱ͢Δɻ
ͨͩ͠ɼ1 ≤ k ≤ K, 1 ≤ l ≤ L ͸࣌ؒप೾਺ྖҬʹ
͓͍ͯͦΕͧΕप೾਺͓Αͼ࣌ؒʹରԠ͢ΔΠϯσο
ΫεͰ͋Δɻઌʹड़΂ͨ௨Γɼ࣌ؒप೾਺ྖҬʹ͓͍
ͯ‫؍‬ଌ৴߸ y(ωk , tl ) ͸ۙࣅతʹ
y(ωk , tl ) =
I
X
ai (ωk )si (ωk , tl ) + n(ωk , tl )
(1)
i=1
ͷΑ͏ʹ s1 , . . . , sI ͷॠ࣌ࠞ߹ͷ‫Ͱܗ‬ද͢͜ͱ͕Ͱ
͖Δɻ͜͜Ͱɼai (ωk ) ͸Ի‫ ݯ‬i ͷεςΞϦϯά (ํ
޲) ϕΫτϧΛද͠ɼ͜ΕΛฒ΂ͨߦྻ A(ωk ) =
Underdetermined blind separation of moving sound sources based on DOA-HMM. by HIGUCHI Takuya,
TAKAMUNE Norihiro, NAKAMURA Tomohiko, KAMEOKA Hirokazu (Graduate School of Information
Science and Technology, The University of Tokyo)
日本音響学会講演論文集
- 23 -
2013年9月
(a1 (ωk ), . . . , aI (ωk )) ∈ CM ×I Λࠞ߹ߦྻͱ‫Ϳݺ‬ɻ
n(ω, t) ͸എ‫ࡶܠ‬Ի΍ϑϨʔϜ௕Λ௒͑Δ࢒‫ڹ‬੒෼ͳ
ͲͰ͋ΔɻԻ੠ͷεύʔεੑΛԾఆ͠ɼ֤࣌ؒप೾਺
఺ (ωk , tl ) ʹ͓͍ͯΞΫςΟϒͰ͋ΔԻ‫ݯ‬ͷΠϯσο
ΫεΛ zk,l ∈ {1, . . . , I} ͱද͢ͱɼࣜ (1) ͸
y(ωk , tl ) = azk,l (ωk )s(ωk , tl ) + n(ωk , tl )
(2)
Δɻͦ͜ͰɼԻ‫ ݯ‬i ͷ౸དྷํ޲ θi ͕‫ط‬஌ͷͱ͖ɼai,k
͸ h(θi , ωk ) Λฏ‫ͨ͠ͱۉ‬ෳૉਖ਼‫ن‬෼෍ΑΓੜ੒͞Ε
ΔͱԾఆ͢Δɻ͔͠͠౰વͳ͕Β౸དྷํ޲ θi ͸࣮ࡍ
ʹ͸‫؍‬ଌ͢Δ͜ͱ͕Ͱ͖ͳ͍ͨΊɼ͜ΕΛજࡏม਺
‫͢ʹͱ͜͢ͳݟ‬Δͱɼai,k ͷੜ੒Ϟσϧ͸ DOA Λજ
ࡏม਺ͱͨࠞ͠߹ϞσϧͱͳΔɻ͜ΕΛ 3.1 અͷੜ੒
Ϟσϧʹ૊ΈࠐΈɼੜ੒Ϟσϧશମͷύϥϝʔλਪ
࿦Λߦ͏͜ͱ͸ɼύʔϛϡςʔγϣϯ੔߹ɼ֤Ի‫ݯ‬ͷ
ͷΑ͏ʹॻ͖௚ͤΔɻ͜ͷ‫؍‬ଌϞσϧ͓͍ͯ͸ɼ֤
࣌ؒप೾਺఺ʹ͓͍ͯ zk,l ൪໨ͷԻ‫ݯ‬Ҏ֎ͷ੒෼͸
͢΂ͯ 0 ͱԾఆ͞Εͨ͜ͱʹͳΔɻै֤ͬͯ࣌ؒप
೾਺ͰԻ‫ݯ‬੒෼Λද͢ม਺͸ zk,l ͷΈͰे෼Ͱ͋Γɼ
͜ͷͨΊ্ࣜͰ͸ si (ωk , tl ) ͷΠϯσοΫε i Λল͍
͍ͯΔɻ͢ͳΘͪ s(ωk , tl ) ͸֤࣌ؒप೾਺఺ʹ͓͍
ͯΞΫςΟϒͳ͍ͣΕ͔ͷԻ‫ݯ‬ͷ੒෼Λද͢ม਺ͱ
ͳΔɻҎ‫ࢴޙ‬໘ͷεϖʔεͷઅ໿ͷͨΊɼωk ͱ tl Λ
Լ෇͖ఴ͑ࣈ k, l Ͱද‫͢ه‬Δ͜ͱʹ͢Δɻ
DOA ਪఆɼप೾਺͝ͱͷԻ‫ݯ‬෼཭Λ‫ڠ‬ௐతʹߦ͏͜
ͱʹ૬౰͢Δ [8]ɻ
·ͣɼϑ1 , . . . , ϑD (͢΂ͯఆ਺) ͔ΒͳΔ D ‫ݸ‬ͷ
DOA ީิͷू߹Λ༻ҙ͢Δɻྫ͑͹ 180 ౓Λ D ౳
෼ͨ֯͠౓ ϑd = (d − 1)π/D, (d = 1, . . . , D) ͷू߹
Λߟ͑Δɻ֤Ի‫ݯ‬ͷ DOA ͕͜ͷ DOA ީิ஋ͷத͔
Βܾఆ͞ΕΔͱԾఆ͢ΔͱɼԻ‫ ݯ‬i ͷ౸དྷํ޲ θi ͕
ੜ੒͞ΕΔϓϩηε͸ҎԼͷΑ͏ʹ‫ه‬ड़Ͱ͖Δɻ
ci |ρi ∼ Categorical(ci ; ρi )
3
(5)
ੜ੒Ϟσϧ
θ i = ϑc i
3.1
(6)
‫؍‬ଌ৴߸ͷੜ੒ϓϩηε
‫؍‬ଌϞσϧΛ΋ͱʹɼ‫؍‬ଌ৴߸͕ੜ੒͞ΕΔϓϩ
ηεΛੜ੒ϞσϧʹΑΓ‫ه‬ड़͢Δɻ
(n)
·ͣɼࡶԻ੒෼ nk,l ͕ɼฏ‫ ͕ۉ‬0ɼ‫ڞ‬෼ࢄ͕ Σk
ͷෳૉਖ਼‫ن‬෼෍ʹै͏ͱԾఆ͢Δͱɼ΋͠ a1:I,k =
{a1,k , . . . , aI,k } ,sk,l ͓Αͼ zk,l ͕‫ط‬஌Ͱ͋Ε͹ɼࣜ
(2) ΑΓ yk,l ͸
(n)
yk,l |a1:I,k,l , sk,l , zk,l ∼ NC (azk,l ,k sk,l , Σk )
(3)
P
yd = 1 ͱ͢Δ
ͱɼCategorical(x; y) ∝ yx Ͱ͋Δɻ·ͨɼρi =
(ρi,1 , . . . , ρi,D ) Ͱ͋Δɻci ∈ {1, . . . , D} ͸ i ൪໨ͷ
Ի‫Ͳʹݯ‬ͷ DOA ީิ஋ׂ͕Γ౰ͯΒΕΔ͔Λද͢
Πϯδέʔλม਺Ͱ͋Γɼ্ࣜ͸͜Ε͕཭ࢄ෼෍ (֤
֬཰஋͕ ρi,1 , . . . , ρi,D ) ͔Βੜ੒͞ΕΔ͜ͱΛҙຯ͠
͍ͯΔɻ͜ͷϓϩηεʹΑΓ֤Ի‫ݯ‬ͷ DOA ͕ܾఆ͞
Εɼ఻ୡप೾਺ಛੑ ai,k ͸
ͨͩ͠ɼy = (y1 , . . . , yD ),
d
(a)
ʹΑΓੜ੒͞ΕΔɻ͜͜Ͱɼzk,l Λ཭ࢄ஋ͷજࡏม਺ͱ
ai,k |ci ∼ NC (ai,k ; h(ϑci , ωk ), Σk )
‫ͤͳݟ‬͹ɼyk,l ͷ֬཰෼෍͸ࠞ߹ਖ਼‫ن‬෼෍ͱͳΔ [6,7]ɻ
࿨ઘΒ͸ɼ͜ͷ֬཰Ϟσϧʹ‫͖ͮج‬ɼExpectation-
ʹΑΓੜ੒͞ΕΔɻ
Maximization (EM) ΞϧΰϦζϜʹΑΓ࠷໬ͷ࣌ؒप
೾਺ϚεΫΛਪఆ͢ΔΞϓϩʔνΛఏҊ͍ͯ͠Δ [6]ɻ
3.3
(7)
DOA-HMM
Ի‫͕ݯ‬Ҡಈ͢Δ৔߹ɼ࣌ࠁ͝ͱʹεςΞϦϯάϕ
3.2
ࠞ߹ DOA Ϟσϧ [8]
Ϋτϧ͕มԽͯ͠͠·͏ͨΊɼҠಈԻ‫ݯ‬Λѻ͑ΔΑ
ຊઅͰ͸·ͣԻ‫ݯ‬Ґஔ͕‫ݻ‬ఆͷ৔߹Λߟ͑ɼ࣍અ
ͰԻ‫͕ݯ‬Ҡಈ͢Δ৔߹Λߟ͑Δɻ͜Ε·Ͱ֤Ի‫ݯ‬ͷ
͏ʹ͢ΔͨΊʹ͸ ai,k Λ࣌ࠁ l ʹґଘ͢Δม਺ ai,k,l
ʹ֦ு͢Δඞཁ͕͋Δɻ͜ͷͱ͖ɼࣜ (2) ͸
఻ୡप೾਺ಛੑ ai,k Λप೾਺ΠϯσοΫε k ͝ͱʹ
yk,l = azk,l ,k,l sk,l + nk,l
(8)
ಠཱͳม਺Ͱ͋Δ͔ͷΑ͏ʹѻ͍͕ͬͯͨɼ΋֤͠Ի
‫͕ݯ‬୯Ұํ޲͔Βฏ໘೾ͱͯ͠౸དྷ͢ΔͱԾఆͰ͖
ͱॻ͖௚ͤΔɻ
ΔͳΒ͹ɼྫ͑͹ϚΠΫϩϑΥϯ਺͕ 2 ͷ৔߹ɼ఻ୡ
͜͜Ͱɼ3.2 અͷࣗવͳ֦ுͱͯ͠ɼ֤Ի‫ݯ‬ͷ DOA
प೾਺ಛੑ ai,k ͸ɼ౸དྷํ޲ (Direction-of-Arrival;
ΠϯσοΫε ci Λ࣌ࠁ l ʹґଘ͢Δม਺ ci,l ʹ֦ு
DOA)θ ͷؔ਺ͱͯ͠
͠ɼci,1 , . . . , ci,L Λঢ়ଶ‫ ͨ͠ͱྻܥ‬HMM ʹΑΓες
h(θ, ω) =
"
1
eωB cos θ/C
#
ΞϦϯάϕΫτϧ‫ ྻܥ‬ai,k,1 , . . . , ai,k,L Λ֬཰Ϟσϧ
(4)
Խ͢Δ͜ͱΛߟ͑Δɻ͜ͷͱ͖ɼԻ‫ ݯ‬i ͷ࣌ࠁ l ʹ͓
͚Δ DOAθi,l ͷੜ੒ϓϩηε͸ɼ
ͱͯ͠ཅʹද͞ΕΔɻͨͩ͠ɼ0 ≤ θ ≤ 2π ɼB ΛϚΠ
ΫϩϑΥϯͷִؒ (m)ɼC ΛԻ଎ (m/s) ͱ͢Δɻ࣮ࡍ
ʹ͸࢒‫ڹ‬΍࣌ؒप೾਺ྖҬͷॠ࣌ࠞ߹ۙࣅͳͲʹΑ
ci,l |ci,l−1 ∼ Categorical(ci,l ; ρci,l−1 )
θi,l = ϑci,l
(9)
(10)
Γɼai,k ͸্‫ه‬ͷཧ࿦͔ࣜΒҳ୤͢Δ͜ͱ͕༧૝͞Ε
日本音響学会講演論文集
- 24 -
2013年9月
ᥦ᱌ἲ
ᚑ᮶ἲ
1, . . . , D ΁ͷભҠ֬཰Λද͠ɼρd,d′ Λཁૉͱ͢Δ D ×
D ߦྻ ρ = (ρd,d′ )D×D ΛભҠߦྻͱ͍͏ɻ࣮ࡍͷҠ
ಈԻ‫ݯ‬͸ɼे෼୹͍࣌ؒͷؒʹେ͖͘౸དྷํ޲Λม
͑ΔՄೳੑ͸௿͍ͱߟ͑ΒΕΔͷͰɼྡ઀͢Δঢ়ଶ
΁ͷભҠ֬཰ΛߴΊʹઃఆ͢Ε͹ྑ͍ɻ
Ҏ্ͷεςΞϦϯάϕΫτϧ‫ྻܥ‬ͷ֬཰ϞσϧΛ
3.1 અͷϞσϧ (ͷ࣌ม൛) ʹ૊ΈࠐΈɼશମͷύϥ
ϝʔλਪ࿦ (‫ޙ‬ड़) Λ௨ͯ͠ύʔϛϡςʔγϣϯ੔߹ɼ
ҠಈԻ‫ݯ‬ͷ௥ैɼप೾਺͝ͱͷԻ‫ݯ‬෼཭Λಉ࣌ʹߦ
͓͏ͱ͍͏ͷ͕ఏҊख๏ͷཁ఺Ͱ͋Δɻ
4
ม෼ਪ࿦ΞϧΰϦζϜ
‫؍‬ଌ৴߸ Y = y1:K,1:L ͕༩͑ΒΕͨ΋ͱͰɼҎ
্ͷੜ੒Ϟσϧͷύϥϝʔλ A = a1:I,1:K,1:L , S =
s1:K,1:L , Z = Z1:K,1:L , C = c1:K,1:L ͷࣄ‫ޙ‬෼෍
p(A, S, Z, C|Y ) Λ‫ٻ‬Ί͍ͨɻ͜ͷࣄ‫ޙ‬෼෍Λղੳత
ʹಘΔ͜ͱ͸೉͍͕͠ɼม෼ਪ࿦๏ʹ‫ࣅ͖ۙͮج‬෼
෍Λ൓෮‫ʹࢉܭ‬ΑΓಘΔ͜ͱ͕Ͱ͖ΔɻҎԼͰ͸ɼρ,
(n)
(a)
Σ1:K , Σ1:K ͸࣮‫ݧ‬తʹఆΊΔఆ਺ͱ͢Δɻ
ม෼ਪ࿦͸ࣄ‫ޙ‬෼෍ p(A, S, Z, C|Y ) ͱɼ
Z
Z
· · · q(A, S, Z, C)dA · · · dC = 1
(11)
Λ ຬ ͨ ͢ ඇ ෛ ͷ ม ؔ ਺ q(A, S, Z, C) ͱ ͷ ؒ ͷ
Kullback-Leibler μΠόʔδΣϯε
p(A, S, Z, C|Y )
F[q] = log
q(A, S, Z, C) q(A,S,Z,C)
(12)
Λ q ʹؔͯ͠࠷খԽ͢Δ͜ͱ͕໨తͱͳΔɻͨͩ͠
R
hf (x)iq(x) ͸ q(x)f (x)dx Λද͢ɻແ࿦ɼF[q] ͸ p =
q ͷͱ͖࠷খͱͳΔ͕ɼq ʹؔͯ͠
q(A, S, Z, C) = q(A)q(S)q(Z)q(C)
(13)
ͱͳΔΑ͏ͳ෼෍ΫϥεΛߟ͑ɼF[q] Λ q(A), q(S),
q(Z), q(C) ʹ͍ͭͯަ‫࠷ʹޓ‬খԽ͢ΔεςοϓΛ‫܁‬Γ
ฦ͢͜ͱͰɼ౰֘෼෍ΫϥεͷதͰ p(A, S, Z, C|Y )
Λ࠷΋ྑۙ͘ࣅ͢Δ෼෍ΛಘΑ͏ͱ͍͏ͷ͕ม෼ਪ
࿦๏ͷ‫ج‬ຊతͳߟ͑ํͰ͋Δɻ
ಋग़͸লུ͢Δ͕ɼࣜ (12) Λࣜ (11) ͷ߆ଋͷԼͰ
࠷খԽ͢Δ֤ q ͸ղੳతʹҎԼͷ‫·ٻͯ͠ͱܗ‬Δɻ
Y
q̂(A) =
NC (ai,k,l ; mi,k,l , Γi,k,l )
(14)
6,5>G%@
ͱදͤΔɻρd = (ρd,1 , . . . , ρd,D ) ͸ঢ়ଶ d ͔Βঢ়ଶ
q̂(S) =
NC (sk,l ; µk,l , σk,l )
Y
᫬㛫>V@
͍ͯ Forward-Backward ΞϧΰϦζϜΛߦ͏͜ͱͰ
q̂(C) Λ‫ٻ‬ΊΔ͜ͱ͕Ͱ͖Δɻ
Ҏ্ͷม෼ਪ࿦ΞϧΰϦζϜʹΑͬͯਪఆ͞Εͨ
sk,l ͷฏ‫ۉ‬஋ µk,l ʹ֬཰஋ φk.l Λ৐͡Δ͜ͱͰɼԻ
‫ ݯ‬i ͷਪఆ৴߸ΛಘΔ͜ͱ͕Ͱ͖Δɻ
5
ෳ਺ҠಈԻ‫ݯ‬ͷ෼཭࣮‫ݧ‬
ఏҊ๏ͷ༗ޮੑΛࣔͨ͢ΊɼҠಈԻ‫ʹݯ‬ରͯ͠Ի‫ݯ‬
෼཭ͱ౸དྷํ޲ਪఆੑೳͷ‫ূݕ‬ΛߦͬͨɻҠಈԻ‫ͱݯ‬
ͯ͠ҠಈԻ‫ݯ‬σʔλϕʔε [9] ͷஉੑ࿩ऀͷԻ੠৴߸
2 ͭΛ (ҠಈԻ‫ ݯ‬AɼB)ɼ‫ݻ‬ఆԻ‫ͯ͠ͱݯ‬Ի੠σʔλ
ϕʔε [10] ͷঁੑ࿩ऀͷԻ੠৴߸ʹࣨ಺Πϯύϧε
Ԡ౴Λ৞ΈࠐΈՃࢉͨ͠΋ͷ 1 ͭΛ༻͍ɼͦΕΒΛ
ਓ޻తʹࠞ߹ͨ͠΋ͷΛ‫؍‬ଌ৴߸ͱͨ͠ɻ࢒‫ؒ࣌ڹ‬͸
0 ms Ͱ͋ΔɻҠಈԻ‫ݯ‬Λม͑Δ͜ͱͰɼ10 ௨Γͷࠞ
߹Ի੠σʔληοτΛ࡞੒͠ɼ࣮‫ͨ͠ݧ‬ɻඪຊԽप೾
਺͸ 16 kHz ͱͨ͠ɻ୹࣌ؒϑʔϦΤม‫( ׵‬ϑϨʔϜ
௕͸ 64 msɼϑϨʔϜγϑτ͸ 16 ms) ʹΑΓࢉग़͠
(n)
(a)
ͨɻΣk ͱ Σk ͸ͦΕͧΕ I ɼ101.5 × I ͱͨ͠ɻ·
ͨ֯౓ͷ෼ׂ਺͸ M = 180 ͱͨ͠ɻ4 ষͷ൓෮Ξϧ
ΰϦζϜͷ࣮ߦ‫ޙ‬ɼԻ‫ݯ‬੒෼ͷਪఆ஋ µk,n ʹɼԻ‫ݯ‬
i ͕࣌ؒप೾਺఺ͰͲΕ͚ͩΞΫςΟϒΒ͍͔͠Λද
֬͢཰஋ φi,k,n Λ৐ͨ͡΋ͷΛɼԻ‫ ݯ‬i ͷਪఆ࣌ؒप
೾਺੒෼ͱͨ͠ɻԻ‫ݯ‬෼཭ੑೳͷධՁ‫ج‬४ͱͯ͠ɼࣜ
(17)ʙ(19) ʹΑΓಋग़͞ΕΔ Signal-to-InterferenceRatio (SIR) [12] Λ༻͍ͨɻSIR ͷ‫ʹࢉܭ‬͸ɼ3 ͭͷ
Ի‫ݯ‬ͷ͏ͪҰ൪୹͍௕͞ͷԻ‫͕ݯ‬ऴྃ͢Δ໿ 3.1 s ·
ͰΛ༻͍ͨɻ
SIRi [l] = OutputSIRi [l] − InputSIRi [l]
X
ŝi,k,l
OutputSIRi [l] = 10 log10 XkX
(15)
[dB]
(18)
si,k,l
k
InputSIRi [l] = 10 log10 X X
(16)
si′ ,k,l
[dB]
(19)
i′ 6=i k
k,l
ͳ͓ɼҎ্ͷߋ৽ଇ͸ [8] ͱಉ༷Ͱ͋Δɻ·ͨಘΒ
Εͨ෼෍ q̂(A) ʹΑͬͯ A ͷ‫ظ‬଴஋Λ‫ ͠ࢉܭ‬ρ Λ༻
日本音響学会講演論文集
ŝi′ ,k,l
(17)
i′ 6=i k
XX
i
q̂(zk,l ), q̂(zk,l = i) = φi,k,l
Fig. 1 ఏҊ๏ͱैདྷ๏ʹ͓͚ΔҠಈԻ‫ ݯ‬A ʹର͢
Δ SIR ͷ࣌ؒมԽ
k,l
q̂(Z) =
i,k,l
Y
ͨͩ͠ ŝi,k,n ͸Ի‫ ݯ‬i ͷਪఆ৴߸ φi,k,n µk,n ʹ‫·ؚ‬
ΕΔԻ‫ ݯ‬i ͷ৴߸੒෼Ͱ͋Δɻ
- 25 -
2013年9月
6,5>G%@
฿᮶ゅᗘ>UDG@
ᥦ᱌ἲ
ᚑ᮶ἲ
⛣ື㡢※$┿್
⛣ື㡢※%┿್
ᅛᐃ㡢※┿್
⛣ື㡢※$᥎ᐃ್
⛣ື㡢※%᥎ᐃ್
ᅛᐃ㡢※᥎ᐃ್
⛣ື㡢※$
Fig. 2
‫ۉ‬஋
⛣ື㡢※%
ᅛᐃ㡢※
ఏҊ๏ͱैདྷ๏ʹ͓͚ΔԻ‫ͱ͝ݯ‬ͷ SIR ͷฏ
᫬㛫>V@
Fig. 3 ֤Ի‫͚͓ʹݯ‬Δ౸དྷ֯౓ͷਅ஋ͱਪఆ஋
·֤ͨ࣌ࠁͷ౸དྷ֯౓ͷਪఆ஋ʹ͸ɼਪఆ͞Εͨ
ζϜͷ࣮‫ݱ‬Λ໨ࢦͨ͠ɻԻ੠ͷ࣌ؒप೾਺੒෼ͷε
౸དྷ֯౓ͷ֬཰෼෍͔Β֤࣌ࠁʹ͓͍ͯ࠷΋֬཰஋
ύʔεੑʹ‫ͮ͘ج‬प೾਺ྖҬͷྼܾఆ BSS ϞσϧΛ
ͷߴ͍֯౓Λ༻͍ͨɻ
ϕΠζతʹ‫ه‬ड़͠ɼԻ‫ݯ‬ͷҠಈΛɼ཭ࢄԽͨ͠౸དྷ֯
͞ΒʹԻ‫ݯ‬ͷҠಈΛԾఆ͠ͳ͍ैདྷ๏͕ɼҠಈԻ‫ݯ‬
ʹରͯ͠ྑ͍෼཭ੑೳΛ΋ͨͳ͍͜ͱΛࣔͨ͢Ίɼ[8]
౓Λঢ়ଶͱ͢ΔӅΕϚϧίϑϞσϧͱͯ͠ද‫͠ݱ‬ɼ୹
͍࣌ؒʹ͓͍ͯԻ‫ݯ‬ͷ౸དྷ֯౓͕େ͖͘มԽ͢Δ֬
ͷख๏Λ༻͍ͯಉ༷ͷԻ‫ݯ‬෼཭࣮‫ݧ‬Λߦͬͨ৔߹ͷ
཰͸খ͍͞ͱ͍͏ԾఆΛભҠ֬཰ͱͯ͠‫؍‬ଌ৴߸ͷ
݁ՌͱఏҊ๏ͷ݁ՌΛൺֱͨ͠ɻ
Fig. 1 ʹఏҊ๏ͱैདྷ๏ʹΑΔɼ1 ͭͷ෼཭࣮‫ʹݧ‬
͓͚ΔҠಈԻ‫ ݯ‬A ͷ SIR ͷ࣌ؒมԽΛࣔ͢ɻैདྷ๏
Ͱ͸ɼԻ‫ݯ‬෼཭͕͏·͘ߦ͓͑ͯΒͣɼSIR ͕ଟ͘ͷ
࣌ࠁͰ 0 ʹ͍ۙ஋Ͱ͋Δ (input ͱ output Ͱ SIR ͕
վળ͞Ε͍ͯͳ͍) ͷʹରͯ͠ɼఏҊ๏Ͱ͸ଟ͘ͷ࣌
ࠁͰ SIR ͕վળ͞Ε͍ͯΔͷ͕‫ͯݟ‬औΕΔɻFig. 2 ʹ
֤Ի‫ʹͱ͝ݯ‬σʔληοτͱ࣌ࠁͰฏ‫ۉ‬Λͱͬͨ SIR
ͷ஋Λࣔ͢ɻ3 ͭͷԻ‫͍͓ͯʹͯ΂͢ݯ‬ɼैདྷ๏Ͱ͸
SIR ͕௿͘Ի‫ݯ‬෼཭͕ߦ͍͑ͯͳ͍ͷʹରͯ͠ɼఏҊ
๏Ͱ͸ SIR ͕ 10 dB ͔Β 17 dB ఔ౓ͷ஋Λ͍ࣔͯ͠
Δͷ͕Θ͔Δɻ3 ͭͷԻ‫͚͓ʹݯ‬Δ SIR ͷฏ‫ۉ‬஋͸ɼ
ैདྷ๏Ͱ 1.91 dBɼఏҊ๏Ͱ 12.31 dB Ͱ͋ͬͨɻ
࣍ʹɼ1 ͭͷ෼཭࣮‫͚͓ʹݧ‬Δ౸དྷ֯౓ਪఆͷ݁Ռ
Λ Fig. 3 ʹࣔ͢ɻ࣮ࡍͷ౸དྷ֯౓ͱൺ΂ͯɼ1 s ෇ۙ
͔ΒԻ‫ݯ‬ಉ࢜ͷ౸དྷ֯౓͕ॏͳΓɼ͔ͭԻ੠ͷऴྃ͢
Δ 3 s ෇ۙ·Ͱ͸ɼ͓͓ΉͶਖ਼͘͠ਪఆ͞Ε͍ͯΔ͜
ͱ͕෼͔Δɻ࠷ॳͷ໿ 1 s ͷؒͰ౸དྷํ޲ਪఆͷਫ਼౓
͕ྑ͘ͳ͍ͷ͸ɼੜ੒Ϟσϧʹ૊Έࠐ·Εͨɼ౸དྷ֯
౓͕‫ʹٸ‬มԽ͠ʹ͍͘ͱ͍͏ԾఆʹΑΓɼԻ੠ͷೖͬ
͍ͯͳ͍ॳ‫ۙ෇ࠁ࣌ظ‬ͷσʔλʹରͯ͠ਪఆ͞Εͨ
౸དྷ֯౓͔Β‫׈‬Β͔ʹͭͳ͙Α͏ʹ౸དྷ֯౓͕ਪఆ
͞Εͯ͠·͏͔ΒͰ͋Δͱߟ͑ΒΕΔɻ‫ݻ‬ఆԻ‫ݯ‬ͷਪ
ఆ֯౓ʹόΠΞε͕ͷ͍ͬͯΔͷ͸ɼཧ૝తͳεςΞ
ϦϯάϕΫτϧͱ࣮ࡍͷεςΞϦϯάϕΫτϧͱͷ
‫͔ࠩޡ‬Β͘Δਪఆ‫͋Ͱࠩޡ‬ΔՄೳੑ͚ͩͰͳ͘ɼ[11]
ͷσʔλϕʔε࡞੒࣌ͷϚΠΫϩϑΥϯͷ֯౓‫ࠩޡ‬
Ͱ͋ΔՄೳੑ΋ߟ͑ΒΕΔɻ
6
ੜ੒Ϟσϧʹ૊ΈࠐΈɼࠞ߹ DOA Ϟσϧͱ૊Έ߹Θ
ͤΔ͜ͱͰɼԻ‫ݯ‬෼཭ͱप೾਺͝ͱɼ࣌ؒ͝ͱͷύʔ
ϛϡςʔγϣϯ੔߹Λಉ࣌ʹ࣮‫ͨ͠ݱ‬ɻ͜ΕʹΑΓɼ
࣌ؒมԽ͢Δ౸དྷ֯౓ͷਪఆͱԻ‫ݯ‬෼཭ΛҰ‫ߦʹڍ‬
͑Δ͜ͱ͕ɼఏҊ๏ͷओཁͳಛ௃Ͱ͋Δɻ
ࢀߟจ‫ݙ‬
[1] A. Hyvärinen, J. Karhunen, and E. Oja, Independent Component Analysis, John Wiley &
Sons, 2001.
[2] Ö. Yılmaz & S. Rickard, IEEE Trans. SP,
52(7), pp. 1830–1847, 2004.
[3] Y. Mori et al., in Proc. IWAENC ’05, pp. 229–
232, 2005.
[4] M. I. Mandel et al., in Adv. NIPS, pp. 953–960,
2006.
[5] S. Araki et al., Signal Process., 87(8), pp. 1833–
1847, 2007.
[6] ࿨ઘଞ, Իߨ࿦ (य़), 2-1-5, pp. 555–556ɼ2007ɽ
[7] H. Sawada et al., IEEE Trans. ASLP, 19(3),
pp. 516–527, 2010.
[8] ُԬଞɼԻߨ࿦ (य़), 1-1-19, pp. 713–716ɼ2012ɽ
[9] T. Otsuka et al., in Proc. AAAI-12 pp. 2038–
2045, 2012.
[10] A. Kurematsu et al., Speech Communication,
pp. 357–363, 1990.
[11] S. Nakamura et al.,
p. 965–968, 2000.
in Proc. LREC ’00, p-
[12] E. Vincent et al., IEEE Trans. ASLP, pp. 1462–
1469, 2006.
͓ΘΓʹ
ຊߘͰ͸ɼԻ‫͕ݯ‬Ҡಈ͢Δ͜ͱͰࠞ߹աఔ͕มԽ
͢Δ৔߹ʹ͓͍ͯ΋҆ఆͯ͠ಈ࡞͢Δ BSS ΞϧΰϦ
日本音響学会講演論文集
- 26 -
2013年9月