振幅スペク トルからの音声合成法におけるピッチ変換法

社団法人電子情報通信学会
THEINSTITUTEOFELECTRONICS,
INFORMATIONANDCOlIWUNICATIONENGINEERS
信学技報
TECHNICALREPORTOFlEICE・
SP99-89(1999-10)
振幅スペクトルからの音声合成法におけるピッチ変換法
東弘人,川又政征
東北大学大学院工学研究科電子工学専攻
〒980-8579仙台市青葉区荒巻字青葉O5
E
m
a
i
l
:
h
i
g
a
S
i
@
m
k
,
e
c
e
i
、
t
o
h
o
k
u
・
a
c
j
p
あらまし本報告では,振幅スペクトルからの音声合成法を利用した音質劣化の少ないピッチ変換法を提案する.
本方式ではまず,サンプリング変換を用いて周波数スケーリングを行なうことでピッチ周波数を変更する.その後,
サンプリング変換した音声に対して,振幅スペクトル系列のスペクトル包絡特性を原音声の特性に復元する.最後に,
変更された振幅スペクトル系列から,原音声の音声速度と等しくなるように音声を合成する.本方式で得られるピッ
チ変換音声は,変換倍率が約0.8倍から2.0倍の範囲では,かなり原音声の音質を保存している.
キーワードピッチ変換,LSEE-MSTFTMアルゴリズム,サンプリング変換,振幅スペクトル,スペクトル包絡
AMethodofPitchModificationbySpeechSynthesisfromShort-TimeFburier
BansfbrmMagnitude
HirotoHIGASHI,MasayukiKAWAMA1rA
DepartmentofElectronicEngineering,GraduateSchoolofEngineering,TbhokuUniversity
Aoba戸yamaO5,Sendai980-8579,Japan
E
m
a
i
l
:
h
i
g
a
s
i
@
m
k
・
e
c
e
i
・
t
o
h
o
k
u
、
a
c
j
p
Ab8tractThispaperproposesamethodofpitchmodificationusingthespeechsynthesismethodfromshort-
timeFburiertransfbrm(STFT)magnitude、Themethodmodifiesfirstthepitchfrequencybyfrequencyscaling
usingsamplingrateconversion・FbrthespeechwhoseSamplingrateisconverted,spectralenvelopesofSTFTs
magnitudearerestoredtotheonesoforiginalspeech・Finally,aspeechissynthe8izedfromthemodifiedSTFT
m
a
g
n
i
t
u
d
e
b
u
t
t
h
e
f
r
a
m
e
s
h
i
f
t
r
a
t
e
f
b
r
s
y
n
t
h
e
s
i
s
i
s
s
e
t
s
o
t
h
a
t
t
h
e
8
y
n
t
h
e
s
i
s
s
p
e
e
c
h
r
a
t
e
e
q
u
a
1
s
t
o
t
h
e
o
r
i
g
i
n
a
l
o
n
e
・
T
h
e
r
e
8
u
l
t
i
n
g
p
i
t
c
h
m
o
d
i
f
i
e
d
s
p
e
e
c
h
c
a
n
p
r
e
s
e
r
v
e
v
e
r
y
w
e
l
l
t
h
e
q
u
a
j
i
t
y
o
f
o
r
i
g
i
n
a
l
s
p
e
e
c
h
o
v
e
r
t
h
e
r
a
n
g
e
0
.
8
2
.
0
o
f
rateconversion.
k
e
y
w
o
r
d
s
p
i
t
c
h
m
o
d
i
f
i
c
a
t
i
o
n
,
L
S
E
E
M
S
T
F
T
M
a
l
g
o
r
i
t
h
m
,
s
a
m
p
l
i
n
g
r
a
t
e
c
o
n
v
e
r
s
i
o
n
,
S
T
F
T
m
a
g
n
i
t
u
d
e
,
s
p
e
c
t
r
a
l
e
n
v
e
l
o
p
e
−25−
1まえがき
近年,音声に含まれる個人性を変換する試みとして,
声質変換技術が盛んに研究されている.スペクトル包絡
やピッチ周波数は個人性を多く含む音声パラメータであ
│
略
(
m
S
h
,
⑳
)
│
,
z
o
(
冗
)
ると考えられている[1].そのため,声質変換にはこれら
のパラメータを容易に変換可能な分析合成方式が不可欠
である.スペクトル包絡の変換は,声道伝達特性を表現
するパラメータを変換すればよく,特に難しい処理では
ないが,ピッチ周波数を変換することは容易ではない.
なぜならば,一般に声質変換に用いる分析合成方式とし
て採用されるピッチ駆動型のボコーダ121[31は,分析時
におけるピッチ抽出誤りや有声・無声判定誤り,合成時
における音源信号をパルス列とする簡略化などにより,
たとえピッチを変更しない場合であっても,原音声と同
等の音質を持つ合成音を得ることは困難だからである.
合成音の音質改善を図るアプローチの一つとして,原音
声に含まれる情報を可能な限り保存する方法がある.残
差駆動型LPCボコーダにおける音源信号に対し,1ピッ
チ毎に零詰めや打ち切りを行なうことでピッチ変換を行
z
j
+
'
(
肥
)
なう方式間や複素ケプストラム分析合成による方式同
は,このアプローチを取る方式の一例である.しかしな
がら,これらはピッチ同期処理を必要とするため,ピッ
チ抽出アルゴリズムの性能の影響を受けてしまうほか,
相当に複雑な処理系となってしまうのが問題である.規
図1:LSEE-MSTFTMアルゴリズム
則音声合成の分野ではPSOLA法[61によりピッチを変
クトル包絡特性と音声速度も変更されてしまう.そこで
次に,振幅スペクトル系列のスペクトル包絡特性を原音
更するのが主流であるが,これもピッチ同期処理に基づ
声の特性に復元する処理を行なう.本報告では,音源ピッ
いている上,大幅なピッチ変換には対処できない171.
チ周波数のみを独立に変換可能な分析合成方式を構成す
ることが目的であるため,原音声のスペクトル包絡特性
に復元しているが,この時点で,他のスペクトル包絡特
性に変更することも可能である.最後に,復元された振
幅スペクトル系列を用いて,STFTM法により原音声の
音声速度と等しくなるように音声を合成する.最終的に
本報告で提案するピッチ変換法は,,.W、GriHinらに
よって提案されたLSEE-MSTFTMアルゴリズム(Least
SquaresErrorEstimationfromModifiedShortTime
rburirmransfbrmMagnitude,振幅スペクトルからの最
小二乗誤差推定)と呼ばれる音声合成法[8]を利用する
(以下,STFTM法と略称).この合成法を用いたピッチ
変換法は過去に文献【91で述べられているが,ピッチ抽
出を必要とする手法である上,一様な倍率のピッチ変換
では0.9倍と1.1倍といった小さな変換倍率でしか評価
を行なっておらず,大幅にピッチを変更した場合の音質
得られる音声は,原音声のスペクトル包絡特性と音声速
度を保ちながら,音源ピッチ周波数のみが変換された音
声となる.
2振幅スペクトルからの音声合成法
2.1LSEE−MSTFMアルゴリズム
については詳しく述べられていない.
本方式では,スペクトルマッピング型の声質変換方式
[21[3]に必要とされる一様な倍率のピッチ変換にターゲッ
トを絞り,規則音声合成に必要なアクセント型のピッチ
変換は考慮しない.その代りとして,ピッチ抽出や有声・
無声判定が不要なアルゴリズムを構築した.また,固定
STFTM法とは,短時間フーリエ変換の振幅スペクト
ル(STFTMagnitude)から音声を合成する手法である.
音声信号〃(泥)の短時間フーリエ変換(STFT)は次のよ
うに定義される.
CO
X
‘
,
(
m
s
h
,
"
)
=
Z
”
(
m
s
b
−
"
)
,
(
"
)
e
”
”
フレーム処理を基本とするため,ピッチ同期処理が必要
な方式と比べ,処理系が比較的簡潔に構成できることも
利点となっている.
泥=−.O
本方式ではまず,サンプリング変換を用いた周波数ス
ここで,tU('z)は分析に用いる窓関数,mはフレーム番号,
shは分析フレーム周期のポイント数である.そして,図1
ケーリングにより,ピッチ周波数を変更する.サンプリ
ング変換後の音声は,ピッチが変更される一方で,スペ
に示す繰り返しアルゴリズムにより,|y;,,(msMノ)│に任
意の変更を加えた振幅スペクトル│略(mSb,‘J)│(Modified
−26−
STFTM)から時間信号が(”)を推定することができる[81.
ここで,S‘は合成フレーム周期であり,x3,(mS‘,")は,
咽の繰り返しにより推定された信号zj(")のSTFTで
ある.sα≠S‘とすることで,分析時と異なる音声速
度の音声を合成できる.初期信号zo(")には通常,が
30
U
D
D
9
U
p
U
U
U
SBu里凸
20
①
口曲ロロ
戸=言言言言言言而言盃恵一蒜
●
●
争
自
申
●
ゆ
●
●
令
、●①●・◆■G■■■●申■bDB,卜−00︲I巳
△
10
号対誤差比)が定義される[91.
0
︵、ロ︶正山の
ウス雑音が選ばれる.また,│x&,(ms,,")│と目標とする
lyM(mSb,⑳)│の誤差を示す尺度として,次のSER(信
-10
s
肌
[
│
x
:
,
(
m
s
o
,
"
)
│
,
│
Y
;
‘
(
m
s
h
,
"
)
│
]
-20
B
認
、
…
│
童
謡
言
蓋
ⅧI
-30
O
D
■
ロ
■
ロ
ロ
■
■
102030405060708090100
IteraUon
[
│
x
;
,
(
m
s
,
,
"
)
│
−
l
x
;
(
m
s
h
,
"
)
'
1
2
血
図2:異なる初期推定信号に対するSER
されている[81.STFTM法で音声速度を変更するとき,
3提案するピッチ変換法
本方式の流れを図3に示す.まず(a)でサンプリング変
換により原音声y(”)を周波数スケーリングすることで,
ピッチ周波数を変更する.このとき得られる音声s(")は,
ピッチが変更されているものの,スペクトル包絡特性と
音声速度も変更されている.そこで,(e)で得られる原音
声のスペクトル包絡と,(d)で得られるスペクトル包絡
を用いて,(9)の処理により原音声のスペクトル包絡に復
てSERの収束性を比較した[10].その結果,以下に示す
元したMSTFTMを得る.このMSTFTMから,(h)で
はSTFTM法により原音声と同じ音声速度の音声砥(、)
を合成する.最終的に得られる音声は,原音声のスペク
により原音声y(")の音声速度をあらかじめ目標とする
トル包絡特'性と音声速度を保ちながら,音源ピッチ周波
数のみが変換された音声となる.以下に,各ブロックの
詳細を記す.
(a)サンプリング変換
サンプリング変換により周波数スケーリングを行
なうブロックである.L/M倍のサンプリング変換
により,ピッチ周波数をM/L倍にした音声が得ら
oO
れる.
E
w
2
(
m
s
‘
"
)
w
'
一
m
(
s
b
s
・
)
偽
(
、
)
]
ここで,サンプリング変換を行なう回路の一例を
〃0(")=m= 。。。。
図4に示す[10]、この方法では最初に,入力信号〃(”)
Z
“
2
(
m
s
o
"
)
の各サンプル値間にL−1点のゼロ値を挿入する.次
778=一.◎
ここで,脆('78)は第m番目の分析フレーム信号と第
に,カットオフ周波数汀/Lの低域通過フィルタ(線
m−1番目の合成フレームまで重複加算した信号の正規
形位相FIRフィルタ)に通すことで,L倍の内挿が
行なわれる.最後に,M点に1点の間引きを施すこ
化相互相関関数の最大値を取るインデックスである.つ
まり,原音声から窓関数により分析フレーム周期凡で
切り出したフレーム信号を,各合成フレームで位相の不
整合が生じないように,最も相関の高い位置で重複加算
合成を行なうことになる.このSOLA法により,音色や
ピッチを変えずに,原音声y(泥)の音声速度をsb/S8倍に
した音声を得ることができる.図2から,SOLA法によ
り初期信号を生成する方が,ガウス雑音を初期信号とす
とで,原音声のサンプリング速度をL/M倍にした
信号s(”)を得る.
s(")のスペクトルは原音声のスペクトルを周波数
軸方向にM/L倍の線形伸縮をしたものとなるため,
ピッチ周波数は原音声のM/L倍となる.しかし,音
声サンプル数が変わるため音声速度はM/L倍とな
り,また,スペクトル包絡特性も変更されるので音
色が変化してしまう.
るよりも,高いSERへの到達が早いことが分かる.
−27−
W
8
)
を満たす必要がある.計算量を少なくするには,M=
Hoor(1s/4)とすればよい.floor(.)は小数点以下を
切り捨てる操作である.最後に,
‘
=
r
・
"
。
(
筈
)
としてLが決定される.
(
c
)
(
b
)
(。),(e)スペクトル包絡の抽出
8画,(mL,‘J)とy&,(mM,")から抽出したスペクト
ル包絡を,それぞれ│鵬(mL,凶)│,冊(mM,(A’)│と
(e)Spec衝alBnveIope
(OSOIA
璽匝皿師ロ和
する.スペクトル包絡の抽出法としては,ピッチ抽
出が不要であり,かつ極零型の包絡が抽出可能であ
る改良ケプストラム法[111を利用する.改良ケプス
トラム法によれば,ケプストラム次数を適切に設定
することで,図5に示すようなスペクトル微細構造
の影響を十分に除去した包絡を得ることができる.
ただしこのような包絡を得るには,ケフレンシ上の
ピッチ成分を考慮してリフタのカットオフケフレン
シを設定する必要がある.具体的には,次のように
垂
(
泥
)
設定する.
図3:提案するピッチ変換法の流れ図
州一回一
Lowpas8nlterwitha
一
c
u
t
o
f
r
f
t
B
q
u
e
n
C
y
1
T
/
L
回一刺
まず,最高ピッチ周波数がF;"・垂(Hz)程度である
音声を,サンプリング周波数凡(Hz)で標本化して
原音声y(")を得たとする.また,ピッチ変換の倍
率はαと指定したとする.このとき,1Vb(mL,")│を
抽出するのに必要なリフタのカットオフケフレンシ
QS(ポイント)は,8(")がサンプリング変換によ
り最高ピッチ周波数がα脇。z(Hz)となっていること
図4:サンプリング変換回路
から,次のように設定することになる.
(b),(c)短時間フーリエ変換
サンプリング変換後の音声s(")と原音声y(”)の
STFTとして,それぞれS瓢,(mL,‘‘ノ),脇(mM,妙)を
得る.ここで,各STFTを得るのに必要な分析窓の
長さと,サンプリング変換に必要なMとLは以下
のように決定する必要がある.
最初に,ピッチ変換の倍率αと,脇(mM,qノ)に対
する分析窓の長さん(20∼40,sに相当するポイン
Q
s
=
r
・
I
、
。
(
農
)
ここで,βはピッチ成分に対するカットオフケフレ
ンシの相対位置を決める定数であり,リフタ窓とし
てcCs窓を利用するときは0.8前後が適当である.
同様に,|vi,(mM,凶)│を抽出するとき,り(泥)の最高
ピッチ周波数がFh,。鰯(Hz)なので,リフタのカット
オフケフレンシQY(ポイント)は,
ト数)を決める.s(、)はサンプリング変換によりサ
ンプル数がり(")の1/α倍になるので,s甑,(mL,(J)
に対する分析窓の長さ1sは次のように決定される.
(
筈
)
1s=round
ここで,round(.)は最も近い整数に丸める操作であ
る.また,STFTM法では,合成フレーム周期は分
析窓(ハミング窓)の長さの1/4以下でなければな
らない{101.従って,(h)において│略(mM,‘J)│か
ら音声を合成するために,Mは,
Q
Y
=
r
o
m
d
(
鶏
)
と設定すればよい.脇α露が未知である場合には,男
声・女声の区別で適当に脇α露を設定してもよい.
(f)スペクトル包絡特性の復元
s(泥)のスペクトルは,原音声のスペクトルを周
波数スケーリングしたものになっており,スペクト
ル包絡は変更されている.そのため,次式により
lsi‘,(mL,凶)│のスペクトル包絡特性を原音声の特性
に復元し,合成に用いるMSTFTMとして脇(mM,")|
を得る.
M
≦
差
。
剛
"
M
,
"
)
'
=
怯
揺
鵠
I
l
M
"
L
,
"
)
’
−28−
<見られるような,ピッチ抽出誤りや有声・無声判定誤
りによる不自然な異音は生じていなかった.
5むすび
agE冒芯R釘
本報告では,STFTM法を利用した音質劣化の少ない
ピッチ変換法を提案した.本方式では,まずサンプリン
グ変換により周波数スケーリングを行なうことでピッチ
周波数を変更した.そして,それにより変更されたスペ
クトル包絡特性を原音声の特性に復元し,STFTM法に
より原音声と同じ音声速度となるように合成することで,
音源ピッチ周波数のみを変換した音声を得た.本方式に
よれば,約0.8倍から2.0倍までの変換倍率ならば,原
音声の音質と自然さを十分に保存したピッチ変換音声が
FmBqu⑧ncyO《Hz)
得られる.ピッチを極端に下げる場合はかなりこもり感
図5:改良ケプストラム法によるスペクトル包絡
が目立つが,これは高域のスペクトルをうまく作成する
ことで改善できると考えられる.この点は今後の課題と
して残される.
(9)SOLA法による初期信号生成
STFTM法の計算量を減らすために,SOLA法を
用いて8(”)の音声速度をL/M倍にした信号を初期
推定信号z0(”)として用意する.
(h)STFTM法による音声合成
(f)で得られた│蝿(mM,凶)│と(9)で得られた初
期推定信号zo(")を用いて,STFTM法により原音
声と同じ音声速度の合成音勿(沌)を得る.ここで,繰
参考文献
[1]伊藤憲三,斎藤収三:“音声の音響的特徴パラメー
タが個人性の知覚に及ぼす影響'',信学論,J65-A,1,
p
p
、
1
0
1
1
0
8
(
1
9
8
2
)
.
{2l阿部匡伸,中村哲,鹿野清宏,桑原尚夫:“ベクトル
量子化による声質変換,',信学技報,IT87-104(1987).
{3]松本弘,丸山靖史,井上博夫:“教師あり/教師な
り返しは多くても10回程度で十分である.
しスペクトル写像による声質変換'',音響誌,50,7,
p
p
,
5
4
9
5
5
5
(
1
9
9
4
)
.
4ピッチ変換実験
本方式により,最高ピッチ周波数が350(Hz)程度の女
声話者の音声(サンプリング周波数16(kHz))をピッチ
変換した例を,対数スペクトルの変化として図6に示す.
I41桑原尚夫,都木徹:“分析合成による声質変換と唄
声改善への応用,',信学技報,SP86-57(1986).
図6(a)は原音声,図6(b)はピッチ周波数を原音声の1.8
倍に変換した音声,図6(c)は0.6倍に変換した音声であ
[51清山信正,都木徹,梅田哲夫,宮坂栄一:“複素
ケプストラム分析合成によるピッチ変換法',,信学論
る.ここで,各スペクトルには原音声のスペクトル包絡
を重ねてプロットしてある.これらの図から,ピッチ変
換後の音声は,原音声のスペクトル包絡特性を良く保存
していることがわかる.
実際に試聴した結果,ピッチ周波数を上げた音声は非
常に良好な音質で,原音声の音質をかなり良く保存して
いた極端にピッチを上げると,音質を論じる以前に人
の声としての不自然さが目立つが,少なくとも2.0倍程
度までは,十分な音質と自然さを保ちながら変換可能で
ある.ピッチ周波数を下げる場合は,図6(c)に見られ
るように高域のスペクトルが欠落してしまうが,これは
本方式が周波数スケーリングによりピッチを下げている
からである.この場合,原音声のサンプリング周波数が
低いとき(8kHz)は,かなりこもり感が目立ってしまう.
しかし,サンプリング周波数が十分に高いとき(16kHz)
は,0.8倍程度までならばそれほどこもり感は目立たず,
音質はかなり良い.また,いずれの場合もボコーダによ
−29−
J75-A,4,pp,694702(1992).
【61C,Hamon,E・Moulines,F、Charpentier:“ADi‐
phoneSynthesi8Sy8temBasedonTime-Domain
ProsodicModificationsofSpeech",ICASSP'89,
p
p
、
2
3
8
2
4
1
(
1
9
8
9
)
.
[71新居康彦,蓑輪利光,吉田博子,西村洋文,鎌田弘
之,本田高:“高品質音声編集システムに関する検
討',,信学技報,SP93-141(1994).
I8lD.W・GrifIinandJ.S、Lim:“Signajestima戸
t
i
o
n
f
r
o
m
m
o
d
i
f
i
e
d
s
h
o
r
t
t
i
m
e
F
b
u
r
i
e
r
t
r
a
n
8
f
b
r
m
'
'
’
1EEEmrans.,Acoust.,speech&SignalProce88.,
A
S
S
P
3
2
,
2
(
1
9
8
4
)
.
{9]阿部匡伸,田村震一,桑原尚夫:“FFTスペクト
ルからの信号再生法による音声変換手法",信学論,
J
7
2
D
I
I
,
8
,
p
p
、
1
1
8
0
1
1
8
6
(
1
9
8
9
)
.
Time
Time
Time
WfWWmWW禰、垂=
I
I
w
l
b
M
、
_
雪
,
、
'
'
’
1
㈹
I
1
M
m
p
,
I
,
}
M
,
、
鱗
1
1
1
h
M
,
胸
抽
,
W
W
I
1
h
l
v
w
M
M
‐
L
…
。
‐
l
I
I
I
w
I
w
0
2 4 6
8 0
F
r
e
q
u
e
n
c
y
(
k
H
z
)
(
a
)
O
r
i
g
i
n
a
l
2 4 6
8 0
F
r
e
q
u
e
n
c
y
(
k
H
z
)
(b)1.8times
図6:原音声とピッチ変換音声のスペクトル変化の比較
[10]S,RoucosandA.M、Wilgus:“HighqUalitytime‐
scalemodificationfbrspeech''’1CASSP'85,pp、
493-496.
[111L、R、Rabiner,R,W・Schafbrj鈴木久喜訳:“音声
のディジタル信号処理'',コロナ社.
[12]今井聖,阿部芳春:“改良ケプストラム法によるスペ
クトル包絡の抽出",信学論,J62-A,4,pp、217L223
(
昭
5
4
)
.
−30−
2 4 6
F
r
e
q
u
e
n
c
y
(
k
H
z
)
(c)0.6times
8