サイレントハミング: 呼気音と咽頭運動を利用した鼻歌再現

サイレントハミング:
呼気音と咽頭運動を利用した鼻歌再現システム
安
謙太郎*1
竹内
祐太*1
稲見
昌彦*1
Silent Humming: virtual humming system using egressive and pharyngeal movement
Kentaro Yasu*1 Yuta Takeuchi*1 and Masahiko Inami*1
― 鼻歌を歌うのは気持ちがいい.しかし周りの人にしてみれば迷惑でもある. そこで本研究では,
サイレントピアノ,サイレントバイオリン等に倣い,周りに聞こえない鼻歌を実現するデバイス「サイレントハミ
ング」を提案する. 本デバイスは,頸部に装着した呼気音マイクおよび咽頭位置センサにより,周りの人には聞こ
えないレベルの微小無声音および咽頭位置をセンシングすることで,全く発声することなく鼻歌の音量,音程を再
現する.
Abstract
Keywords: humming, silent, system, entertainment
1. はじめに
鼻歌を歌うことは楽しい.筆者はよく音楽を聞
きながら歩いているときなどに鼻歌を歌うが,他
人に鼻歌が聞かれることは非常に恥ずかしく,気
まずいものである.また周りの人にフラストレー
ションを与え,迷惑となる場合も多い.
そこで本研究では外環境に対して音声の侵襲
を最低限に抑えつつ,電気的に鼻歌を再現するデ
バイス「サイレントハミング」を提案する.本デ
バイスを使用することにより,たとえ混雑した電
車の車内にいたとしても周りの乗客に気づかれ
ることなく擬似的に鼻歌をうたうことができる.
2. 関連研究
入力に音声を必要としない話し言葉の入力イ
ンタフェースとしては,顔の表情筋の運動を,筋
電計測を用いて入力とし,会話内容を推定する研
究が挙げられる[1][2][3].しかし,これらは顔,
特に口の周辺に電極を複数個貼り付ける,または
電極を設けた指輪型デバイスを顔に当てる必要
がある[3].
これらに対し中島らは他人には聞こえない音
量のつぶやきである「非可聴つぶやき」
(Non-Audible Murmur :NAM)のセンシングが可
能な音声インタフェース「肉伝導マイク」を作成
した[4].NAM とは声帯を振動させずに発せられ
る音声のうち,空気をほとんど振動させない声門
付近の乱流雑音を指し,肉伝導マイクは耳介後下
*1
: 慶応義塾大学大学院メディアデザイン研究科, [email protected]
:
Graduate School of Media Design, Keio University
*1
方部に装着することで体内を伝導するその微弱
な振動を検出することができる.しかし微弱な無
声音では音程の高低差の表現が難しく,音声の韻
律は失われてしまう.その点において中島らは音
声基本周波数と,音声の発生源である咽頭の位置
に着目.肉伝導マイク縦アレイを作成し,通常音
声では両出力のパワー比と,音声基本周波数 f0
に相関関係があること示した.しかし NAM 発音
においては音声基本周波数自体が検出できない
ため同様の相関を認めることはできていない.
また,発せられていない音を擬似的に提示する
ものとして松岡らの口笛の音域を拡張するシス
テムが挙げられる[5].かすれた状態の口笛の音
から呼気音によるノイズを除去し,最大の振幅を
もつ周波数の音声を増幅し出力することで,演奏
者が提示したいと思われる音域の口笛を再現す
る.これにより演奏者はあたかも自分の口笛の演
奏音域が拡張したかのような感覚を体験するこ
とができる.
本研究では声帯を振動させることによる音階
表現としての鼻歌と咽頭の位置の関係に着目し,
入力に音声を一切必要とせず,リアルタイムに鼻
歌を再現する手法を提案する.また,使用環境と
して日常の生活空間を想定しており,極力利用者
の肉体的,精神的負荷の尐ない装着方法,演奏方
法を目指す.
3. システム
本章では提案するデバイス「サイレントハミン
グ」(図1)の構成および設計概念について説明
する.
図 1 サイレントハミング
図 3 呼気マイク外観
Fig. 1 Silent Humming
Fig. 3 Overview of Breath Sensor Module
2.1 システム概要
本システムは呼気音をセンシングする「呼気マ
イク」
,咽頭の位置をセンシングする「のどセン
サ」
,これらセンサからの値を処理し,音を生成
する PC,生成された音を提示するスピーカから
構成される(図2).以下にそれぞれについての
詳細を記す.
ンデンサマイクを設けたもので,チェストピース
部を咽頭側部に密着させて使用する.これにより,
無声音によって発声する頸部の皮膚に伝わる極
小さな振動も採取することができる.
この呼気マイクを用いて呼気音の周波数特性
を観察すべく,健康な 20 代男女 10 名(男性 5
名,女性 5 名)の被験者に対し,口を閉じた状態
で,①通常呼吸,②意識的に声門を尐し狭めた状
態で発する無声音,③通常の鼻歌を行うよう依頼
した.それぞれの被験者の音声はリアルタイムで
高速フーリエ変換(以下 FFT)され,その周波数
特性を観察した(図4).
① Breathing
図 2 システム概要
Fig. 2 System Overview
2.2 呼気音のセンシング
まず,ここでは呼気音を「呼吸運動によって声
帯付近で発生する乱流雑音のうち,意識的に声門
を尐し狭めた状態で,息を吐いているときに発生
する微弱無声音」と定義する.定義の理由を以下
に記す.
通常我々が鼻歌を歌うときは,口を閉じた状態
で声門を狭め,声帯を振動させることで発声が行
われる.サイレントハミングはこの鼻歌を歌うと
いう行為から,外環境に侵襲する声帯振動による
音声のみを取り除くことを目的としている.そこ
で,
「声帯を振動させることはなく,周りに音声
が聞こえることもないが,意識的にオン・オフを
切り替えられるレベルの無声音」を鼻歌生成にお
ける音量の入力信号として採用すべく,まずその
状態における声帯周辺の音声を収集する「呼気マ
イク」を作成した(図3).
呼気マイクは聴診器のチェストピース部にコ
② Unsound Voice
③ Sound Voice
図 4 取得音声の FFT 結果
Fig. 4 FFT Results of the 3types of sound
その結果,全ての被験者において 1500Hz を中
心とした成分が①および②において検出され,③
では検出されないこと,また 500Hz 周辺の成分
が①のみで検出されることが明らかになった.
この結果をもとに,「意識的に声門を尐し狭め
た状態で発する無声音」を呼気音と定義し,呼気
マイクで検出される音声のうち,500Hz 周辺の成
分を持たず,1500Hz を中心とした成分が高い状
態となる微小無声音を擬似鼻歌の音量制御に利
用することを決定した.
2.4 音の生成
呼気マイクおよび咽頭位置センサから PC に送
られてきた信号は PureData[7]で作成したプログ
ラムにより処理され,擬似鼻歌が生成される(図
7).擬似鼻歌はスピーカまたはイヤフォンに出
力される.
2.3 咽頭位置のセンシング
人間の声の基本周波数制御にはその上昇に輪
状甲状筋が,下降には胸骨舌骨筋が関係している
[6].喉に手を当ててみるとわかるが,周波数の
高い声であれば咽頭位置は高く,低い声であれば
咽頭位置は低くなる.このことに着目し,擬似鼻
歌を再現する際の周波数制御に利用すべく咽頭
位置センシングモジュールを作成した(図5).
咽頭位置センサモジュールは頸部に装着でき
るよう縦 6cm,横 5cm,厚さ 2cm の小型の箱状
とした.また,外乱光の影響を抑え,皮膚の色に
よるセンサ値の変動を押さえるべく,全体を伸縮
性のある黒い布で覆った.このモジュールをアジ
ャスター付きのベルトで喉に押し当てるように
固定して咽頭位置のセンシングを行う.
図 7 情報処理ブロック図
Fig. 7 Processing Block Diagram
図 5 咽頭位置センサモジュール
Fig. 5 A Throat Position Sensor Module
内部には 6 つのフォトインタラプタ(コーデン
シ㈱製 SG 105)を設けており,それぞれの値か
ら最も突出している位置として咽頭位置を算出
する(図6).
図 6 咽頭位置計測原理
Fig. 6 Throat Position Measuring
 音量の制御
サイレントハミングは擬似的な鼻歌の生成を
目的としているため,装着時の鼻歌以外の音声に
よる鼻歌の生成はできるだけ避けたい.そこで,
500Hz を中心とした周波数成分が検出されたと
きは,装着者が有声音を発しているものとし,そ
の間擬似鼻歌が生成されないよう設計した.
有声音を発しているときは 1500Hz 周辺成分お
よび 1500Hz を中心とした周波数成分が検出され,
呼気音を発しているときは 1500Hz 周辺成分のみ
が検出される.よって,1500Hz 周辺成分から
500Hz 周辺成分を減算した信号を調整し生成す
る擬似鼻歌の音量として利用した.
 周波数の制御
咽頭位置センサから送られてきた信号から,生
成する擬似鼻歌の周波数を決定すべく,まず咽頭
位置と音声の基本周波数の関係を調べた.
横から見て咽頭位置がはっきりと確認できる
20 代男性 2 名に対し,下顎をやや上向きで固定
し,約 2 オクターブ(C3 から C4 まで上昇,C3
から C2 まで下降,メジャースケールのみ)のハ
ミングを依頼した.被験者の自己申告により,
「こ
れ以上はもうでない」という段階が範囲内で訪れ
たときは,その直前の音階までを有効データとし
た.
計測は頸部に装着した咽頭マイクから音声周
波数を取得すると同時に,真横から画像計測を行
った(図8).発声はまず装着したイヤフォンに
発声する周波数の音を提示し,発声が安定した時
点を計測点とした.この計測点にて得られた画像
から,胸部上方にマーカとして貼りつけたテープ
の位置から咽頭突出部までの絶対位置を得,最低
咽頭位置からの変位量と,音声基本周波数との関
係を以下に示す(図9).
4. 演奏
本システムを用いた擬似鼻歌の演奏を 20 代男
女 4 名(男性 2 名,女性 2 名)に体験してもらっ
た.一部の男性被験者および女性の被験者の場合,
咽頭センサ位置をやや頸部上方に装着する必要
や,呼気音検出における閾値を調整する必要はあ
ったものの,咽頭位置センサ,呼気マイクともに
それぞれ咽頭位置および呼気音の検出に成功し
た.特に,女性被験者の場合,咽頭位置は目視で
は確認できなかったもののセンサ値として検出
することができたことは特筆に値する.
5. おわりに
本稿では,外環境に音声侵襲しない擬似鼻歌提
示デバイス,サイレントハミングの実装手法につ
いて述べた.サイレントハミングでは,咽頭位置
センサおよび微小呼気音を入力として,外環境に
対する音声侵襲をほとんど与えずに擬似的に鼻
歌を生成することができた.
図 8 咽頭位置の変位計測
Fig. 8 Throat Position Displacements
参考文献
[1]
福田 修,藤田 真治,辻 敏夫.EMG 信号を利
用した代用発声システム.電子情報通信学会論文
誌,vol. 88, no. 1, pp. 105-112, 2005.
[2]
Michael
Wand
and
Tanja
Schultz,
Towards
Speaker-Adaptive Speech Recognition based on
Surface Electromyography, International Conference
on Bio-inspired Systems and Signal Processing,
Biosignals 2009, Porto, Portugal, 14. Januar 2009
[3]
真鍋 宏幸,平岩 明,杉村 利明.無発声音声認
識のための指輪型電極の提案.情報科学技術フォ
ー ラ ム 一 般 講 演 論 文 集 , 2002(3), 421-422,
2002-09-13
図 9 咽頭位置と音声基本周波数
Fig. 9 Throat Position and
[4]
中島 淑貴.NAM インターフェース・コミュニ
ケーション: その基礎としての肉伝導音声セン
Basic Frequency
サー開発と検討.奈良先端科学技術大学院大学博
士論文,2005,
人間の声の基本周波数制御には輪状甲状筋と
胸骨舌骨筋が関係しているため,一概に咽頭位置
でのみ周波数が決定するわけではない.しかし,
約 2 オクターブの発声においては咽頭位置に強
い相関があることが明らかになった.よって咽頭
位置センサモジュールから送られてくる値に対
し,各装着者に対する咽頭の最低位置と最高位置
をまず計測し,その間を C2 から C4 かけての 2
オクターブ程度に設定した.
[5]
松岡拓人,宮下芳明.口笛の音域を拡張するシス
テム.エンターテインメントコンピューティング,
2010,2010
[6]
森山 高明,山下 崇晴,羽尻 公一郎,小川 均,
天白 成一.喉頭の下降機構を考慮した基本周波
数生成モデルの提案と評価,電子情報通信学会技
術研究報告. SP, 音声 96(39), 1-8, 1996-05-16
[7]
http://puredata.info/