第 3 章 IP 電話のアーキテクチャ

第 3 章 IP 電話のアーキテクチャ
3.1 IP 電話のプロトコルスタック
3.1.1 IP 電話のアーキテクチャ
固定電話網では、通話網と呼制御のための信号網が分かれていることを説明した。
一方、IP 電話では、音声パケットと呼制御信号を同じ IP ネットワークで運ぶので、
通話網と信号網の物理的な分離はない。ただし、音声データを運ぶパケットと呼制
御信号を運ぶパケットは、アプリケーションレベルのプロトコルが異なる。それぞ
れの目的に適したプロトコルを使うのである。
すでに、OSI 参照モデルを引用してネットワークアーキテクチャの基本的なこと
を説明した。IP 電話についても、各種のプロトコルを階層的に積み重ねたプロト
コルスタックによって、ネットワークアーキテクチャを規定する。
IP 電話システムはネットワーク層プロトコルとして IP を使うものであるが、使
いやすく、通信品質が良い IP 電話を実現するためには、ネットワーク層を挟んだ
上位層および下位層のプロトコルの選択が重要である。
3.1.2 典型的なプロトコルスタック
図 3.1 は IP 電話を実現する典型的なプロトコルスタックである。この図は、電
話の音声信号だけでなく、テレビ電話やテレビ会議のような映像データを伴うアプ
リケーションにも当てはまる。
IP 電話の音声パケットを運ぶアプリケーションプロトコルとして一般に使われ
ているのは、RTP(実時間転送プロトコル)である。この後で詳しく説明するよう
に、RTP は RTCP(RTP 制御プロトコル)と組み合わせて使うプロトコルである。
RTP と RTCP はトランスポート層プロトコルとして UDP と TCP のどちらを使って
も良いことになっているが、IP 電話では UDP を使うのが一般的である。
H.323、Megaco/H.248、および SIP(セション開始プロトコル)は呼制御のため
のアプリケーションプロトコルであり、IP 電話システムを実現するための重要な
技術である。それぞれのプロトコルの内容については、第 4 章~第 6 章で説明す
る。これらの呼制御用プロトコルは、トランスポート層プロトコルとして、TCP
55
第 8 章 IP 電話の通話品質
8.1 音声品質評価
8.1.1 固定電話の音声品質
IP 電話を使って話をするときの音声品質は既存の固定電話の音声品質よりも劣
る。電話の音声品質を通話品質ともいうが、本書では音声品質という用語を使うこ
とにする。
従来の回線交換方式電話網では、エンドツーエンド伝送遅延時間が比較的短く、
しかも遅延時間の変動がほとんどない。そして、保証された一定の帯域幅あるいは
伝送速度の通信チャネルを確保するので、帯域幅変動による音声品質の低下がない。
しかし、電話の音声品質はテレビ放送や音楽レコードと比較すると劣る。これは
経済性との兼ね合いで音声信号の周波数帯域を制限しているからである。人が聞き
取れる可聴音の周波数範囲は概ね 20Hz~20,000Hz であるが、電話回線の周波数帯
域は概ね 300Hz~3,400Hz となっている。この周波数帯域の制限はコーデックの仕
様に基づいている。
電話の音声品質評価のために多くの評価方法が提案されている。各種の評価方法
は主観的評価方法と客観的評価方法に大別できる。電話の基本的な機能は、話の内
容を明瞭に伝えることである。音楽の放送や録音では、原音に対する忠実度が重要
であり、このためにできるだけ広い周波数帯域を確保するが、電話の場合は周波数
帯域の制限があるので、情報を伝えるのに適した明瞭度や了解度が重視される。
電話の受信音声は、レベルが小さすぎると聞きにくいし、大きすぎても聞きにく
い。ノイズやエコーによっても明瞭度が低下する。また、伝送遅延時間が大きすぎ
ると、会話がスムーズにできなくなる。電話の音声品質評価は、これらの品質劣化
要因を総合的に考慮しなければならないので、かなり難しい。
8.1.2 主観的評価方法
主観的評価方法は、評価試験設備を使い、試験担当者が耳で聞いた試験音声の品
質に評価点をつける方法である。主観的評価試験の評価点は受話者によってばらつ
くので、多数のデータを集めて統計的に処理する。主観的評価方法で得られるデー
155
タは実用的であるが、統計的に意味がある信頼できるデータを収集するには大きな
コストと時間がかかる。
主観評価方法として最も一般的なのが、ITU-T 勧告 P.800 として国際標準になっ
ているオピニオン評価法である。
この方法では、多数の試験担当者が実際に聞いた音声について、
5:非常に良い(Excellent:E)
4:良い(Good:G)
3:まあ良い(Fair:F)
2:悪い(Poor:P)
1:非常に悪い(Bad:B)
の 5 段階の点をつける。
こうして集めたデータを統計的に処理した値を平均オピニオン評点(MOS)と
言う。図 8.1 は MOS 値と試験担当者が付けた評点の分布の関係を概念的に示した
ものである。この図には A~D の 4 本のカーブを示してある。例えば、カーブ C
を見ると、「良い」および「非常に良い」と評価された試験データが 50%あるとき
の MOS 値は大体 3.5 である。
100
A
80
累積分布(%)
B
C
非常に
悪い
D
悪い
60
まあ良い
40
良い
20
0
非常に
良い
1
2
3
4
5
平均オピニオン評点(MOS値)
図 8.1
MOS 値と各評点の割合
156
現在の日本国内の固定電話サービスの電気通信事業者の固定電話サービスは、音
声品質の MOS 値が 3.5 以上になっているようである。アナログ電話交換機を使っ
ていた時代の MOS 値は 2.5 程度であったが、ディジタル市内電話交換機の導入に
よって、アクセスリンク以外がすべてディジタル化した結果、MOS 値が 1 ポイン
ト改善されたと報告されている。
8.1.3 客観的評価方法
主観的評価方法は、いろいろな音声品質劣化要因が複雑に絡み合ったときにも適
用できる優れた総合評価方法であるが、評価試験にかかるコストと時間が大きいの
が難点である。客観的評価方法は測定ツールを使って自動的に音声品質評価データ
を得る方法である。最近市販されている、IP 電話に適用する客観的評価ツールは、
主として PSQM(知覚音声品質測定)および PESQ(音声品質の知覚評価)と呼ぶ
技術を用いたものである。
PSQM はコーデックの音声品質評価のために開発された技術であり、ITU-T 勧告
P.861 として国際標準化されている。図 8.2 は PSQM による音声品質評価のモデル
である。テスト用音声を基準信号として、これとコーデックや通信ネットワークを
通した音声信号を比較して、音声品質劣化の度合いを評価する。
基準入力
2つの信号の
PSQM比較
テスト用
音声ファイル
PSQMからMOS
へのマッピング
MOS値
評価対象
コーデックや
VoIPゲートウェイ テスト入力
基準入力
知覚モデル
入力信号の
内部表現
内部表現の差分
テスト入力
知覚モデル
認識モデル
品質データ
入力信号の
内部表現
図 8.2
PSQM のモデル
比較評価部の基準入力信号と評価対象のテスト入力信号の 2 つの波形を単純に
比較するのではなく、人の頭脳の音声認識機構をモデル化した、知覚モデルに基づ
157
いて演算処理したデータを比較する。そして、比較した 2 のデータの差分を 0~6.5
の数値で表す。0 が劣化がないことを表し、6.5 は信号歪みが最も大きいことを表
す。この値は MOS 値とは対応しないので、最後に MOS 値に翻訳するマッピング
を行う。
PSQM では、基準入力信号とテスト入力信号を比較する前に、信号のレベルと時
間位置を合わせる前処理を行う。したがって、伝送遅延時間による音声品質の劣化
は評価できない。
PESQ は PSQM の弱点を補強した技術で、コーデックで発生する信号歪みの他に、
ビット誤り、パケット損失、伝送遅延時間などの影響を考慮している。PESQ は
ITU-T 勧告 P.802 として 2001 年に国際標準化され、これに準拠した音声品質評価
システムが市販されている。
8.2 音声品質の劣化要因
8.2.1 音声信号の大きさに基づく音声品質劣化
すでに説明した MOS と同様に、アナログ電話時代から使われてきた音声品質評
価尺度にラウドネスがある。ラウドネスは音声の大きさに対する人の感触を表すも
ので、音量感という表現もある。受信音声が小さすぎると話の内容がよくわからな
いが、大きすぎても聞き取りにくい。最適な音声信号レベルは、電話機の特性と、
電話回線の伝送損失の大きさによって決まることに着目した音声品質の評価尺度
がラウドネス定格(LR)である。
LR の測定は、図 8.3 に示す測定方法で行うことになっている。最初に送話者が
標準系と中間標準系に交互に音声を送る。受話者はこの音声を聞いて、音の大きさ
が同じになるように、中間標準系の可変減衰器を調節する。このことをラウドネス
平衡試験という。こうして設定した可変減衰器の減衰量を X1dB とする。次に、標
準系と被測定系の間でラウドネス平衡試験を行う。このとき設定した被測定系の可
変減衰器の減衰量を X2dB とする。そして、X1 と X2 の差分を LR 値とする。
LR 測定では、試験に使う音声信号の長時間平均スペクトルに大きな差がなけれ
ば、同じ LR 値が得られることがわかっている。そこで、実際の音声ではなく、長
時間平均スペクトルが試験用音声信号に一致するように調整した白色雑音を用い
て、客観的に LR 値を測定する方法が開発されている。
158
あるいは UDP を使う。
OSI参照モデル
データ伝送
呼制御
オーディオ符号
応用層
H.323
ビデオ符号
プレゼンテーション層
RTP
RTCP
セション層
トランスポート層
Megaco/H.248
SIP
TCP
UDP
ネットワーク層
IP
データリンク層
IPネットワークのプラットフォーム
物理層
図 3.1 IP 電話のプロトコルスタック
IP パケットを運ぶのに使うデータリンク層以下のプロトコルおよび通信回線は
何でもよい。ただし、良好な音声品質を実現するためには、データリンク層以下の
プラットフォーム部分の性能が重要である。このことについては第 8 章で説明する。
3.2 RTP と RTCP の概要
3.2.1 RTP による実時間通信
電話の基本は実時間通信である。電話回線の先には通話の相手がいて、電話で話
をしている人たちは、互いに時間を共有しているのである。滑らかな会話を続ける
ためには、話をする人の口から聞く人の耳までの音声信号伝送遅延時間が 0.1 秒
(100 ミリ秒)以下であることが望ましい。
従来の電話網はこのような条件を満たしているが、IP ネットワークでこうした
条件を満足することは簡単ではない。元々、IP ネットワークは実時間性に対する
要求条件が比較的緩い、コンピュータ間のファイル転送や、コンピュータの遠隔ア
クセス利用などの、データ通信を指向したネットワークである。しかし、経済的な
汎用通信ネットワークとして IP ネットワークが注目されるようになり、IP ネット
56
ワークを利用する実時間通信のニーズが大きくなった。
最初に検討された実時間通信指向のアプリケーションは、複数の端末をつないだ
多地点テレビ会議である。テレビ会議における情報表現の基本は、音声(オーディ
オ)と動画像(ビデオ)を使うことである。なお、米国ではビデオ会議という言葉
が一般的に使われているが、日本ではテレビ会議という言葉が一般的なので、本書
では「テレビ会議」に用語を統一する。
RTP は多地点テレビ会議を実現するためのプロトコルとして開発されたもので
あるが、現在では IP 電話を実現する標準技術になっている。
RTP による通信はコネクションレス型通信であるが、RTP パケットの送信端末
と受信端末の間に RTP セションを設定する。
一方の通信端末から見た RTP セションは、宛先トランスポートアドレスによっ
て決まる。トランスポートアドレスは、ネットワークアドレスである IP アドレス
と、RTP を識別する UDP ポート番号を組み合わせたものである。
この後で説明するように、RTP と RTCP を一対にして使うが、RTP のポート番
号と RTCP のポート番号は異なるので、1 つの RTP セションでは、RTP 用トラン
スポートアドレスと RTCP 用トランスポートアドレスを使う。
RTP セションは 1 方向セションなので、双方向同時伝送つまり全二重通信を行う
ためには、図 3.2 のように、伝送方向が異なる 2 つの RTP セションを用意する。
RTP セションが 1 つしかないと、片方向通話になってしまう。
パケット
RTP
RTCP
端末機器
RTP
パケット
端末機器
RTCP
図 3.2
RTP セションによる通信
RTP は実時間通信指向のプロトコルであるが、実時間通信のサービス品質を保証
するものではない。サービス品質劣化の主な要因には、エンドツーエンドの伝送遅
延時間の絶対値とその変動幅、伝送途中で発生するパケットの損失、受信側に到着
57
したパケットの順序逆転などがある。RTP はこれらの要因によるサービス品質劣化
を防ぎ、あるいは回復する機能を持っていないが、RTP に含まれる情報を利用して、
受信側でサービス品質を改善できる。この機能を実行するのに RTCP が役立つ。
3.2.2 RTP と RTCP のポート番号
TCP/IP プロトコルスタックでは、TCP あるいは UDP の上位のアプリケーション
プロトコルを識別するためにポート番号を使う。ファイル転送や電子メールなどの
標準的なアプリケーションプロトコルについては、周知のポート番号と呼ぶ、固定
したポート番号が割り当てられている。第 1 章で説明したように、周知のポート番
号の範囲は 0~1,023 であり、ランダムポート番号と呼ぶ 1,024~65,535 の範囲の番
号は、自由に定義して使うことができる。RTP と RTCP のポート番号はランダムポ
ート番号である。
図 3.3 のように、1 つの IP アドレスを持つ機器で、複数の通信を同時に行うとき
は、それぞれの通信のための RTP セションを用意する。そして、それぞれの RTP
セションは異なるポート番号を使う。
異なるRTPポート番号
異なるRTPポート番号
IPネットワーク
ゲートウェイ
ゲートウェイ
IPアドレス
IPアドレス
図 3.3 RTP による通信
1 対の RTP と RTCP のポート番号は連続した値であり、RTP のポート番号が偶
数で、RTCP のポート番号が次の奇数番号である。
58