入出力装置、AD/DA変換、 情報圧縮(3)

入出力装置、AD/DA変換、
情報圧縮(3)
情報処理概論
2016
音声入出力
•  マイクなどからの入力はアナログ信号
•  スピーカーなどへの出力はアナログ信号
•  コンピュータで扱えるのはデジタル量なので2
値化する必要がある
–  アナログ→デジタル変換 (AD)が必要
–  デジタル→アナログ変換 (DA)が必要
アナログ・デジタル変換(1)
•  標本化(サンプリング)
–  連続して変化する量を時間で区切って取り込む
•  量子化
–  取り込んだ量をデジタル値に変換
•  符号化
–  実数値を2進数に変換
•  ADコンバータは標本化と量子化を行う
•  帯域制限
–  ローパスフィルター 標本化周波数の1/2以下の信号
のみを通過する回路
デジタル・アナログ変換(2)
•  標本化誤差
–  時間軸を標本化したことに起因する誤差
•  量子化誤差
–  振幅をデジタル化したことに起因する誤差
•  標本化定理
–  元の音に含まれる最大周波数fの2倍の周波数
2fで標本化すれば周波数f以下のおとは再現さ
れる
–  シャノンの標本化定理
標本化(サンプリング)
•  一定の時間間隔で値を取り込む
振幅
時間
振幅
量子化
振幅
時間
符号化
時間
いろいろな処理で計算結果
が実数になった場合
振幅
帯域制限
時間
•  標本化周波数の1/2よりも高い周波数の信号は同じ値になり得る
•  Aliasing(エリアジング)
•  帯域制限によりこのような信号は除去する必要がある
標本化/量子化誤差
標本化誤差
量子化誤差
音
•  周波数帯域
–  人間の耳に聞き取れるのは20Hz〜20kHzぐらい
•  年を取ると劣化して....
•  音程として聞き取れるのは50Hz〜5kHzぐらい
•  猫:60Hz~65kHz、犬:40Hz~47kHz
–  ピアノ:約27Hzから約4200Hz
–  電話:300Hz〜3kHz
•  人の音声はこのぐらいで十分
•  話者のちがいがわかる
デジタル化した音声の規格
•  CD
–  16bit×2channel サンプリング周波数44.1kHz
–  ステレオなので左右違う音
–  20kHzの約2倍のサンプリング周波数
•  CD以外
–  16bit×2channel サンプリング周波数 48kHz
–  映画などでは5.1ch 前後左右、正面、低音
•  いわゆるハイレゾ
–  24bit198kHzsampling2channel
情報量 CD (1)
•  1秒あたり
16×2×44.1×103=1411200bit
=176400byte
≒172.26kibyte(1kibyte=1024byte)
•  1時間で
1411200×3600=5080320000bit
=635040000byte
≒605.63Mibyte(1Mibyte=1024kibyte)
•  CDの規格 74分42秒 約747MiByte
–  CD-ROM,CD-Rは650MiByte
情報量 CD (2)
•  計算方法(1秒あたり)
–  1チャンネルあたり16ビット
–  2チャンネル
–  サンプリング周波数 44.1kHz
16×2×44.1×103=1411200bit
≒172.26kibyte
•  1時間あたりのバイト数はこの3600倍
情報量 CD以外
•  1秒あたり
16×2×48×103=1536000bit
=192000byte
≒187.5kibyte(1kibyte=1024byte)
•  ネットワークの伝送速度は k=1000M=1000kなので注意
が必要
デジタルカメラ
•  1600万画素 RGB各8bit 1枚あたり
1600×104×0.75×3=36000000byte
≒34.33Mibyte
2次元イメージセンサにおける画素配置
4画素でRGB
HDTV(HiVisionTV)
•  1画面 1920×1080=207360画素(約2M)
•  1画素あたり RGB3byte
•  1秒あたり60画面(60framepersecond=60fps)
1秒あたり
207360×3×60=373248000byte
≒355.96Mibyte
1時間あたり 約1251.4Gibyte
•  BDは25Gbyteで3時間???
–  答え:情報圧縮をしている
情報圧縮(1)
•  可逆圧縮
–  圧縮前と同じデータを得ることができる
–  文書などファイルの圧縮
–  60%~50%ぐらいが限界
•  非可逆圧縮
–  圧縮前と同じデータにならない
–  人間の感覚の性質を利用(違いがわからない)
–  画像/動画/音声など圧縮
–  1/10から1/200に圧縮できる
情報圧縮(2)
•  音楽
–  MP3
•  静止画
–  JPEG
–  JPEG2000
•  動画
–  MPEG
–  MPEG2
–  MPEG4
•  可逆圧縮
–  ハフマン符号化
–  算術符号化
–  LZW法
•  数文字を辞書化
–  音声、画像データ
に適用してもほと
んど圧縮できない
情報圧縮(3)
•  どのぐらい圧縮されているか
–  音楽 MP3
•  128kibit/sec(約1/11)
–  デジタルカメラ (静止画 JPEG)
•  1/4から1/16
•  rawdataを出力できる機械もある
–  HDTV (動画 MPEG2)BDの場合
•  約1/150 (1251Gibyte×3)/25Gibyte
•  最大ビットレート 54Mibps
–  HDTV (動画) 地上波デジタル放送の場合
•  最大ビットレート 15Mibps
音楽(1)(MP3)
•  人間の耳に聴こえない音を省いてデータ量を減らす –  人間用の圧縮
•  離散フーリエ変換による周波数領域へのデータ変換
•  周波数領域での適応的ビット割り当て
–  等ラウドネス曲線
–  マスキング効果
•  ハフマン符号化による圧縮処理
–  可逆圧縮
音楽(2)(MP3)
等ラウドネス曲線
マスキング効果
静止画(1)(JPEG)
•  人間が識別するのが難しい部分を省いてデータ量を減
らす
–  JPEGの場合、1/20ぐらいが限界
•  RGBから色差信号に変換 色差信号を間引く
–  輝度Yデータ変化量大きい
–  色差U、V データ変化量小さい
•  平面情報を1次元データ列に (幾何学変換)
–  2次離散コサイン変換(DCT)
•  量子化
–  整数化 (DCTなどの結果は実数)
•  符号化圧縮
–  ハフマン符号化
静止画(2)(JPEG)
•  輝度 Y (グレイスケール Y=R+G+B)
•  色差 U B信号(青)から輝度Yを引く
–  U=(B-Y)(Cb,Pbと表記されこともある)
•  色差 V R信号(赤)から輝度Yを引く
–  V=(R-Y)(Cr,Prと表記されこともある)
•  人間の空間的分解能はY>U=V
–  U、Vは情報量を少なく(1/2)しても識別しがたい
–  色を感じる細胞の数の差
•  RGBから1色だけ減らすと色が変わってしまう
静止画(3)(JPEG)
周波数の低い領域
DCT(8x8)の基底
8×8の領域を基底の組み合わせに変換する
周波数の高い領域
動画(1)(MPEG2)
•  静止画の圧縮技術に加えて、フレーム間のデータの
差に関しての圧縮を行う
–  フレーム間予測
•  フレーム間のデータの差分のみを取り出す
–  GOP(GroupofPicture)
基準となるフレームと前後の数フレーム(差分)
•  動き補償
–  16x16(または8x8,4x4)の領域単位でフレーム間での移
動方向をコード化
•  動きの激しい場面では圧縮率を下げる
–  可変圧縮レート
動画(2)(MPEG2)
完全な1枚のフレーム
双方向(前後フレーム)
から予測するデータ
ひとつ前のフレームか
ら次のフレームがどう
変わるかの予測データ
動画(3)(MPEG2)