入出力装置、AD/DA変換、 情報圧縮(3) 情報処理概論 2016 音声入出力 • マイクなどからの入力はアナログ信号 • スピーカーなどへの出力はアナログ信号 • コンピュータで扱えるのはデジタル量なので2 値化する必要がある – アナログ→デジタル変換 (AD)が必要 – デジタル→アナログ変換 (DA)が必要 アナログ・デジタル変換(1) • 標本化(サンプリング) – 連続して変化する量を時間で区切って取り込む • 量子化 – 取り込んだ量をデジタル値に変換 • 符号化 – 実数値を2進数に変換 • ADコンバータは標本化と量子化を行う • 帯域制限 – ローパスフィルター 標本化周波数の1/2以下の信号 のみを通過する回路 デジタル・アナログ変換(2) • 標本化誤差 – 時間軸を標本化したことに起因する誤差 • 量子化誤差 – 振幅をデジタル化したことに起因する誤差 • 標本化定理 – 元の音に含まれる最大周波数fの2倍の周波数 2fで標本化すれば周波数f以下のおとは再現さ れる – シャノンの標本化定理 標本化(サンプリング) • 一定の時間間隔で値を取り込む 振幅 時間 振幅 量子化 振幅 時間 符号化 時間 いろいろな処理で計算結果 が実数になった場合 振幅 帯域制限 時間 • 標本化周波数の1/2よりも高い周波数の信号は同じ値になり得る • Aliasing(エリアジング) • 帯域制限によりこのような信号は除去する必要がある 標本化/量子化誤差 標本化誤差 量子化誤差 音 • 周波数帯域 – 人間の耳に聞き取れるのは20Hz〜20kHzぐらい • 年を取ると劣化して.... • 音程として聞き取れるのは50Hz〜5kHzぐらい • 猫:60Hz~65kHz、犬:40Hz~47kHz – ピアノ:約27Hzから約4200Hz – 電話:300Hz〜3kHz • 人の音声はこのぐらいで十分 • 話者のちがいがわかる デジタル化した音声の規格 • CD – 16bit×2channel サンプリング周波数44.1kHz – ステレオなので左右違う音 – 20kHzの約2倍のサンプリング周波数 • CD以外 – 16bit×2channel サンプリング周波数 48kHz – 映画などでは5.1ch 前後左右、正面、低音 • いわゆるハイレゾ – 24bit198kHzsampling2channel 情報量 CD (1) • 1秒あたり 16×2×44.1×103=1411200bit =176400byte ≒172.26kibyte(1kibyte=1024byte) • 1時間で 1411200×3600=5080320000bit =635040000byte ≒605.63Mibyte(1Mibyte=1024kibyte) • CDの規格 74分42秒 約747MiByte – CD-ROM,CD-Rは650MiByte 情報量 CD (2) • 計算方法(1秒あたり) – 1チャンネルあたり16ビット – 2チャンネル – サンプリング周波数 44.1kHz 16×2×44.1×103=1411200bit ≒172.26kibyte • 1時間あたりのバイト数はこの3600倍 情報量 CD以外 • 1秒あたり 16×2×48×103=1536000bit =192000byte ≒187.5kibyte(1kibyte=1024byte) • ネットワークの伝送速度は k=1000M=1000kなので注意 が必要 デジタルカメラ • 1600万画素 RGB各8bit 1枚あたり 1600×104×0.75×3=36000000byte ≒34.33Mibyte 2次元イメージセンサにおける画素配置 4画素でRGB HDTV(HiVisionTV) • 1画面 1920×1080=207360画素(約2M) • 1画素あたり RGB3byte • 1秒あたり60画面(60framepersecond=60fps) 1秒あたり 207360×3×60=373248000byte ≒355.96Mibyte 1時間あたり 約1251.4Gibyte • BDは25Gbyteで3時間??? – 答え:情報圧縮をしている 情報圧縮(1) • 可逆圧縮 – 圧縮前と同じデータを得ることができる – 文書などファイルの圧縮 – 60%~50%ぐらいが限界 • 非可逆圧縮 – 圧縮前と同じデータにならない – 人間の感覚の性質を利用(違いがわからない) – 画像/動画/音声など圧縮 – 1/10から1/200に圧縮できる 情報圧縮(2) • 音楽 – MP3 • 静止画 – JPEG – JPEG2000 • 動画 – MPEG – MPEG2 – MPEG4 • 可逆圧縮 – ハフマン符号化 – 算術符号化 – LZW法 • 数文字を辞書化 – 音声、画像データ に適用してもほと んど圧縮できない 情報圧縮(3) • どのぐらい圧縮されているか – 音楽 MP3 • 128kibit/sec(約1/11) – デジタルカメラ (静止画 JPEG) • 1/4から1/16 • rawdataを出力できる機械もある – HDTV (動画 MPEG2)BDの場合 • 約1/150 (1251Gibyte×3)/25Gibyte • 最大ビットレート 54Mibps – HDTV (動画) 地上波デジタル放送の場合 • 最大ビットレート 15Mibps 音楽(1)(MP3) • 人間の耳に聴こえない音を省いてデータ量を減らす – 人間用の圧縮 • 離散フーリエ変換による周波数領域へのデータ変換 • 周波数領域での適応的ビット割り当て – 等ラウドネス曲線 – マスキング効果 • ハフマン符号化による圧縮処理 – 可逆圧縮 音楽(2)(MP3) 等ラウドネス曲線 マスキング効果 静止画(1)(JPEG) • 人間が識別するのが難しい部分を省いてデータ量を減 らす – JPEGの場合、1/20ぐらいが限界 • RGBから色差信号に変換 色差信号を間引く – 輝度Yデータ変化量大きい – 色差U、V データ変化量小さい • 平面情報を1次元データ列に (幾何学変換) – 2次離散コサイン変換(DCT) • 量子化 – 整数化 (DCTなどの結果は実数) • 符号化圧縮 – ハフマン符号化 静止画(2)(JPEG) • 輝度 Y (グレイスケール Y=R+G+B) • 色差 U B信号(青)から輝度Yを引く – U=(B-Y)(Cb,Pbと表記されこともある) • 色差 V R信号(赤)から輝度Yを引く – V=(R-Y)(Cr,Prと表記されこともある) • 人間の空間的分解能はY>U=V – U、Vは情報量を少なく(1/2)しても識別しがたい – 色を感じる細胞の数の差 • RGBから1色だけ減らすと色が変わってしまう 静止画(3)(JPEG) 周波数の低い領域 DCT(8x8)の基底 8×8の領域を基底の組み合わせに変換する 周波数の高い領域 動画(1)(MPEG2) • 静止画の圧縮技術に加えて、フレーム間のデータの 差に関しての圧縮を行う – フレーム間予測 • フレーム間のデータの差分のみを取り出す – GOP(GroupofPicture) 基準となるフレームと前後の数フレーム(差分) • 動き補償 – 16x16(または8x8,4x4)の領域単位でフレーム間での移 動方向をコード化 • 動きの激しい場面では圧縮率を下げる – 可変圧縮レート 動画(2)(MPEG2) 完全な1枚のフレーム 双方向(前後フレーム) から予測するデータ ひとつ前のフレームか ら次のフレームがどう 変わるかの予測データ 動画(3)(MPEG2)
© Copyright 2024 Paperzz