システム パフォーマンス解析

ザイ リ ン ク ス ソ フ ト ウ ェ ア
開発キ ッ ト (SDK) ユーザー
ガイ ド
シス テム パフ ォ ーマ ン ス解析
UG1145(v2015.1)
(v2015.2)
2015
月
UG1145
2015
年 4年
月 16 日
24 日
本資料は表記のバージョンの英語版を翻訳したもので、内容に相違が生じる場合には原文を優先します。資
料によっては英語版の更新に対応していないものがあります。日本語版は参考用としてご使用の上、最新情
報につきましては、必ず最新英語版をご参照ください。
ザ イ リ ン ク ス ソ フ ト ウ ェ ア 開発
改訂履歴
次の表に、 こ の文書の改訂履歴を示
し ます。
2015/06/24
: Vivado Design Suite
2015.2 リリース。内容の変更なし。
日付
バージ ョ ン
改訂内容
2015 年 4 月 1 日
2015.1
AXI パフ ォーマ ン ス モニ タ ー (APM) に関す る 制限事項を追加 し て、「PL プ ロ フ ァ イ ル カ
ウ ン タ ー」 を更新
「 ト レーニ ン グ リ ソ ース」 ビデオを 「その他の ソ ースお よ び法的通知」 に追加
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
2
目次
改訂履歴 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
第 1 章 : 概要
SPA ツールボ ッ ク ス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
パフ ォーマ ン ス解析フ ロ ー . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
要件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
その他の リ ソ ース . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
7
8
9
第 2 章 : 背景
第 3 章 : シ ス テム パフ ォ ーマ ン ス モデ リ ング プ ロ ジ ェ ク ト
SPM ソ フ ト ウ ェ ア . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
SPM ハー ド ウ ェ ア . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
第 4 章 : 監視フ レームワー ク
PL プ ロ フ ァ イ ル カ ウ ン タ ー . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
PS プ ロ フ ァ イ ル カ ウ ン タ ー . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
ホ ス ト / タ ーゲ ッ ト 間の通信 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
第 5 章 : SPM の入門
ATG コ ン フ ィ ギ ュ レーシ ョ ン . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
パフ ォーマ ン ス解析のパースペ ク テ ィ ブ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
第 6 章 : ソ フ ト ウ ェ ア パフ ォ ーマ ン スの評価
パフ ォーマ ン ス の監視 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
パフ ォーマ ン ス改善の可視化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
第 7 章 : ハイ パフ ォ ーマ ン ス ポー ト の評価
HD ビデオ ト ラ フ ィ ッ ク . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
高帯域幅 ト ラ フ ィ ッ ク . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
第 8 章 : DDR コ ン ト ロー ラ ー設定の評価
デフ ォ ル ト の DDRC 設定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
変更 し た DDRC 設定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
オンチ ッ プ メ モ リ の使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
第 9 章 : メ モ リ 階層および ACP の評価
メ モ リ パフ ォーマ ン ス の査定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
デー タ サ イ ズお よ び局所性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
共有 L2 キ ャ ッ シ ュ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
3
第 10 章 : カ ス タ ム タ ーゲ ッ ト の使用
ソ フ ト ウ ェ アの計測 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
ハー ド ウ ェ アの計測 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
カ ス タ ム タ ーゲ ッ ト の監視 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
第 11 章 : 徹底パ フ ォ ーマ ン ス解析
要件の査定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
デザ イ ンのモデル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
パフ ォーマ ン ス検証 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
詳細な解析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
63
65
68
付録 A : パフ ォ ーマ ン ス チ ェ ッ ク リ ス ト
付録 B : その他のソ ースおよび法的通知
ザ イ リ ン ク ス リ ソ ース . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ソ リ ュ ーシ ョ ン セ ン タ ー . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
参考資料 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ト レーニ ン グ リ ソ ース . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
重要な法的通知 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
72
72
72
73
73
4
第 1章
概要
ザ イ リ ン ク ス Zynq®-7000 All Programmable SoC デバ イ ス フ ァ ミ リ は、 デ ュ アル コ ア ARM® Cortex™-A9 MPCore™
プ ロ セ ッ シ ン グ シ ス テ ム (PS) と 、 28nm テ ク ノ ロ ジのザ イ リ ン ク ス 7 シ リ ーズのプ ロ グ ラ マブル ロ ジ ッ ク (PL) を統
合 し てい ます。 PS と PL は、 パフ ォーマ ン スお よ びシ ス テ ム を統合する ために設計 さ れた標準 ARM AMBA™ AXI イ
ン タ ーフ ェ イ ス を介 し て接続 さ れてい ます。 こ の タ イ プの SoC は業界で も 新 し く 、 シ ス テ ム パフ ォーマ ン ス を し っ
か り と 把握で き る よ う 、 新 し い タ イ プのパフ ォーマ ン ス解析お よ びベンチマーキ ン グ テ ク ニ ッ ク が必要にな り ます。
Zynq-7000 AP SoC アーキ テ ク チ ャ の持つ機能を最大限に利用 し 、 市場で製品の差別化を可能にする には、 こ のアーキ
テ ク チ ャ を よ く 理解 し てお く こ と が重要です。
SPA ツールボ ッ ク ス
パフ ォーマ ン ス解析 と ベンチマー ク テ ク ニ ッ ク の必要性に応え て、 ハー ド ウ ェ アお よ び ソ フ ト ウ ェ ア シ ス テ ム を早
期段階で検証で き る よ う 、 ザ イ リ ン ク ス ソ フ ト ウ ェ ア開発キ ッ ト (SDK) には、 シ ス テ ム パフ ォ ーマ ン ス解析 (SPA)
ツールボ ッ ク ス が含ま れ、 改善 さ れてい ます。 特に、 Zynq-7000 AP SoC を設計す る 場合は、 その複雑な異種シ ス テ ム
での イ ン タ ラ ク シ ョ ン を把握で き る よ う 、PS と PL の両方を確認で き る よ う にな っ てい ます。デザ イ ン フ ロ ーの重要
な段階でシ ス テ ム パフ ォーマ ン ス を確認 し 、 シ ス テ ムのパフ ォーマ ン ス を改善 し てい く こ と がで き ます。
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
5
第 1 章 : 概要
X-Ref Target - Figure 1-1
ソフトウェア
パフォーマンス解析
(SPA)
ソフトウェア
プロファイル ツール
システム
デバッガー
ドライバー/
ライブラリ
システム
パフォーマンス
モデリング (SPM)
監視
フレームワーク
ユーザー インター
フェイス/視覚化
図 1‐1 : シス テム パ フ ォ ーマ ン ス解析 (SPA) ツールボ ッ ク ス を含んだザイ リ ン ク ス SDK の機能
図 1-1 は、 SDK の機能セ ッ ト に SPA ツールボ ッ ク ス が ど の よ う に組み込まれてい る か を示 し てい ます。 SDK にはほ
かに、 ソ フ ト ウ ェ ア プ ロ フ ァ イ リ ン グ ツール、シ ス テ ム デバ ッ ガー、 ド ラ イ バーお よ び ラ イ ブ ラ リ のサポー ト と いっ
た重要な機能があ り ます。 SPA ツールボ ッ ク ス には、 監視フ レーム ワ ー ク 、 ユーザー イ ン タ ーフ ェ イ ス が含まれてい
る だけでな く 、 シ ス テ ム パフ ォーマ ン ス モデ リ ン グ (SPM) と 呼ばれ る 早期段階の検証用環境 と 、 ユーザー デザ イ ン
の監視お よ び解析 と い う 2 つの重要な使用モデルに共通 し た可視化ツールが含 ま れてい ま す。 こ の ツールボ ッ ク ス
は、デザ イ ン プ ロ セ ス で一貫 し たパフ ォーマ ン ス が得 ら れ る よ う に、パフ ォーマ ン ス を検証す る ために使用で き ます。
SPM は SDK 独特の機能で、設計作業を始め る 前か ら 、複雑なパフ ォーマ ン ス モデ リ ン グ を行 う こ と がで き ます。SPM
は実際の タ ーゲ ッ ト ハー ド ウ ェ アで実行 さ れます。 ま た、5 つの AXI ト ラ フ ィ ッ ク ジ ェ ネ レー タ ーを含んだ、非常に
コ ン フ ィ ギ ャ ラ ブルな固定ビ ッ ト ス ト リ ームが含まれてい ます。 こ れ ら の ト ラ フ ィ ッ ク ジ ェ ネ レー タ ーは、 PL ト ラ
フ ィ ッ ク を モデルす る ための コ ン フ ィ ギ ャ ラ ブルな コ アで、 SDK で使用 さ れ ます。 プ ロ セ ッ シ ン グ シ ス テ ム で同時
に ソ フ ト ウ ェ ア アプ リ ケーシ ョ ン も 実行で き る ので、 シ ス テ ム コ ン フ ィ ギ ュ レーシ ョ ン パ ラ メ ー タ ーを ユーザー指
定で き ます。
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
6
第 1 章 : 概要
パフ ォ ーマ ン ス解析フ ロー
SDK には、 SPM デザ イ ン を使用 し た徹底 し たパフ ォ ーマ ン ス解析フ ロ ーがあ り ます。 こ の フ ロ ーを使用 し 、 予想デ
ザ イ ンで ト ラ フ ィ ッ ク を モデル し た後に、 実際のデザ イ ン を使用 し てパフ ォーマ ン ス を検証で き ます。
X-Ref Target - Figure 1-2
用件の査定
デザインのモデル
パフォーマンス検証
詳細な解析
図 1‐2 : 徹底 し たパフ ォ ーマ ン ス解析フ ロー
図 1-2 に示す よ う に、 こ の フ ロ ーには 4 つの ス テ ッ プがあ り ます。
要件の査定 : まず、 タ ーゲ ッ ト シ ス テ ムの PS - PL イ ン タ ーフ ェ イ ス でのデー タ スループ ッ ト な ど、 デザ イ ンの AXI
ト ラ フ ィ ッ ク 要件を予測 し ます。
デザ イ ン のモデル : 予測 し た ト ラ フ ィ ッ ク 要件に基づいて、 SPM を使用 し てデザ イ ン を モデル し ま す。 実際の タ ー
ゲ ッ ト ハー ド ウ ェ アが使用 さ れ る ため、 リ アル タ イ ム の ク ロ ッ ク レー ト を達成で き ます。 こ のため、 ほかのモデ リ
ン グ環境 と 比較す る と 、 ラ ン タ イ ムは改善 さ れます。 ま た、 実際のシ ス テ ム ア ク テ ィ ビ テ ィ が監視 さ れ る ので よ り 正
確にな り ます。
パフ ォーマ ン ス検証 : デザ イ ン を開発 し なが ら 、 実際のデザ イ ン を監視 し 、 可視化 し てい く こ と で、 パフ ォーマ ン ス
結果を検証す る こ と がで き ます。
詳細な解析 : SDK パフ ォーマ ン ス ツールは、 デザ イ ン オプシ ョ ン を評価 し 、 デザ イ ン を改善 し た こ と に よ る 影響を
予測す る ため、 デザ イ ン を詳細に解析 し ます。
こ う し た徹底 し たパフ ォーマ ン ス解析フ ロ ーには次の よ う な利点があ り ます。
•
リ ス ク 軽減 : SPM ベース モデルを利用 し て目的の レ イ テ ン シお よ びスループ ッ ト を達成 し てお く こ と で、最終デ
ザ イ ンで も 同 じ パフ ォーマ ン ス を達成 し やす く な り ます。 確約 さ れてい る わけではあ り ませんが、 Zynq-7000 AP
SoC でパフ ォーマ ン ス目標を満た し やす く な り ます。
•
デザ イ ンの改善 : SPM を使用 し て さ ま ざ ま な ト ラ フ ィ ッ ク シナ リ オを予測 し てお く こ と で、レ イ テ ン シな ど シ ス
テ ム パフ ォーマ ン ス に関す る デー タ を収集で き 、 実際のデザ イ ンで役立て る こ と がで き ます。
•
さ ま ざ ま なシナ リ オ設定 : SPM は非常に コ ン フ ィ ギ ャ ラ ブルなモデルであ る ため、 さ ま ざ ま な機能やアーキ テ ク
チ ャ を試 し てみ る こ と がで き ます。
こ のガ イ ド では、 こ のパフ ォーマ ン ス解析ツールボ ッ ク ス の技術情報だけでな く 、 その利便性や強みを理解す る ため
の手法について も 説明 し ます。 こ の ツールボ ッ ク ス では、 タ ーゲ ッ ト プ ラ ッ ト フ ォームの機能に関 し てだけでな く 、
デザ イ ン の詳細について も 情報が提供 さ れ ます。 ま た、 こ のガ イ ド では、 Zynq-7000 AP SoC の代表的な機能を説明
し 、 その機能を最大限に活かせ る こ と がで き る よ う に SDK を使用す る 方法 も 説明 し ます。 こ のガ イ ド を読む と 、 次
の こ と がで き る よ う にな り ます。
•
ソ フ ト ウ ェ ア アプ リ ケーシ ョ ン を解析 し 、 ハー ド ウ ェ ア ト ラ フ ィ ッ ク を モデルす る ため、 SPM デザ イ ン を使用
で き る。
•
Zynq-7000 AP SoC プ ラ ッ ト フ ォーム と その機能を よ り よ く 理解で き る 。
•
Zynq-7000 AP SoCでの PS - PL イ ン タ ーフ ェ イ ス の使用方法お よ び機能を認識で き る 。
•
最高のシ ス テ ム パフ ォーマ ン ス を得る ため、 メ モ リ 階層 (L1 お よ び L2 のデー タ キ ャ ッ シ ュ と DDR) を利用で き
る。
•
SPM を使用 し てデザ イ ン を モデル し 、 その後、 実際のデザ イ ンのパフ ォーマ ン ス を検証 し て フ ォ ロ ーア ッ プで き
る。
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
7
第 1 章 : 概要
詳細な結果お よ び解析を提供す る ために具体的な例が使用 さ れてい ます。 ま た、 こ のガ イ ド では、 SDK で同様の結果
を得 る ための方法 も 説明 し ます。 こ のガ イ ド は、 こ う し たテ ク ニ ッ ク をユーザー デザ イ ン を使用 し た実践で活かせ る
よ う に構成 さ れてい ます。
次の 4 章では、 SPA ツールボ ッ ク ス の概要を説明 し ます。
•
第 2 章 「背景」 では、 シ ス テ ム パフ ォーマ ン ス を説明 し 、 その重要性を定義 し ます。
•
第 3 章 「シ ス テ ム パフ ォーマ ン ス モデ リ ン グ プ ロ ジ ェ ク ト 」 では、 SPM プ ロ ジ ェ ク ト の内容を説明 し ます。
•
第 4 章 「監視フ レーム ワー ク 」 では、 SDK ツールで使用 さ れ る 監視 イ ン フ ラ ス ト ラ ク チ ャ を定義 し ます。
•
第 5 章 「SPM の入門」 では、 SPM デザ イ ン を実行する のに必要な ス テ ッ プ を説明 し ます。
そ し て、 その後に続 く 章では、 SPM デザ イ ン を使用する 上での詳細について説明 し ます。
•
第 6 章 「 ソ フ ト ウ ェ ア パフ ォーマ ン ス の評価」 では、 SPM プ ロ ジ ェ ク ト に含まれてい る ソ フ ト ウ ェ ア実行フ ァ
イ ルを実行す る と こ ろか ら 説明を始め ます。
•
第 7 章 「ハ イ パフ ォーマ ン ス ポー ト の評価」 では、 同 じ ソ フ ト ウ ェ ア を実行 し なが ら 、 ハ イ パフ ォーマ ン ス
(HP) ポー ト での ト ラ フ ィ ッ ク を監視 し ます。
•
第 8 章 「DDR コ ン ト ロ ー ラ ー設定の評価」 では、 DDR コ ン ト ロ ー ラ ー (DDRC) の設定変更方法、 お よ び HP ポー
ト の ト ラ フ ィ ッ ク への イ ンパ ク ト を解析す る 方法について説明 し ます。
•
第 9 章 「 メ モ リ 階層お よ び ACP の評価」 では、 まず メ モ リ 階層か ら の帯域幅お よ びレ イ テ ン シ を評価 し て、 次
にア ク セ ラ レー タ コ ヒ ーレ ン シ ポー ト (ACP) の ト ラ フ ィ ッ ク を監視 し て、 パフ ォーマ ン スへの影響を調査 し ま
す。
さ ら に、こ の後、ユーザー デザ イ ン でパフ ォーマ ン ス解析を実行す る にあ た っ ての情報を提供す る 章が 2 章続 き ます。
•
第 10 章 「カ ス タ ム タ ーゲ ッ ト の使用」 では、 ユーザーデザ イ ン を計測お よ び監視す る にあ た っ ての ス テ ッ プ と
要件を定義 し ます。
•
第 11 章 「徹底パフ ォーマ ン ス解析」 では、 図 1-2 に示すパフ ォーマ ン ス解析のサ イ ク ルを全体を通 し て説明 し
ます。
最後に、 付録 A 「パフ ォーマ ン ス チ ェ ッ ク リ ス ト 」 には、 こ のガ イ ド 全体で説明 し て き たパフ ォーマ ン ス について
の主な推奨事項が ま と め ら れてい ます。
要件
こ のガ イ ド で説明す る 結果を再現 さ せ る には、 次の要件があ り ます。
1.
2.
ソ フ ト ウ ェア
a.
ザ イ リ ン ク ス ソ フ ト ウ ェ ア開発キ ッ ト (SDK) 2015.1
b.
オプシ ョ ン : Silicon Labs 社の USB-UART ド ラ イ バー
ハー ド ウ ェ ア
a.
ザ イ リ ン ク ス ZC702 評価ボー ド (XC7Z020 CLG484-1 パーツ搭載)
b.
AC 電源ア ダプ タ ー (12 VDC)
c.
ザ イ リ ン ク ス プ ロ グ ラ ミ ン グ ケーブル (プ ラ ッ ト フ ォーム ケーブルま たは Digilent USB ケーブル)
d.
オプシ ョ ン : USB Type-A to USB Mini-B ケーブル (UART 通信の場合)
e.
オプシ ョ ン : 『Zynq-7000 All Programmable SoC ZC702 Base タ ーゲ ッ ト リ フ ァ レ ン ス デザ イ ン』 (UG925) [参
照 3]
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
8
第 1 章 : 概要
その他の リ ソ ース
SDK に関す る 情報や資料への リ ン ク は、 こ ち ら のザ イ リ ン ク ス SDK ホーム ページ を ご覧 く だ さ い。
http://japan.xilinx.com/tools/sdk.htm
『Zynq-7000 All Programmable SoC テ ク ニ カル リ フ ァ レ ン ス マニ ュ アル』 (UG585) [参照 1] をは じ め と す る Zynq-7000
AP SoC の資料は、 こ ち ら を ご覧 く だ さ い。
http://japan.xilinx.com/products/silicon-devices/soc/zynq-7000/index.htm
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
9
第 2章
背景
Zynq®-7000 AP SoC の さ ま ざ ま なシ ス テ ム リ ソ ースや機能を理解 し てお く と 、デザ イ ン を こ のデバ イ ス に タ ーゲ ッ ト
し やす く な り ます。 こ のデバ イ ス に慣れた後に、 リ ソ ース に機能を マ ッ プ し てい く 方法や、 デザ イ ンのパフ ォーマ ン
ス を最適化す る 方法を決めてい き ます。
X-Ref Target - Figure 2-1
図 2‐1 : Zynq‐7000 All Programmable SoC のブ ロ ッ ク図
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
10
第 2 章 : 背景
図 2-1 は Zynq-7000 AP SoC のブ ロ ッ ク 図です。 プ ロ セ ッ シ ン グ シ ス テ ム (PS) には、 ARM Cortex-A9 コ ア が 2 つ、
512KB の L2 キ ャ ッ シ ュ が 1 つ、 256KB のオンチ ッ プ メ モ リ が 1 つ、 そ し てペ リ フ ェ ラ ルお よ び コ ン ト ロ ー ラ ーが多
数含まれてい ます。
プ ロ グ ラ マブル ロ ジ ッ ク (PL) には、 コ ン フ ィ ギ ャ ラ ブル シ ス テ ム ゲー ト 、 DSP、 ブ ロ ッ ク メ モ リ が含ま れてい ま
す。 PS と PL と の間の イ ン タ ーフ ェ イ ス には次の 3 種類があ り ます。
•
汎用 (GP) AXI ポー ト : ス レーブ イ ン タ ー コ ネ ク ト に直接接続 さ れてい る 制御ポー ト
•
ア ク セ ラ レー タ コ ヒ ーレ ン シ ポー ト (ACP) : PL マ ス タ ーへの レ イ テ ン シの少ないア ク セ ス を提供。L1 お よ び L2
キ ャ ッ シ ュ を使用 し た コ ヒ ーレ ン シはオプシ ョ ンです。
•
ハ イ パフ ォーマ ン ス (HP) AXI ポー ト : 高帯域幅のデー タ パ ス の PL バス マ ス タ ーを DDR お よ び OCM メ モ リ に
接続。
こ れ ら の イ ン タ ーフ ェ イ ス は、 PS - PL 間の通信、 外部 メ モ リ (DDR SDRAM や単純な DDR な ど) と の通信 と いっ た、
さ ま ざ ま な通信目的に合わせて利用で き ます。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
11
第 2 章 : 背景
)ODVK&RQWUROOHU
1251$1'65$04XDG63,
$0%$‹,QWHUFRQQHFW
[
63,
3URFHVVRU,0X[
[
,&
[
&$1
[
8$57
''50HPRU\&RQWUROOHU
,QWHUFRQQHFW
$50‹&RU6LJKW
&RU6LJKWŒ0XOWL&RUH'HEXJDQG7UDFH
0XOWL&RUH'HEXJDQG7UDFH
1(21Œ'63)38(QJLQH
'63)38(QJLQH
1(21'63)38(QJLQH
&RUWH[Œ$03&RUH
.%,&DFKHV
&RUWH[$03&RUH
.%,&DFKHV
.E\WH/&DFKH
*3,2
[6',2
ZLWK'0$
*HQHUDO,QWHUUXSW
&RQWUROOHU
&RQILJXUDWLRQ
:DWFKGRJ
7LPHU
7LPHUV
.E\WH
.E\WH
2Q&KLS
0HPRU\
6QRRS
&RQWURO
8QLW
'0$
[86%
ZLWK'0$
[*LJ(
ZLWK'0$
$0%$,QWHUFRQQHFW
$0%$,QWHUFRQQHFW
6HFXULW\
$(66+$56$
(0,2
*HQHUDO3XUSRVH
$;,3RUWV
;$'
[$'&0X[
7KHUPDO6HQVRU
$&3
+LJK3HUIRUPDQFH
$;,3RUWV
3URJUDPPDEOH/RJLF
6\VWHP*DWHV'63 5$0
6\VWHP*DWHV'635$0
0XOWL6WDQGDUG,V 9 +LJK6SHHG9
3FOH*HQ
/DQHV
0XOWL*LJDELW7UDQVFHLYHUV
X-Ref Target - Figure 2-2
図 2‐2 : Zynq‐7000 AP SoC ブ ロ ッ ク 図 (共有 リ ソ ース をハイ ラ イ ト )
図 2-2 では、Zynq-7000 AP SoC 内の共有 リ ソ ース がハ イ ラ イ ト さ れてい ます。 こ の SoC の機能をすべて フルに利用 し
てい る デザ イ ンの場合、 高帯域幅の通信チ ャ ネルが複数必要にな り ます。 シ ス テ ムの こ う し た ト ラ フ ィ ッ ク には、 必
然的に共有 リ ソ ー ス が使用 さ れ ま す。 シ ス テ ム が う ま く 設計 さ れていない と 、 L2 キ ャ ッ シ ュ 、 DDR メ モ リ コ ン ト
ロ ー ラ ー、 高速 イ ン タ ー コ ネ ク ト で、 競合がい く つ も 発生す る 可能性が出て き ます。 こ れ ら の リ ソ ース をすべて フル
に使用 し てい る デザ イ ン のパフ ォーマ ン ス を最適化す る には、 シ ス テ ムの複数個所を確認 し てお く 必要があ り ます。
デザ イ ン を改善す る には、 コ ー ド 、 デザ イ ンの コ ネ ク テ ィ ビ テ ィ 、 シ ス テ ム設定を変更 し ます。
L2 キ ャ ッ シ ュ はその最た る 例です。 ACP は L2 キ ャ ッ シ ュ を Cortex-A9 CPU と 共有 し てい る ため、 ACP ま たはプ ロ
セ ッ サか ら の スループ ッ ト ト ラ フ ィ ッ ク は、互いのパフ ォーマ ン ス に影響 し て し ま う 可能性があ り ます。 こ れは予測
可能ですが、 その影響が ど の よ う な も ので、 どれほ ど の も のなのかを把握す る のは容易ではあ り ません。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
12
第 2 章 : 背景
こ う し た と き に こ そ、 SDK パフ ォーマ ン ス機能を利用す る 価値があ り ます。 SDK には、 こ の影響を把握す る ための
可視化ツール と 、 早期段階でデザ イ ン を試行錯誤 し てい く ための SPM があ り ます。 表や リ アル タ イ ムの図を利用 し
て、 一般的な タ イ ム ラ イ ンで PS お よ び PL のパフ ォ ーマ ン ス メ ト リ ク ス を可視化で き る よ う にな っ てい ます。 こ れ
に よ り 、 潜在的な問題を早い段階で隔離で き る よ う 、 問題が発生 し そ う な タ イ ミ ン グや位置を知 る ための情報を入手
で き ます。 さ ら に、 SPM デザ イ ン と ユーザー デザ イ ンに同 じ パフ ォーマ ン ス メ ト リ ク ス を使用 し て計算 さ れ る ため、
早期段階で さ ま ざ ま なオプシ ョ ン を考慮で き 、 デザ イ ン フ ロ ーを通 し て一貫 し た結果が得 ら れ る よ う にな り ます。
こ のパフ ォーマ ン ス ツールを使用 し てパフ ォーマ ン ス結果を解析する 前に、 まずは、 ど のデザ イ ンが使用 さ れ、 何が
計測 さ れ る のか を理解 し てお く こ と が重要です。 こ の後の章では、 SPM デザ イ ン と 、 SDK で使用 さ れ る パフ ォーマ
ン ス監視フ レーム ワー ク について説明 し ます。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
13
第 3章
シス テム パフ ォ ーマ ン ス モデ リ ング プ ロ
ジェク ト
ザ イ リ ン ク ス ソ フ ト ウ ェ ア開発キ ッ ト (SDK) にはあ ら か じ め定義 さ れてい る プ ロ ジ ェ ク ト が含ま れてお り 、 シ ス テ
ム パフ ォーマ ン ス モデ リ ン グ (SPM) を利用 し 、 ま たデザ イ ンの早期段階でパフ ォーマ ン ス解析を実行 し やす く し ま
す。 こ の SPM プ ロ ジ ェ ク ト には、 ソ フ ト ウ ェ ア実行フ ァ イ ル と 、 ビ ッ ト ス ト リ ーム後の コ ン フ ィ ギ ャ ラ ブル ハー ド
ウ ェ ア シ ス テ ムの両方が含まれてい ます。 SPM は次の よ う な目的で使用す る こ と がで き ます。
•
タ ーゲ ッ ト の評価 : ハー ド ウ ェ ア設計の知識や経験に乏 し く て も 、 タ ーゲ ッ ト プ ラ ッ ト フ ォーム を把握で き ま
す。 Zynq®-7000 AP SoC な ど の複雑な SoC を特性化お よ び評価で き 、 ARM Cortex-A9 と プ ロ グ ラ マブル ロ ジ ッ
ク と の間の ク リ テ ィ カルなパーテ ィ シ ョ ン ト レー ド オ フ を検討する こ と がで き ます。 も っ と も 重要なのは、デザ
イ ンの進捗状況や完成度 と は関係な く 、 評価で き る 点です。 常に、 タ ーゲ ッ ト プ ラ ッ ト フ ォーム を よ り 理解 し て
判断がで き ます。
•
パフ ォーマ ン ス ス ト レ ス テ ス ト : シ ス テ ム内で競合が発生す る 位置を確認で き ます。 タ ーゲ ッ ト プ ラ ッ ト
フ ォームの機能の制限を評価す る には、 そのプ ラ ッ ト フ ォーム を理解す る のが一番です。
•
パフ ォーマ ン ス評価 : デザ イ ンの ト ラ フ ィ ッ ク をモデル し ます。 タ ーゲ ッ ト プ ラ ッ ト フ ォーム を理解で き た ら 、
デザ イ ンの具体的な部分は ト ラ フ ィ ッ ク シナ リ オ と し て入力で き ます。 ま た、 SPM を使用 し て アーキ テ ク チ ャ
のオプシ ョ ン を評価す る こ と も で き ます。
•
パフ ォーマ ン ス検証 : 最終デザ イ ン を計測 し 、 初期モデルを使用 し て結果を確認 し ます。 SPM デザ イ ン で使用 さ
れ る の と 同 じ 監視機能を ユーザー デザ イ ンに も 追加 し (57 ページの 「ハー ド ウ ェ アの計測」 を参照)、 モデル さ
れたパフ ォーマ ン ス結果を検証で き ます。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
14
第 3 章 : シ ス テム パフ ォ ーマ ン ス モデ リ ング プ ロ ジ ェ ク ト
X-Ref Target - Figure 3-1
図 3‐1 : SDK での SPM プ ロ ジ ェ ク ト フ ァ イル
図 3-1 には、あ ら か じ め定義 さ れてい る SPM プ ロ ジ ェ ク ト に含まれ る フ ァ イ ルが リ ス ト さ れてい ます。 こ のプ ロ ジ ェ
ク ト には、 定義済みの ト ラ フ ィ ッ ク コ ン フ ィ ギ ュ レーシ ョ ン、 コ ンパ イ ル済みの ソ フ ト ウ ェ ア実行フ ァ イ ル 2 つ、 そ
し て多数のシ ス テ ム定義フ ァ イ ルが含ま れてい ます。 シ ス テ ム定義フ ァ イ ルには、 プ ロ セ ッ シ ン グ シ ス テ ム 7 (PS7)
の初期化フ ァ イ ル、 Vivado IP イ ン テ グ レー タ ーでデザ イ ン定義を作成す る Vivado® Design Suite Tcl フ ァ イ ル、 定義
済みのプ ロ グ ラ マブル ロ ジ ッ ク (PL) デザ イ ン を含んだビ ッ ト ス ト リ ームが含まれてい ます。
SPM ソ フ ト ウ ェ ア
SPM プ ロ ジ ェ ク ト には、 コ ンパ イ ル済みの ソ フ ト ウ ェ ア実行フ ァ イ ルが 2 つ含まれてい ます。
•
BEEBS (Bristol/Embecosm Embedded Energy Benchmark Suite) と 呼ばれ る ベンチマー ク の コ レ ク シ ョ ン
•
メ モ リ 帯域幅お よ びレ イ テ ン シ を テ ス ト す る こ と に特化 し てい る メ モ リ ス ト ラ イ ド ベンチマー ク
BEEBS ベン チマー ク
BEEBS プ ロ グ ラ ムは、 8 つの多様なベンチマー ク のシーケ ン ス で構成 さ れてい ます。 表 3-1 に示す よ う に、 こ のプ ロ
グ ラ ムには、 MiBench、 WCET、 DSPstone と いっ た知名度の高いベンチマー ク ツールの一部に元々は含まれていた ア
ルゴ リ ズ ムが含ま れてい ます。 こ れ ら のベンチマー ク は、 エンベデ ッ ド シ ス テ ム を テ ス ト し 、 ス タ ン ド ア ロ ン ま たは
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
15
第 3 章 : シ ス テム パフ ォ ーマ ン ス モデ リ ング プ ロ ジ ェ ク ト
ベア メ タ ルの タ ーゲ ッ ト に利用で き る よ う 、選択 さ れてい ます。BEEBS ベンチマー ク ツールの詳細は、『BEEBS: Open
Benchmarks for Energy Measurements on Embedded Platforms』 [参照 4]を参照 し て く だ さ い。
表 3‐1 : コ ンパイル済みプ ログ ラ ムで提供 さ れている BEEBS ベン チマー ク
ベン チマー ク
ツール
説明
Blowfish エン コーダー
MiBench
ブ ロ ッ ク 暗号
巡回冗長検査 (CRC)
MiBench
エ ラ ー検出 コ ー ド
セキ ュ ア ハ ッ シ ュ アルゴ リ
ズ ム (SHA)
MiBench
NIST 暗号学的ハ ッ シ ュ 関数
ダイ ク ス ト ラ法
MiBench
グ ラ フ検索アルゴ リ ズ ム
離散 コ サ イ ン変換 (DCT)
WCET
MP3、 JPEG で使用 さ れ る 変換
2-D FIR フ ィ ル タ ー
DSPstone
画像フ ィ ル タ リ ン グで共通
浮動小数点の行列の乗算
WCET
2x2 の行列の乗算
整数の行列の乗算
WCET
2x2 の行列の乗算
BEEBS ベンチマー ク ツールは次の 4 つの点で変更 さ れてい ます。
•
1 つの実行フ ァ イ ル : 1 プ ロ グ ラ ム内ですべてのベンチマー ク を実行する ための、1 つの実行フ ァ イ ルが作成 さ れ
てい ます。 表 3-1 には、 SPM プ ロ ジ ェ ク ト に含まれてい る コ ンパ イ ル済みのプ ロ グ ラ ム で呼び出 さ れ る 順番でベ
ンチマー ク が リ ス ト さ れてい ます。
•
ベンチマー ク 間の ス リ ープ : 各ベンチマー ク の後、 次のベンチマー ク が始ま る ま で、 1 秒間の ス リ ープが挿入 さ
れてい ます。それぞれのベンチマー ク を区別 さ せる ための割 り 込みベース の ス リ ープで、CPU 使用率は 0% です。
•
さ ま ざ ま なデー タ ア レ イ サ イ ズ : さ ま ざ ま なデー タ ア レ イ サ イ ズに対応で き る よ う 、 ベンチマー ク は変更 さ れ
てい ます。 こ のベンチマー ク プ ロ グ ラ ムで使用 さ れ る 3 つのア レ イ サ イ ズは次の よ う にな っ てい ます。
•
°
4KB (2-D ア レ イ : 32 x 32) – 32KB の L1 デー タ キ ャ ッ シ ュ にフ ィ ッ ト し ます。
°
64KB (2-D ア レ イ : 128 x 128) – 512KB の L2 デー タ キ ャ ッ シ ュ に フ ィ ッ ト し ます。
°
1024KB (2-D ア レ イ : 512 x 512) – DDR SDRAM に フ ィ ッ ト し ます。
計測済み : こ れ ら のベンチマー ク の ラ ン タ イ ムは、 各ベンチマー ク の前後の コ ー ド に追加 さ れた計測に基づいて
計算 さ れてい ます。 詳細は、 57 ページの 「ハー ド ウ ェ アの計測」 を参照 し て く だ さ い。 こ れ ら の ラ ン タ イ ムは、
UART (SDK の タ ー ミ ナル 1 のパネル) で送信 さ れ る ト ラ ン ス ク リ プ ト に レ ポー ト さ れ、 手動で読み込みます。
メ モ リ ス ト ラ イ ド ベン チマー ク
メ モ リ ス ト ラ イ ド ベンチマー ク は、 最小限の計算処理を実行 し 、 ま た メ モ リ の帯域幅 と レ イ テ ン シ を テ ス ト す る た
めに設計 さ れてい る と い う 点において、 BEEBS ベンチマー ク と は異な り ます。 ソ フ ト ウ ェ アに含 ま れてい る ベンチ
マー ク は、 表 3-2 に リ ス ト さ れてい ます。 次の 5 つの タ イ プのテ ス ト があ り ます。
•
リ ニア帯域幅 : 一定 し た リ ニア ス ト ラ イ ド ア ク セ ス の メ モ リ 帯域幅テ ス ト 。 SPM プ ロ ジ ェ ク ト に含まれ る コ ン
パ イ ル済みのアプ リ ケーシ ョ ンの場合、 ス ト ラ イ ド の長 さ は 32 バ イ ト のキ ャ ッ シ ュ ラ イ ン と 同 じ です。
•
ラ ン ダ ム帯域幅 (計算済み) : ラ ン ダ ム ス ト ラ イ ド ア ク セ ス の メ モ リ 帯域幅テ ス ト 。こ れ ら のテ ス ト で使用 さ れ る
ラ ン ダ ム ア ド レ ス はあ ら か じ め計算 さ れてい ます。
•
ラ ン ダ ム帯域幅 ( リ アル タ イ ム) : ラ ン ダ ム ス ト ラ イ ド ア ク セ ス の メ モ リ 帯域幅テ ス ト 。こ れ ら のテ ス ト で使用 さ
れ る ラ ン ダ ム ア ド レ ス は、 ラ ン ダ ム番号ジ ェ ネ レー タ ーを使用 し て リ アル タ イ ムで計算 さ れます。
•
リ ニア レ イ テ ン シ : 一定 し た リ ニ ア ス ト ラ イ ド ア ク セ ス の メ モ リ レ イ テ ン シ テ ス ト 。
•
ラ ン ダ ム レ イ テ ン シ (計算済み) : ラ ン ダ ム ス ト ラ イ ド ア ク セ ス の メ モ リ レ イ テ ン シ テ ス ト 。 こ れ ら のテ ス ト で
使用 さ れ る ラ ン ダ ム ア ド レ ス はあ ら か じ め計算 さ れてい ます。
BEEBS と 同様に、 メ モ リ ス ト ラ イ ド ベンチマー ク は、 1 つの実行フ ァ イ ルに含まれてお り 、 ベンチマー ク と ベンチ
マー ク の間には 1 秒間の ス リ ープが設定 さ れてい ます。 表 3-2 は、 プ ロ グ ラ ム内のベンチマー ク の順番を示 し てい ま
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
16
第 3 章 : シ ス テム パフ ォ ーマ ン ス モデ リ ング プ ロ ジ ェ ク ト
す。 各ベンチマー ク は、 BEEBS用に上記に リ ス ト さ れてい る 3 つのア レ イ サ イ ズ と 同 じ サ イ ズで動作 し ます。 メ モ
リ ス ト ラ イ ド プ ロ グ ラ ム も 計測 さ れてい ますが、 ト ラ ン ス ク リ プ ト レ ポー ト に各テ ス ト で達成で き た スループ ッ ト
お よ びレ イ テ ン シが レ ポー ト さ れます。
表 3‐2 : コ ンパイル済みプ ログ ラ ムで提供 さ れている メ モ リ ス ト ラ イ ド ベン チマー ク
テス ト タ イ プ
パ タ ーン タ イ プ
操作 タ イ プ
読み出 し
リ ニア
書き 込み
コ ピー
読み出 し /書き 込み
帯域幅
読み出 し
ラ ン ダ ム (計算済み)
書き 込み
コ ピー
読み出 し
ラ ン ダ ム ( リ アル タ イ ム)
書き 込み
コ ピー
レ イ テンシ
リ ニア
読み出 し
ラ ン ダ ム (計算済み)
読み出 し
SPM ハー ド ウ ェ ア
SPM プ ロ ジ ェ ク ト には定義済みのハー ド ウ ェ ア デザ イ ンが含ま れてお り 、 早期段階でパフ ォ ーマ ン ス を いろい ろ と
試す こ と がで き ます。 こ のデザ イ ンは、 Zynq-7000 AP SoC プ ロ グ ラ マブル ロ ジ ッ ク (PL) を コ ン フ ィ ギ ュ レー ト す る
ための固定ビ ッ ト ス ト ーム と し て、 プ ロ ジ ェ ク ト に含まれてい ます。
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
17
第 3 章 : シ ス テム パフ ォ ーマ ン ス モデ リ ング プ ロ ジ ェ ク ト
X-Ref Target - Figure 3-2
図 3‐2 : Zynq‐7000 AP SoC の定義済み SPM デザイ ン
図 3-2 は Zynq-7000 AP SoC を タ ーゲ ッ ト に し た定義済み SPM デザ イ ンのブ ロ ッ ク 図です。 こ れは、 非常に コ ン フ ィ
ギ ャ ラ ブルなデザ イ ンで、 5 つの AXI ト ラ フ ィ ッ ク ジ ェ ネ レー タ ー (ATG) と 、 1 つの AXI パフ ォーマ ン ス モニ タ ー
(APM) が含まれてい ます。 1 つの ATG は 4 つのハ イ パフ ォーマ ン ス (HP) ポー ト のそれぞれに接続 さ れていて、 ACP
に も 接続 さ れてい ます。 こ れ ら の コ アの コ ン フ ィ ギ ュ レーシ ョ ンは、 汎用 (GP) ポー ト 0 マ ス タ ーを介 し て行われま
す。 CPU パフ ォーマ ン ス メ ト リ ク ス は、 パフ ォーマ ン ス モニ タ ー ユニ ッ ト (PMU) を使用 し て得 ら れます。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
18
第 3 章 : シ ス テム パフ ォ ーマ ン ス モデ リ ング プ ロ ジ ェ ク ト
AXI ト ラ フ ィ ッ ク ジ ェ ネ レー タ ー
AXI ト ラ フ ィ ッ ク ジ ェ ネ レー タ ー (ATG) は、 具体的な AXI ト ラ フ ィ ッ ク 動作を示すために コ ン フ ィ ギ ュ レー ト さ れ
た、 イ ン テ リ ジ ェ ン ト な ト ラ フ ィ ッ ク ジ ェ ネ レー タ ーです。各 ATG の コ マ ン ド シーケ ン スは初期化中に読み込まれ、
開始ビ ッ ト が読み込ま れ る と 、 こ れ ら の コ マ ン ド が実行 さ れ ます。 書 き 込み及び読み出 し ト ラ フ ィ ッ ク 用には、 256
個の コ マ ン ド のキ ュ ーが別に含まれてい ます。 ATG にはループ モー ド も あ り 、 コ マ ン ド キ ュ ーの ト ラ フ ィ ッ ク は連
続 し て実行 さ れ、 停止ビ ッ ト が読み込まれ る ま で、 キ ュ ーの ト ラ フ ィ ッ ク は繰 り 返 さ れます。 SDK では、 こ れは ト ラ
フ ィ ッ ク 期間値 (秒) に簡略 さ れてい ます。 ATG の ト ラ フ ィ ッ ク に関す る 詳細は、 第 5 章 「SPM の入門」 で説明 さ れ
てい ます。
AXI パ フ ォ ーマ ン ス モニ タ ー
AXI パフ ォーマ ン ス モニ タ ー (APM) は、 接続 さ れてい る AXI イ ン タ ーフ ェ イ スすべての リ アル タ イ ムのパフ ォーマ
ン ス を計測す る ために設計 さ れた コ アです。 SPM デザ イ ンでは、 こ れ ら の イ ン タ ーフ ェ イ ス には 5 つの ATG の出力
が含まれます。 APM はプ ロ フ ァ イ ル モー ド で コ ン フ ィ ギ ュ レー ト さ れていて、 ATG ご と に 6 つのプ ロ フ ァ イ ル カ ウ
ン タ ーを含んだ、 イ ベン ト カ ウ ン ト モジ ュ ールを提供 し ます。 こ の 6 つのカ ウ ン タ ーは、 接続 さ れてい る AXI イ ン
タ ーフ ェ イ ス のすべての書 き 込みお よ び読み出 し チ ャ ネルの平均 ス ループ ッ ト お よ び レ イ テ ン シ を計測す る よ う 設
計 さ れてい ます。 こ れ ら の メ ト リ ク ス の計算方法については、 第 4 章 「監視フ レーム ワ ー ク 」 を参照 し て く だ さ い。
パ フ ォ ーマ ン ス モニ タ ー ユニ ッ ト
各 ARM Cortex-A9 CPU には、 パフ ォーマ ン ス モニ タ ー ユニ ッ ト (PMU) が含まれてい ます。 こ の PMU は、 CPU 使用
率やサ イ ク ルご と の命令数 (IPC) な ど、 さ ま ざ ま なパ フ ォ ーマ ン ス メ ト リ ク ス を監視す る ために コ ン フ ィ ギ ュ レ ー
シ ョ ン さ れてい ます。 PMU には SDK で使用 さ れ る パフ ォ ーマ ン ス モニ タ ー フ レーム ワ ー ク の一部 と し て ア ク セ ス
で き ます。 こ れ ら の PMU カ ウ ン タ ーの使用方法については、 第 4 章 「監視フ レーム ワー ク 」 を参照 し て く だ さ い。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
19
第 4章
監視フ レームワー ク
ザ イ リ ン ク ス ソ フ ト ウ ェ ア開発キ ッ ト (SDK) のパフ ォ ーマ ン ス解析ツールボ ッ ク ス は、 シ ス テ ム レベルのパフ ォ ー
マ ン ス計測を提供 し ます。 Zynq®-7000 AP SoC を タ ーゲ ッ ト に し てい る デザ イ ン の場合、 プ ロ グ ラ マブル ロ ジ ッ ク
(PL) お よ びプ ロ セ ッ シ ン グ シ ス テ ム (PS) の両方か ら のパフ ォーマ ン ス メ ト リ ク ス があ り ます。
PL パフ ォーマ ン ス メ ト リ ク ス には次の も のがあ り ます。
•
(書 き 込み/読み出 し ) ト ラ ンザ ク シ ョ ン : AXI ト ラ ンザ ク シ ョ ンの数
•
(書 き 込み/読み出 し ) スループ ッ ト : 書き 込みま たは読み出 し の帯域幅 (MB/秒)
•
平均 (書 き 込み/読み出 し ) レ イ テ ン シ : AXI ト ラ ンザ ク シ ョ ンの平均書き 込みま たは読み出 し レ イ テ ン シ
PS パフ ォーマ ン ス メ ト リ ク ス には次の も のがあ り ます。
•
CPU 使用率 (%) : ア イ ド ル状態以外の CPU ク ロ ッ ク サ イ ク ルの割合
•
サ イ ク ルご と の CPU 命令数 (IPC) : サ イ ク ルご と に実行 さ れ る 命令の予想数
•
L1 デー タ キ ャ ッ シ ュ ア ク セ スお よ びキ ャ ッ シ ュ ミ ス率 (%) : L1 デー タ キ ャ ッ シ ュ ア ク セ ス数お よ びその ミ ス
率
•
CPU (書 き 込み/読み出 し ) の命令ご と の ス ト ール サ イ ク ル : メ モ リ 書き 込み (書 き 込み)お よ びデー タ キ ャ ッ シ ュ
補充 (読み出 し ) が原因の、 命令ご と の ス ト ール サ イ ク ルの予想数
こ れ ら のパフ ォーマ ン ス メ ト リ ク ス は タ ーゲ ッ ト の さ ま ざ ま な箇所か ら 収集 さ れ、共通の タ イ ム ラ イ ンに ま と め ら れ
て表示 さ れ、 シ ス テ ム レベルのパフ ォーマ ン ス解析がで き る よ う にな り ます。 こ れ ら の メ ト リ ク ス を収集 し 表示す る
ため、 SDK には、 タ ーゲ ッ ト シ ス テ ム全体にあ る プ ロ フ ァ イ ル カ ウ ン タ ーにア ク セ スす る 監視フ レーム ワ ー ク と 、
こ れ ら のカ ウ ン タ ーのサ ン プ リ ン グ と オ フ ロ ー ド を実行す る ためのホ ス ト タ ーゲ ッ ト 通信フ レーム ワ ー ク があ り ま
す。
SDK が こ の監視に必要な メ タ デー タ は、 Vivado® Design Suite に よ っ て エ ク ス ポー ト さ れ、 ハー ド ウ ェ ア プ ラ ッ ト
フ ォーム仕様プ ロ ジ ェ ク ト が作成 さ れ る と き に SDK に読み込まれます。 こ のエ ク ス ポー ト / イ ン ポー ト は、 シ ス テ ム
パフ ォーマ ン ス モデ リ ン グ (SPM) プ ロ ジ ェ ク ト に対 し て既に実行 さ れてい ますが、 ユーザー デザ イ ンに対 し て も 実
行で き ます (57 ページの 「ハー ド ウ ェ アの計測」 を参照)。 言い換えれば、 こ こ で説明 さ れてい る 監視お よ び解析のす
べてが、 SPM に も ユーザー デザ イ ンに も 利用可能であ る と い う こ と です。 こ れは、 第 11 章 「徹底パフ ォーマ ン ス解
析」 で詳 し く 説明 さ れてい ます。
PL プ ロ フ ァ イル カ ウ ン タ ー
デザ イ ンに挿入 さ れてい る AXI パフ ォーマ ン ス モニ タ ー (APM) は、PL プ ロ フ ァ イ ル カ ウ ン タ ーを提供 し ます (ユー
ザー デザ イ ンへの挿入方法については57 ページの 「ハー ド ウ ェ アの計測」 を参照)。 接続 さ れてい る AXI イ ン タ ー
フ ェ イ ス ご と に 6 つのカ ウ ン タ ーがあ り ます。 表 4-1 には こ れ ら のカ ウ ン タ ーの使用方法が ま と め ら れてい ます。 こ
れ ら のカ ウ ン タ ーは イ ン ク リ メ ン ト ア ッ プ カ ウ ン タ ーで、 送信 さ れた実行 さ れてい る バ イ ト 総数、 レ イ テ ン シ総計、
お よ び完了 し た AXI ト ラ ンザ ク シ ョ ン数を それぞれカ ウ ン ト し ます。 表 4-1 にあ る よ う に、 連続サンプル間での こ れ
ら のカ ウ ン タ ーの差 (Δで表現) は、 サンプル間隔の平均スループ ッ ト お よ びレ イ テ ン シの計算に使用 さ れます。 SDK
で使用 さ れ る デフ ォ ル ト のサンプル間隔は約 50 ミ リ 秒です。
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
20
第 4 章 : 監視フ レームワー ク
表 4‐1 : AXI パフ ォ ーマ ン ス モニ タ ーでの AXI イ ン タ ー フ ェ イ ス ご と のプ ロ フ ァ イル カ ウン タ ー
APM カ ウン タ ー メ ト リ ク ス
パフ ォ ーマ ン ス メ ト リ ク スの式
書 き 込みバ イ ト 数
書き 込みスループ ッ ト =(∆(書 き 込みバ イ ト 数))/(サンプル間隔)
書 き 込みレ イ テ ン シ数
書 き 込み ト ラ ンザ ク シ ョ ン数
平均書 き 込みレ イ テ ン シ = (∆(書 き 込みレ イ テ ン シ数))/(∆(書 き 込み
ト ラ ンザ ク シ ョ ン数))
読み出 し バ イ ト 数
読み出 し スループ ッ ト =(∆(読み出 し バ イ ト 数))/(サンプル間隔)
読み出 し レ イ テ ン シ数
平均読み出 し レ イ テ ン シ = (∆(読み出 し レ イ テ ン シ数))/(∆(読み出 し
ト ラ ンザ ク シ ョ ン数))
読み出 し ト ラ ンザ ク シ ョ ン数
X-Ref Target - Figure 4-1
図 4‐1 : SDK で使用 さ れる読み出 し レ イ テ ン シ を示 し た AXI ト ラ ンザク シ ョ ン タ イム ラ イ ンの例
AXI ト ラ ンザ ク シ ョ ン を構成す る イ ベン ト は多いため、SDK が取 り 込む イ ベン ト お よ びレ イ テ ン シの計算方法を理解
し てお く こ と が重要です。 図 4-1 は、 サンプルの AXI 読み出 し ト ラ ンザ ク シ ョ ンの タ イ ミ ン グ図で、 ア ド レ ス、 デー
タ お よ び制御信号が含ま れてい ます。
SDK で 使用 さ れ る 開始 イ ベ ン ト は ア ド レ ス 受諾 (ARVALID=1 と ARREADY=1) で、 最終 イ ベ ン ト は最終デー タ
(RLAST=1 と RVALID=1 と RREADY=1) です。 共通 ト ラ ンザ ク シ ョ ン内での こ れ ら 2 つの イ ベン ト の差は、 ト ラ ンザ
ク シ ョ ン レ イ テ ン シ と 考え ら れます。
ARM は次の も のをサポー ト し ていない こ と に注意 し て く だ さ い。
•
33 以上の未処理 ト ラ ンザ ク シ ョ ン。 つま り 、 最初のデー タ ブ ロ ッ ク 開始の前に 33 個以上のア ド レ ス の初期化が
行われ る ト ラ ンザ ク シ ョ ン、 ま たは、 最初のア ド レ ス の前に 32 個のデー タ ブ ロ ッ ク が送信/受信 さ れ る ト ラ ンザ
ク シ ョ ン。
•
イ ン タ ー リ ーブ さ れた ト ラ ンザ ク シ ョ ン。 つま り 、 現在のデー タ ト ラ ンザ ク シ ョ ンが終了する 前 (wlast/rlast を受
信す る 前) に、 新 し いデー タ ト ラ ンザ ク シ ョ ンのア ド レ ス初期化が行われ る ト ラ ンザ ク シ ョ ン。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
21
第 4 章 : 監視フ レームワー ク
PS プ ロ フ ァ イル カ ウ ン タ ー
PS プ ロ フ ァ イ ル カ ウ ン タ ーは、各 Cortex-A9 CPU に含まれてい る ARM パフ ォーマ ン ス モニ タ ー ユニ ッ ト (PMU) を
構成 し てい ま す。 表 4-2 は、 各 PMU の 6 つの カ ウ ン タ ーが自動的に SDK に コ ン フ ィ ギ ュ レ ー ト さ れ る 方法 と 、 各
CPU に対す る パフ ォーマ ン ス メ ト リ ク ス の式を ま と めてい ます。 後で説明する よ う に、 こ れ ら は SDK で直接グ ラ フ
化 さ れ る メ ト リ ク ス です。
表 4‐2 : ARM パフ ォ ーマ ン ス モニ タ ー ユニ ッ ト で使用 さ れる プ ロ フ ァ イル カ ウン タ ー
イ ベン ト 名
イ ベン ト
説明
パフ ォ ーマ ン ス メ ト リ ク スの式
CCNT
なし
非ア イ ド ル ク ロ ッ ク
サイ クル カ ウ ン ター
CPU 使用率 (%)=100x∆CCNT/(2*∆(SPM 基準 ク ロ ッ ク ))
INST_RENAME
0x68
レ ジ ス タ の 名前変更
を し た命令数
サ イ ク ルご と の CPU 命令数
(IPC)=(∆(INST_RENAME))/∆CCNT
L1D_CACHE_REFILL
0x03
L1 デー タ キ ャ ッ シ ュ
ミス
L1D_CACHE
0x04
L1 デー タ キ ャ ッ シ ュ
ミス
DCACHE_DEP_STALL
0x61
デー タ キ ャ ッ シ ュ に
依存 し た ス ト ール サ
イ ク ル ( 保留 ラ イ ン
フ ィ ル)
命令ご と の読み出 し ス ト ール サ イ ク ル
=(∆(DCACHE_DEP_STALL))/(∆(INST_RENAME))
MEM_WRITE_STALL
0x81
メ モ リ 書 き 込みを
待っ てい る プ ロ セ ッ
サ ス ト ール サ イ ク ル
命令ご と の書 き 込みス ト ール サ イ ク ル
=(∆(MEM_WRITE_STALL))/(∆(INST_RENAME))
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
L1 デー タ キ ャ ッ シ ュ ミ ス率
(%)=100*(∆(L1D_CACHE_REFILL))/(∆(L1D_CACHE))
japan.xilinx.com
24 日
22
第 4 章 : 監視フ レームワー ク
ホス ト / タ ーゲ ッ ト 間の通信
プ ロ フ ァ イ ル カ ウ ン タ ーがシ ス テ ム パフ ォーマ ン ス解析 (SPA) ツールボ ッ ク ス で ど の よ う に処理お よ び表示 さ れ る
のかが こ れで理解で き た と 思い ます。 さ ら に、 こ れ ら のカ ウ ン タ ーが ど の よ う にサンプル さ れ、 タ ーゲ ッ ト か ら ホ ス
ト コ ン ピ ュ ー タ ーに転送 さ れ る のか を理解する こ と も 大切です。
X-Ref Target - Figure 4-2
図 4‐2 : SDK のホス ト / タ ーゲ ッ ト 間の通信イ ン フ ラ ス ト ラ ク チ ャ
図 4-2 は SDK のホ ス ト / タ ーゲ ッ ト 間の通信 イ ン フ ラ ス ト ラ ク チ ャ を表 し てい ま す。 SDK ツール自体はホ ス ト コ ン
ピ ュ ー タ ーで実行 さ れ、 ま た、 ツールには タ ーゲ ッ ト 通信フ レーム ワー ク (TCF) を使用 し たハー ド ウ ェ ア サーバーが
含 ま れてい ます。 TCF を使用す る と 、 JTAG プ ロ グ ラ ミ ン グ ケーブルを介 し て タ ーゲ ッ ト と 効率 よ く 通信で き ます。
こ の TCF ベー ス のハー ド ウ ェ ア サーバーは、 16 ページの表 3-1 お よ び17 ページの表 3-2 に リ ス ト さ れてい る プ ロ
フ ァ イ ル カ ウ ン タ ーにで き る かぎ り 介入せずに制御 し ます。APM お よ び PMU カ ウ ン タ ーは、Zynq-7000 AP SoCの中
央 イ ン タ ー コ ネ ク ト を介 し て、 メ モ リ マ ッ プ ア ク セ ス を使用 し て読み出 さ れ ます。 こ の後、 カ ウ ン タ ー値は、 先に
説明 し た よ う に処理 さ れ、 SDK に表示 さ れます。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
23
第 5章
SPM の入門
定義済みの SPM プ ロ ジ ェ ク ト は、 ザ イ リ ン ク ス ソ フ ト ウ ェ ア開発キ ッ ト (SDK) で [File] → [SPM Project] を ク リ ッ ク
す る と 、 ワー ク スペース に自動的に読み込まれます。
プ ロ ン プ ト が表示 さ れた ら 、 SPM タ ーゲ ッ ト を選択 し ます。 SPM プ ロ ジ ェ ク ト 名は、 指定 さ れた タ ーゲ ッ ト に基づ
いて付け ら れます。 た と えば、 ZC702 ボー ド でサポー ト さ れてい る タ ーゲ ッ ト を選択 し た場合は、 SPM プ ロ ジ ェ ク ト
の名前は自動的に 「SPM_ZC_702_HwPlatform」 にな り ます。
こ れで、 テ ス ト 用に コ ン フ ィ ギ ュ レーシ ョ ン を変更す る こ と がで き ます。 た と えば、 タ ーゲ ッ ト 設定、 ソ フ ト ウ ェ ア
アプ リ ケーシ ョ ン、 AXI ト ラ フ ィ ッ ク ジ ェ ネ レー タ ー (ATG) を使用す る ための ト ラ フ ィ ッ ク を変更で き ます。 タ ー
ゲ ッ ト 設定には、 ボー ド 接続情報、 ビ ッ ト ス ト リ ームの選択、 プ ロ セ ッ シ ン グ シ ス テ ム 7 (PS7) 初期化が含まれます。
ビ ッ ト ス ト リ ームはデ フ ォ ル ト で SPM ビ ッ ト ス ト リ ーム に指定 さ れてい ま すが、 PS7 の設定は SPM シ ス テ ム定義
フ ァ イ ルで定義 さ れてい ます。 ホ ス ト コ ン ピ ュ ー タ ーか ら タ ーゲ ッ ト ボー ド への ロ ーカルま たは直接の接続がない
場合は、 『Vivado Design Suite ユーザー ガ イ ド : エンベデ ッ ド ハー ド ウ ェ ア デザ イ ン』 (UG898) [参照 2] を参照 し て、
ボー ド 接続を設定 し て く だ さ い。
X-Ref Target - Figure 5-1
図 5‐1 : SDK コ ン フ ィ ギ ュ レーシ ョ ン ウ ィ ザー ド でのア プ リ ケーシ ョ ン設定
図 5-1 は SPM の ソ フ ト ウ ェ ア アプ リ ケーシ ョ ン設定を示 し てい ます。 デフ ォ ル ト では、 こ の コ ン フ ィ ギ ュ レーシ ョ
ンの ソ フ ト ウ ェ ア実行フ ァ イ ルは beebs_benchmarks.elf で、 こ れにはかな り の量のデー タ 処理 と メ モ リ ア ク セ ス が含
ま れてい る ため、 手始めに利用す る には最適です (第 3 章 「シ ス テ ム パフ ォ ーマ ン ス モデ リ ン グ プ ロ ジ ェ ク ト 」 を
参照)。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
24
第 5 章 : SPM の入門
こ のデフ ォ ル ト アプ リ ケーシ ョ ンは、 次の章で説明 さ れてい る ソ フ ト ウ ェ ア パフ ォ ーマ ン ス の評価のためにデザ イ
ン を準備す る ために選ばれてい ます。 後で、 こ の設定を変更 し てい き ます。 そ し て、 SPM プ ロ ジ ェ ク ト で提供 さ れて
い る も う 1 つのアプ リ ケーシ ョ ン、 メ モ リ ス ト ラ イ ド が使用 さ れます。
ATG コ ン フ ィ ギ ュ レーシ ョ ン
SDK では、 AXI ト ラ フ ィ ッ ク ジ ェ ネ レー タ ー (ATG) を コ ン フ ィ ギ ュ レー ト する ための ト ラ フ ィ ッ ク シナ リ オを指定
す る こ と がで き ます。
X-Ref Target - Figure 5-2
図 5‐2 : SDK コ ン フ ィ ギ ュ レーシ ョ ン ウ ィ ザー ド での ATG コ ン フ ィ ギ ュ レーシ ョ ン設定
図 5-2 は、 ト ラ フ ィ ッ ク を指定で き る [ATG Configuration] タ ブ を示 し てい ま す。 SPM の固定ビ ッ ト ス ト リ ーム では
(15 ページの 「SPM ソ フ ト ウ ェ ア」 を参照)、 1 つの ATG はすべてハ イ パフ ォーマ ン ス (HP) ポー ト と 、 ア ク セ ラ レー
タ コ ヒ ーレ ン シ ポー ト (ACP) に接続 さ れてい ます。 つま り プ ロ グ ラ マブル ロ ジ ッ ク (PL) と プ ロ セ ッ シ ン グ シ ス テ
ム (PS) と の間のすべての イ ン タ ーフ ェ イ ス に接続 さ れてい ます。 メ モ リ ア ク セ ス パ タ ーンは、 さ ま ざ ま な長 さ 、 周
波数、 各ポー ト の メ モ リ ア ド レ ス での AXI ト ラ ンザ ク シ ョ ン を出力す る ATG に よ っ てモデル さ れ ます。 4 つの HP
お よ び ACP ポー ト で読み出 し /書 き 込みパ タ ーン の さ ま ざ ま な組み合わせを指定で き ま す。 こ の ATG コ ン フ ィ ギ ュ
レーシ ョ ンの表には次の情報が含まれてい ます。
•
[Port Location] : コ ン フ ィ ギ ュ レー ト さ れてい る ATG (SPM 内で、 わか り やすい名前が付いてい ます)。
•
[Template Id] : その行に定義 さ れてい る ト ラ フ ィ ッ ク をデ ィ ス エーブル/ イ ネーブル。<None> に設定 さ れてい る 場
合は、 ト ラ フ ィ ッ ク は生成 さ れません。
•
[Operation] : AXI ポー ト の AXI ト ラ ンザ ク シ ョ ンの タ イ プ。 有効値は、 メ モ リ 読み出 し ト ラ ンザ ク シ ョ ンの RD
(AXI 読み出 し ポー ト を介す)、お よ び メ モ リ 書 き 込み ト ラ ンザ ク シ ョ ンの WR (AXI 書き 込みポー ト を介す) です。
•
[Address_Start] : AXI ト ラ ンザ ク シ ョ ンの開始ア ド レ ス。 有効値は、 ddr (ddr0 のエ イ リ ア ス)、 ddr0、 ddr1、 ddr2、
ddr3、 ocm のプ リ セ ッ ト ア ド レ ス です。
•
[Address_Next] : Address_Start の後に続 く ア ド レ ス が生成 さ れ る 方法 (ア ド レ ス範囲内で イ ン ク リ メ ン タ ルか ラ ン
ダ ム)。
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
25
第 5 章 : SPM の入門
•
[Beats/tranx] : AXI ト ラ ンザ ク シ ョ ン ご と のバース ト 長ま たはビー ト 数。 有効な値は 1 ~ 256 です。
•
[Tranx interval] : 2 つの連続す る AXI ト ラ ンザ ク シ ョ ンのそれぞれの開始点の間を カ ウ ン ト し た PL ク ロ ッ ク サ
イ ク ル数。 有効な値は 5 ~ 1024 です。
•
[Est. Throughput] : 現在の ト ラ フ ィ ッ ク 設定の予想スループ ッ ト (MB/秒)スループ ッ ト の計算式は
8 ×(Lburst/(MAX(Linterval, Lburst)))×f で、 Lburst はビー ト 数/ ト ラ ンザ ク シ ョ ン、 Linterval は ト ラ ンザ ク シ ョ ン間隔、
f は PL ク ロ ッ ク レー ト です。
パフ ォ ーマ ン ス解析のパースペ ク テ ィ ブ
コ ン フ ィ ギ ュ レーシ ョ ン を編集 し た ら 、 [Edit Configuration] ダ イ ア ロ グ ボ ッ ク ス (25 ページの図 5-2) で [Debug] を ク
リ ッ ク し 、 パフ ォーマ ン ス解析セ ッ シ ョ ン を開始で き ます。SDK で [Performance Analysis] パースペ ク テ ィ ブが開 き ま
す。
X-Ref Target - Figure 5-3
図 5‐3 : SDK の [Performance Analysis] パースペ ク テ ィ ブ
図 5-3 は Eclipse のパースペ ク テ ィ ブ を示 し てお り 、こ こ にはパフ ォーマ ン ス結果のダ ッ シ ュ ボー ド が表示 さ れてい ま
す。 5 つの重要なパネルがあ り ます。
1.
[APU Performance Summary] : CPU のパフ ォーマ ン ス メ ト リ ク ス (PS プ ロ フ ァ イ ル カ ウ ン タ ー セ ク シ ョ ンの下)、
AXI パフ ォ ーマ ン ス モニ タ ー (APM) のパフ ォ ーマ ン ス メ ト リ ク ス (PL プ ロ フ ァ イ ル カ ウ ン タ ー セ ク シ ョ ンの
下) を ま と めた 2 つの表です。
2.
[PL Performance] : 共有 タ イ ム ラ イ ン上の 16 ページの表 3-1 に リ ス ト さ れてい る APM パフ ォーマ ン ス メ ト リ ク
ス を示すプ ロ ッ ト 。
3.
[PS Performance] : 共有 タ イ ム ラ イ ン上の 17 ページの表 3-2 に リ ス ト さ れてい る CPU パフ ォーマ ン ス メ ト リ ク ス
を示すプ ロ ッ ト 。
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
26
第 5 章 : SPM の入門
4.
[MicroBlaze Performance Summary] : MicroBlaze™ パフ ォーマ ン ス メ ト リ ク ス を ま と めた表。 こ れは SPM では使
用 さ れないので、 こ のガ イ ド では説明 さ れてい ません。
5.
[MicroBlaze Performance] : 共有 タ イ ム ラ イ ン上の に リ ス ト さ れてい る MicroBlaze パフ ォーマ ン ス メ ト リ ク ス を
示すプ ロ ッ ト 。 こ れは SPM では使用 さ れないので、 こ のガ イ ド では説明 さ れてい ません。
X-Ref Target - Figure 5-4
図 5‐4 : SDK の [View Transcript] の [Terminal Settings]
こ のガ イ ド では、 タ ーゲ ッ ト アプ リ ケーシ ョ ンが出力 し た さ ま ざ ま な結果が使用 さ れ、 それを SDK の タ ー ミ ナル 1
のパネルに表示 し ます。 ソ フ ト ウ ェ ア ラ ン タ イ ム、 達成 し た帯域幅、 平均レ イ テ ン シな ど がその結果に含まれます。
こ れ ら の結果を再現 し たい場合、 ま たはユーザー自身で実行 し たい場合は、 AC702 ボー ド の UART と 、 ホ ス ト コ ン
ピ ュ ー タ ーの USB ポー ト 間を、 USB ケーブル (Type-A to USB Mini-B) で接続する 必要があ り ます。
図 5-4 は、SDK で こ の UART ト ラ ン ス ク リ プ ト を表示 さ せ る のに必要な タ ー ミ ナル設定を示 し てい ます。 こ のポ ッ プ
ア ッ プ メ ニ ュ ーを表示 さ せる には、26 ページの図 5-3の右上にあ る [Connect] ボ タ ン
を ク リ ッ ク し ます。ユーザー
のポー ト は COM5 ではない場合があ り ますが、 その他の設定はすべて有効です。
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
27
第 6章
ソ フ ト ウ ェ ア パフ ォ ーマ ン スの評価
Zynq®-7000 AP SoC の ソ フ ト ウ ェ ア パフ ォーマ ン ス を評価す る 監視機能はいろいろ と あ り ます。こ れ ら の機能を利用
す る と 、 アプ リ ケーシ ョ ンの効率を知 る 情報が得 ら れ る だけでな く 、 ソ フ ト ウ ェ ア を よ り よ く 把握 し 最適化す る ため
情報を視覚的に確認す る こ と も で き ます。
パフ ォ ーマ ン スの監視
パフ ォ ーマ ン ス監視機能を説明す る ため、 BEEBS (Bristol/Embecosm Embedded Energy Benchmark Suite) ベンチマー ク
プ ロ グ ラ ム (第 3 章「シ ス テ ム パフ ォーマ ン ス モデ リ ン グ プ ロ ジ ェ ク ト 」 を参照) を ZC702 タ ーゲ ッ ト ボー ド で実行
し 、 そのパフ ォーマ ン ス結果をザ イ リ ン ク ス ソ フ ト ウ ェ ア開発キ ッ ト (SDK) 2015.1 で取 り 込みま し た。 プ ロ グ ラ マ
ブル ロ ジ ッ ク (PL) か ら 駆動 さ れ る ト ラ フ ィ ッ ク はないので、 こ れは ソ フ ト ウ ェ ア専用テ ス ト です。 こ れ ら の結果を
再現す る 必要があ る 場合は、 選択 さ れてい る ソ フ ト ウ ェ ア アプ リ ケーシ ョ ンは24 ページの図 5-1で、 そ し て PL ト ラ
フ ィ ッ ク は25 ページの図 5-2で説明 さ れてい る ので、そち ら を参照 し て く だ さ い。 こ こ での結果は BEEBS ベンチマー
ク 用ですが、 ま っ た く 同 じ メ ト リ ク ス を、 SDK に提供 さ れてい る プ ロ グ ラ ム用ま たは SDK に よ っ て コ ンパ イ ル さ れ
る プ ロ グ ラ ム用に得 る こ と も 可能です。
X-Ref Target - Figure 6-1
図 6‐1 : CPU 使用率 (BEEBS ベン チマー ク)
合計 24 個のテ ス ト が実行 さ れ、 16 ページの表 3-1に リ ス ト さ れてい る 8 つのベンチマー ク のそれぞれが、 3 つの異な
る デー タ ア レ イ サ イ ズ (4KB、 64KB、 1024KB) で実行 さ れてい ま す。 各テ ス ト 間に 1 秒間の ス リ ープが挿入 さ れて
い る ため、CPU 使用率を見れば、 ど のベンチマー ク が実行 さ れてい る のか を見分けやす く な っ てい ます。図 6-1 には、
結果の タ イ ム ラ イ ンが表示 さ れてい ます。 各ベンチマー ク 内で、 小 さ いサ イ ズか ら 大き なサ イ ズへ と 順番に、 3 つの
デー タ サ イ ズが実行 さ れてい ます。CPU0 の使用率お よ びその使用期間を確認で き ます。 ト ラ フ ィ ッ ク な し の BEEBS
ベンチマー ク の実行には約 45 秒かか っ てい ます。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
28
第 6 章 : ソ フ ト ウ ェ ア パフ ォ ーマ ン スの評価
X-Ref Target - Figure 6-2
図 6‐2 : BEEBS ベン チマー ク のパフ ォ ーマ ン ス解析 (CPU 使用率、 IPC、 L1 デー タ キ ャ ッ シ ュ )
図 6-2 は、 SDK の [PS Performance] パネルに表示 さ れ る [CPU Utilization (%)]、 [CPU Instructions Per Cycle]、 [L1 Data
Cache Access]、 [L1 Data Cache Miss Rate (%)] と い う 4 つのグ ラ フ を示 し てい ます。
CPU 使用率を見 る と ベンチマー ク がいつ実行 さ れたかが判断で き ますが、複数のグ ラ フ を検討す る と 詳細な解析デー
タ が得 ら れます。 こ れ ら のテ ス ト の場合、 サ イ ク ルご と の命令数 (IPC) お よ び L1 デー タ キ ャ ッ シ ュ のグ ラ フ を見 る
と 、 重要な解析デー タ が確認で き ま す。 IPC は よ く 知 ら れてい る も ので、 ソ フ ト ウ ェ アがその環境 と ど の よ う に関
わ っ てい る のか、 特に メ モ リ 階層が ど う な っ てい る のか を示すための指標です。 詳細は、 『Computer Organization &
Design: The Hardware/Software Interface』 (David A. Patterson、John L. Hennessy 共著) [参照 5] を参照 し て く だ さ い。図 6-2
を見 る と 、 IPC の値は L1 デー タ キ ャ ッ シ ュ ア ク セ ス を ほぼなぞっ てい る 形にな っ てい ます。 ま た、 メ モ リ を多用す
る 行列乗数を実行 し てい る 間、 IPC の最低値は L1 デー タ キ ャ ッ シ ュ ミ ス率の最大値に該当 し てい ます。 IPC が ソ フ
ト ウ ェ ア効率を図 る も のであ る と すれば、 図 6-2 を見 る と 、 メ モ リ を多用す る 計算が長時間実行 さ れてい る 間の ソ フ
ト ウ ェ ア効率は最低レベルであ る こ と が明 ら かです。 こ の状態が避け ら れない こ と も あ り ますが、 メ モ リ 階層 と の関
わ り を調べ る 上で IPC を確認すべ き であ る こ と がわか り ます。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
29
第 6 章 : ソ フ ト ウ ェ ア パフ ォ ーマ ン スの評価
X-Ref Target - Figure 6-3
図 6‐3 : BEEBS ベン チマー ク のパフ ォ ーマ ン ス解析 (L1 デー タ キ ャ ッ シ ュ、 命令ご と のス ト ール サイ ク ル数)
こ の解析を さ ら に 1 歩進めたのが、 図 6-3 のグ ラ フ です。 こ れは、 プ ロ セ ッ サが指定 さ れた アルゴ リ ズ ム を読み込ん
で、 デー タ を書 き 出す と い う 、 局所的デー タ についての情報を表 し てい ます。 L1 デー タ キ ャ ッ シ ュ ミ ス率が低い場
合は、 そのキ ャ ッ シ ュ にデー タ が保存 さ れ、 ア ク セ ス さ れ る デー タ 量が多い こ と を示 し てい ます。 ま た、 L1 デー タ
キ ャ ッ シ ュ ミ ス率が高 く 、 命令ご と のCPU 書き 込みま たは読み出 し の ス ト ール サ イ ク ル数が多い場合は、 デー タ の
ほ と ん ど が DDR か ら 来てい る こ と を示 し ます。
も ち ろん、 ソ フ ト ウ ェ ア アプ リ ケーシ ョ ン を理解 し てお く こ と が解析に役立ち ます。 た と えば、 図 6-3に示す よ う に、
L1 ミ ス率が高 く 、 CPU 読み出 し ス ト ール サ イ ク ル数が多い期間が長いのは 2 回あ っ て、 それは、 浮動小数点お よ び
整数の行列乗数アルゴ リ ズ ムが、 512 x 512 (256K ワー ド = 1024KB) の 2D デー タ ア レ イ で動作 し てい る と き です。
ア プ リ ケーシ ョ ン のパ フ ォ ーマ ン ス を さ ら に高め る には、 L2 デー タ キ ャ ッ シ ュ プ リ フ ェ ッ チ を イ ネーブル ま たは
デ ィ ス エーブルに し てみ る と い う オプシ ョ ンがあ り ます。 こ れは、 reg15_prefetch_ctrl のビ ッ ト 28 で指定 し ます (絶対
ア ド レ ス は 0xF8F02F60)。 こ のデー タ プ リ フ ェ ッ チが イ ネーブルにな っ てい る 場合、 近接する キ ャ ッ シ ュ ラ イ ン も 自
動的に フ ェ ッ チ さ れます。 29 ページの図 6-2お よ び図 6-3 に示す結果は、 プ リ フ ェ ッ チが イ ネーブルにな っ た状態で
生成 さ れてい ますが、 BEEBS ベンチマー ク はプ リ フ ェ ッ チがデ ィ ス エーブルにな っ た状態で実行 さ れてい ます。 整
数の行列乗算の場合は、 ソ フ ト ウ ェ ア ラ ン タ イ ムが 9.0% 短縮 さ れ る と い う 、非常に大 き な イ ンパ ク ト があ り ま し た。
こ のプ リ フ ェ ッ チ オプシ ョ ンに よ っ て アプ リ ケーシ ョ ンのパフ ォーマ ン ス が改善 さ れ る も のがあれば、改善 さ れずに
悪化す る 可能性のあ る も の も あ り ま す。 アプ リ ケーシ ョ ン の ラ ン タ イ ムは、 プ リ フ ェ ッ チ オプシ ョ ン を使用 し た状
態、 そ し て使用 し ていない状態の両方で検証す る こ と を推奨 し ます。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
30
第 6 章 : ソ フ ト ウ ェ ア パフ ォ ーマ ン スの評価
X-Ref Target - Figure 6-4
図 6‐4 : BEEBS ベン チマー ク ツールでの ソ フ ト ウ ェ ア ラ ン タ イ ムの結果
先に説明 し た よ う に、 全体的な ソ フ ト ウ ェ ア パフ ォーマ ン ス を計測す る には、 アプ リ ケーシ ョ ンの異な る 箇所の ラ ン
タ イ ム を計測 し てお く こ と をお勧め し ます。 図 6-4 は、 8 つのベンチマー ク を異な る 3 つのデー タ ア レ イ サ イ ズで実
行 し た と き の ラ ン タ イ ム のサマ リ です ( こ れ ら の ラ ン タ イ ム の計算方法 と キ ャ プチ ャ 方法については、 57 ページの
「ハー ド ウ ェ アの計測」 を参照)。 図 6-4 の左側の Y 軸は、 値の全範囲を示 し てい ますが、 右側の Y 軸は低い範囲だけ
を拡大表示 さ せてい ます。 ア レ イ サ イ ズが大 き い と 、 ラ ン タ イ ムは長 く な り ます。 し か し 、 異な る ベンチマー ク でテ
ス ト し てみ る と 、 その増加量は変動 し ます。 その理由は、 デー タ 量、 局所的デー タ 、 アルゴ リ ズ ムがデー タ サ イ ズに
左右 さ れ る 点な ど、 さ ま ざ ま な要因が ラ ン タ イ ム に影響 し て い る か ら です。 局所的デー タ に関 し て い えば、 4KB、
64KB、 1024KB のデー タ ア レ イ は、 L1 デー タ キ ャ ッ シ ュ 、 L2 デー タ キ ャ ッ シ ュ 、 DDR にそれぞれフ ィ ッ ト し ます。
メ モ リ 階層のパフ ォーマ ン ス の査定については、 第 9 章 「 メ モ リ 階層お よ び ACP の評価」 を参照 し て く だ さ い。
パフ ォ ーマ ン ス改善の可視化
図 6-4 に示す よ う に、 ラ ン タ イ ムが も っ と も 長いのは明 ら かに行列乗算で、 特にア レ イ サ イ ズが最大だ と 、 ラ ン タ イ
ムが長 く な り ます。 こ う し た ラ ン タ イ ム を改善する 必要があ る と し た ら ど う で し ょ う か。 コ ー ド を最適化あ る いは改
善 し やす く す る には、 SDK のパフ ォーマ ン ス解析機能を ど の よ う に利用すれば よ いのか、 ま た ど の よ う に視覚化ツー
ル と し て使用で き る ので し ょ う か。
次のサンプル コ ー ド は、 浮動小数点の行列乗算の 2 つの異な る C/C++ イ ンプ リ メ ン テーシ ョ ン を示 し てい ます。 1 つ
は 従来 の イ ン プ リ メ ン テ ー シ ョ ン で あ る Multiply_Old() で す。 も う 1 つ は 新 し い イ ン プ リ メ ン テ ー シ ョ ン で
Multiply_New() です。 新 し いほ う は複雑そ う に見え ますが、 32 バ イ ト のキ ャ ッ シ ュ ラ イ ン を利用 し てい ま す。 詳細
は、 Ulrich Drepper 著の 『What Every Programmer Should Know About Memory』 [参照 6] を参照 し て く だ さ い。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
31
第 6 章 : ソ フ ト ウ ェ ア パフ ォ ーマ ン スの評価
#define CLS 32
#define SM (CLS / sizeof (float))
/* Original method of calculating floating-point matrix multiplication */
void Multiply_Old(float **A, float **B, float **Res, long dim)
{
for (int i = 0; i < dim; i++) {
for (int j = 0; j < dim; j++) {
for (int Index = 0; Index < dim; Index++) {
Res[i][j] += A[i][Index] * B[Index][j];
}}}
}
/* Modified method of calculating floating-point matrix multiplication */
void Multiply_New(float **A, float **B, float **Res, long dim)
{
for (int i = 0; i < dim; i += SM) {
for (int j = 0; j < dim; j += SM) {
for (int k = 0; k < dim; k += SM) {
float *rres = &Res[i][j];
float *rmul1 = &A[i][k];
for (int i2 = 0; i2 < SM; ++i2, rres += dim, rmul1 += dim) {
float *rmul2 = &B[k][j];
for (int k2 = 0; k2 < SM; ++k2, rmul2 += dim) {
for (int j2 = 0; j2 < SM; ++j2) {
rres[j2] += rmul1[k2] * rmul2[j2];
X-Ref Target - Figure 6-5
図 6‐5 : 変更前後の C/C++ ソ フ ト ウ ェ ア (浮動小数点の行列乗算)
BEEBS ベンチマー ク ソ フ ト ウ ェ アは、 浮動小数点お よ び整数の行列乗算の新 し い イ ン プ リ メ ン テーシ ョ ン を使用 し
て、 再 コ ンパ イ ルお よ び再実行 さ れてい ます。
32 ページの表 6-1には、 SDK の [APU Performance Summery] パネルで レ ポー ト さ れてい る CPU0 のパフ ォーマ ン ス メ
ト リ ク ス が ま と め ら れてい ます。 8 つあ る ベンチマー ク の う ち 2 つ し か変更 さ れてい ませんが、 レ ポー ト さ れてい る
メ ト リ ク ス には大 き な差があ り ます。 平均 IPC 値は 34.9% 増加 し てい ますが、 L1 デー タ キ ャ ッ シ ュ ミ ス率は著 し く
低下 し てい ます。 読み出 し ス ト ール サ イ ク ル も 大幅に下が り 、 CPU がデー タ キ ャ ッ シ ュ 補充で待機 し てい る 間に ク
ロ ッ ク サ イ ク ルが低下す る こ と が確認で き ます。
表 6‐1 : CPU0 パ フ ォ ーマ ン ス サマ リ (変更前後の行列乗算)
パ フ ォ ーマ ン ス メ ト リ ク ス
CPU0 パフ ォ ーマ ン ス サマ リ
変更前
変更後
変更点
100.00
100.00
≈
サ イ ク ルご と の CPU 命令
0.43
0.58
↑
L1 デー タ キ ャ ッ シ ュ
ミ ス率 (%)
8.24
0.64
↓↓
L1 デー タ キ ャ ッ シ ュ
ア ク セス
3484.33M
3653.48M
≈
命令 ご と の CPU 書 き 込み
ス ト ール サ イ ク ル
0.00
0.00
≈
命令 ご と の CPU 読み出 し
ス ト ール サ イ ク ル
0.79
0.05
↓↓
CPU 使用率 (%)
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
32
第 6 章 : ソ フ ト ウ ェ ア パフ ォ ーマ ン スの評価
X-Ref Target - Figure 6-6
図 6‐6 : 改善 さ れた行列乗算を使用 し た BEEBS ベ ン チマー クのパフ ォ ーマ ン ス解析
図 6-6 は、 [PS Performance] パネルで レ ポー ト さ れてい る L1 デー タ キ ャ ッ シ ュ のグ ラ フ、 命令ご と の CPU ス ト ール
サ イ ク ル数を示 し てい ます。 30 ページの図 6-3 と 比べ る と 、 コ ー ド のボ ト ルネ ッ ク であ っ た浮動小数点お よ び整数の
行列乗算が大幅に改善 さ れてい る のが明 ら かです。 キ ャ プチ ャ の最後のほ う の、 IPC が低 く 、 L1 デー タ キ ャ ッ シ ュ
ミ ス率が高 く 、 CPU の読み出 し ス ト ール サ イ ク ル数が多い期間が長か っ たのですが、 それがかな り 短 く な り 改善 さ
れてい ます。
こ れは ソ フ ト ウ ェ アの ラ ン タ イ ムで確認 さ れてい ます。 計測 さ れた ラ ン タ イ ムの ま と めは表 6-2 に も あ り ます。 浮動
小数点お よ び整数の行列乗算の ラ ン タ イ ムは、それぞれ も と の ラ ン タ イ ム と 比べて 22.8% そ し て 17.0% と 低減 さ れて
い ます。
表 6‐2 : ソ フ ト ウ ェ ア ラ ン タ イムのま と め (変更前および変更後の行列乗算)
ソ フ ト ウ ェ ア ラ ン タ イ ム ( ミ リ 秒)
ベン チマー ク
浮動小数点の行列の乗算
整数の行列の乗算
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
変更前
9201.70
2100.36
100.0%
22.8%
8726.67
1483.24
100.0%
17.0%
japan.xilinx.com
24 日
変更後
33
第 7章
ハイ パフ ォ ーマ ン ス ポー ト の評価
シ ス テ ム パフ ォーマ ン ス モデ リ ン グ (SPM) の大き な利点は、プ ロ セ ッ シ ン グ シ ス テ ム (PS) と プ ロ グ ラ マブル ロ ジ ッ
ク (PL) の動 き と その イ ン タ ラ ク シ ョ ンに仮説を立てて、 それをチ ェ ッ ク で き る こ と にあ り ます。 こ の機能に よ り 、 デ
ザ イ ン段階に入 る 前にパフ ォーマ ン ス を試行錯誤す る こ と がで き る ため、 後にな っ てパフ ォーマ ン ス に関す る 問題を
発見 し て し ま う 可能性を抑え る こ と がで き ます。 Zynq®-7000 AP SoC デバ イ ス の競合は直接視覚的に確認はで き ませ
んが、 シ ス テ ム パフ ォーマ ン スへの イ ンパ ク ト は表示 さ れます。
PS で ソ フ ト ウ ェ ア アプ リ ケーシ ョ ン を実行 し なが ら も 、具体的な ト ラ フ ィ ッ ク シナ リ オを モデルす る ために SPM デ
ザ イ ン を コ ン フ ィ ギ ュ レー ト す る こ と がで き ます。 その後、 スループ ッ ト やレ イ テ ン シな ど の PL マ ス タ ー パフ ォー
マ ン ス指標を使用 し て、 そのシナ リ オで目指すシ ス テ ム パフ ォーマ ン ス に問題がないか を検証す る こ と がで き ます。
こ のプ ロ セ ス は、 さ ま ざ ま な ト ラ フ ィ ッ ク シナ リ オ を使っ て、 繰 り 返 し 何度 も 実行する こ と がで き ます。
Zynq-7000 AP SoC デバ イ ス の重要な共有 リ ソ ース の 1 つが DDR コ ン ト ロ ー ラ ーです。 こ の リ ソ ースは、両方の CPU、
4 つのハ イ パフ ォーマ ン ス (HP) ポー ト 、 ア ク セ ラ レー タ コ ヒ ーレ ン シ ポー ト (ACP)、 中央 イ ン タ ー コ ネ ク ト を介す
る ほかのマ ス タ ーで共有 さ れます (詳細は第 8 章 「DDR コ ン ト ロ ー ラ ー設定の評価」 を参照)。 こ のため、 利用可能な
DDR の帯域幅を知っ てお く こ と が重要です。
DDR の理論上の帯域幅は次の式を使用 し て計算で き ます。
(533.3 Mcycles)/sec x (2 tranx)/cycle× (4 bytes)/tranx=4270 MB/sec
式1
こ れは、 こ の メ モ リ を使用 し て達成で き る 最大帯域幅ですが、 実際の DDR 使用率は、 リ ク エ ス ト を出すマ ス タ ーの
数や メ モ リ ア ク セ ス の タ イ プな ど多 く の要因に左右 さ れます。 本章で説明す る よ う に、 こ の最大値あ た り 、 あ る いは
それを越え る 帯域幅を リ ク エ ス ト す る と 、 リ ク エ ス ト し てい る マ ス タ ーすべての スループ ッ ト お よ びレ イ テ ン シに影
響す る 可能性があ り ます。 ザ イ リ ン ク ス ソ フ ト ウ ェ ア開発キ ッ ト (SDK) のシ ス テ ム パフ ォーマ ン ス解析 (SPA) ツー
ルボ ッ ク ス は、 こ の解析を し やす く し ます。
HD ビデオ ト ラ フ ィ ッ ク
使 用 さ れ て い る ソ フ ト ウ ェ ア ア プ リ ケ ー シ ョ ン は、 15 ペー ジ の 「SPM ソ フ ト ウ ェ ア」 で 説明 し た BEEBS
(Bristol/Embecosm Embedded Energy Benchmark Suite) ベンチマー ク プ ロ グ ラ ム です。 こ れを SDK で指定す る 方法につ
いては、 24 ページの図 5-1を参照 し て く だ さ い。 こ のシナ リ オでは、 4 つのハ イ パフ ォ ーマ ン ス (HP) ポー ト の ト ラ
フ ィ ッ ク がシ ス テ ムに挿入 さ れていて、 ソ フ ト ウ ェ アお よ びハー ド ウ ェ アのパフ ォ ーマ ン ス は SDK で計測 さ れてい
ます。 こ れは、 ソ フ ト ウ ェ アの複雑な アルゴ リ ズ ム を実行 し なが ら 、 同時に PL で HD ビデオ ス ト リ ーム を処理 し て
い る シ ス テ ム を モデル し てい ます。 こ の処理を イ ンプ リ メ ン ト す る シ ス テ ム を設計す る のではな く 、 SPM を使用す る
と 、 そのパフ ォーマ ン ス をモデルで き ます。 ま た、 設計を開始す る 前に、 目的のパフ ォーマ ン ス を達成で き る こ と を
すばや く 検証す る こ と がで き ます。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
34
第 7 章 : ハイ パフ ォ ーマ ン ス ポー ト の評価
X-Ref Target - Figure 7-1
図 7‐1 : HP ポー ト で HD ビデオ ス ト リ ームを モデルする ATG ト ラ フ ィ ッ ク コ ン フ ィ ギ ュ レーシ ョ ン
図 7-1 は、 最初の ト ラ フ ィ ッ ク シナ リ オを示 し てい ます ( こ の ト ラ フ ィ ッ ク の詳細については第 5 章 「SPM の入門」
を参照)。 こ のシナ リ オは 4 つの未圧縮の 1080p/60 (つま り 1080 の走査線、 プ ロ グ レ ッ シブ、 60 フ レーム/秒) の HD
ビデオ ス ト リ ーム をモデル し てい ます。2 つの ス ト リ ームがポー ト HP0 お よ び HP2 で DDR か ら 読み出 さ れ、ポー ト
HP1 お よ び HP3 には 2 つの ス ト リ ームが書 き 込まれてい ます。 モデル さ れてい る ビデオ ス ト リ ームすべてに対 し 、
ト ラ ンザ ク シ ョ ン間隔は 376MB/秒、 未圧縮の RGB 4:4:4 ビデオの予想スループ ッ ト を リ ク エ ス ト する よ う 選択 さ れ
てい ます。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
35
第 7 章 : ハイ パフ ォ ーマ ン ス ポー ト の評価
X-Ref Target - Figure 7-2
図 7‐2 : HP ポー ト で HD ビデオ ス ト リ ームを モデル し た場合のパフ ォ ーマ ン ス結果のサマ リ
こ の HD ビデオ ト ラ フ ィ ッ ク は ZC702 ボー ド 上で実行 さ れてい ます。 図 7-2 に示す よ う に、 4 つの HP ポー ト のすべ
てが、 376MB/秒の リ ク エ ス ト さ れた スループ ッ ト を維持で き てい ます。 こ れ ら の高い スループ ッ ト は BEEBS ベンチ
マー ク が CPU0 で実行 さ れて い る 間 も 達成 さ れて い ま す。 こ れ ら の 4 つの HP ポー ト で使用 さ れ る 合計帯域幅は、
1510MB/秒、 ま たは DDR の使用可能な帯域幅の 35% で し た。 つ ま り 、 Zynq-7000 AP SoC デバ イ ス で、 こ れ ら の ス
ループ ッ ト を達成す る こ と が可能だ と い う こ と です。 し か し 、 DDR コ ン ト ロ ー ラ ーでのアービ ト レーシ ョ ンお よ び
ス ケ ジ ュ ー リ ン グが原因で、 い く つかの競合が見 ら れ、 ソ フ ト ウ ェ ア アプ リ ケーシ ョ ンのパフ ォーマ ン ス に影響 し て
い ます (40 ページの図 7-7を参照)。 ほ と ん ど のベンチマー ク の ラ ン タ イ ムにわずかな影響が出てい ま し たが、 メ モ リ
ア ク セ ス量の多いベンチマー ク にはいちばん多 く 影響が出てい ま し た。 ワ ース ト ケース は、 整数の行列乗算で、 ラ ン
タ イ ムは 14.0% 増で し た。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
36
第 7 章 : ハイ パフ ォ ーマ ン ス ポー ト の評価
高帯域幅 ト ラ フ ィ ッ ク
34 ページの 「HD ビデオ ト ラ フ ィ ッ ク 」 で説明 さ れてい る ト ラ フ ィ ッ ク モデ リ ン グは拡張可能です。 HP ポー ト の ト
ラ フ ィ ッ ク シナ リ オに別の も のを使用 し 、 同 じ BEEBS ベンチマー ク を実行で き ます。
X-Ref Target - Figure 7-3
図 7‐3 : HP ポー ト で高帯域幅の ト ラ フ ィ ッ ク を モデルする ATG ト ラ フ ィ ッ ク コ ン フ ィ ギ ュ レーシ ョ ン
図 7-3 は、 どれ ぐ ら い高い帯域幅の ト ラ フ ィ ッ ク であればパフ ォーマ ン ス に影響す る のか を確認す る ため、 ス ト レ ス
テ ス ト を実行す る ト ラ フ ィ ッ ク を示 し てい ます。 4 つの HP ポー ト はすべて、 DDR へ イ ン ク リ メ ン タ ルなア ド レ ス指
定を使用 し 、 読み出 し と 書 き 込みの両方に対 し て、 512MB/秒を リ ク エ ス ト し ます。 ト ラ フ ィ ッ ク の長 さ が BEEBS ベ
ンチマー ク アプ リ ケーシ ョ ン全体の長 さ と 一致す る よ う に、 合計の長 さ は 80 秒に設定 さ れてい ま す。 28 ページの
図 6-1 には、 結果の タ イ ム ラ イ ンが表示 さ れてい ます。
HP マ ス タ ーに よ っ て リ ク エ ス ト さ れた スループ ッ ト 合計は 8 * 512 = 4096MB/秒、ま たは DDR の理論上の最大スルー
プ ッ ト の 95.9% です。 ト ラ フ ィ ッ ク には書 き 込み と 読み出 し の両方の リ ク エ ス ト が含ま れてい る ため、 DDR コ ン ト
ロ ー ラ ーには さ ら に ス ト レ ス が加え ら れます。 その理由は、 複数の リ ク エ ス タ ーだけでな く 、 さ ま ざ ま な タ イ プの リ
ク エ ス ト の間を こ の コ ン ト ロ ー ラ ーがアービ ト レー ト し なければな ら ないか ら です。 こ のため、 こ れは、 達成可能な
DDR 帯域幅の ス ト レ ス テ ス ト と みな さ れます。 こ の ト ラ フ ィ ッ ク は ワ ース ト ケース シナ リ オ を表 し てい ますが、 メ
モ リ が提供で き る 範囲を超えた、さ ら に高い帯域幅が リ ク エ ス ト さ れた場合に起き る バ ッ ク プ レ ッ シ ャ ーを可視化す
る よ う に実行す る こ と が重要です。
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
37
第 7 章 : ハイ パフ ォ ーマ ン ス ポー ト の評価
X-Ref Target - Figure 7-4
図 7‐4 : HP ポー ト で高帯域幅 ト ラ フ ィ ッ ク を モデル し た場合のパフ ォ ーマ ン ス結果のサマ リ
SDK で SPM デザ イ ン を使用す る と 、 こ の タ イ プの ス ト レ ス テ ス ト は簡単に実行で き ます。 BEEBS ベンチマー ウ ア
プ リ ケーシ ョ ンは CPU0 で実行 さ れま し たが、 ATG は37 ページの図 7-3に示す リ ク エ ス ト さ れた ト ラ フ ィ ッ ク を実行
す る ために SDK に よ っ て コ ン フ ィ ギ ュ レーシ ョ ン さ れます。 こ の ト ラ フ ィ ッ ク シナ リ オか ら のパフ ォーマ ン ス結果
の ま と めは、 図 7-4 にあ り ます。 予想どお り 、 HP ポー ト ご と に 512MB/秒の スループ ッ ト が リ ク エ ス ト さ れてい ま し
たが、 こ れは達成 さ れてい ませんが、 非常に高い ス ループ ッ ト 総計にな っ てい ます。 HP ポー ト に割 り 当て ら れた読
み出 し /書 き 込みの帯域幅の合計は、 次の よ う に計算 さ れます。
合計帯域幅 =424.22+424.22+424.06+424.06+370.81+370.81+370.79+370.79
= 3179.76 MB/秒
式2
こ の帯域幅は、式 1 か ら 得 ら れ る 理論上の最大値の 74.5% ですが、BEEBS ベンチマー ク ツールを実行 し てい る CPU0
に割 り 当て ら れてい る 帯域幅 も あ り ます。 こ の ス ト レ ス テ ス ト は、 4 つの HP ポー ト の書 き 込みお よ び読み出 し 用に
DDR コ ン ト ロ ー ラ ーに よ っ て使用 さ れ る アービ ト レーシ ョ ン を確認 し てい ます。 書 き 込みま たは読み込みど ち ら か
の ト ラ フ ィ ッ ク も 使用 さ れ る 可能性があ る ため、 DDR コ ン ト ロ ー ラ ーの帯域幅パフ ォ ーマ ン ス は上が る 点に注意 し
て く だ さ い。
書 き 込み と 読み出 し の両方の ト ラ フ ィ ッ ク が指定 さ れてい る ため、 両 タ イ プの ト ラ ンザ ク シ ョ ンのパフ ォーマ ン ス を
解析す る こ と が重要です。 39 ページの図 7-5は、 [PL Performace] パネルの書 き 込み AXI ト ラ ンザ ク シ ョ ンのパフ ォー
マ ン ス を示 し てい ます。 こ の 3 つのグ ラ フは [Write Transactions]、 [Average Write Latency]、 [Write Throughput] です。 書
き 込みスループ ッ ト お よ びレ イ テ ン シは、 テ ス ト 実行全体を通 し 、 4 つの HP ポー ト 上で比較的一定 し てお り 、 平均
値で若干の低下があ る の と 、 3.2 秒あ た り でい く ら かの変動が見 ら れ る 程度です。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
38
第 7 章 : ハイ パフ ォ ーマ ン ス ポー ト の評価
X-Ref Target - Figure 7-5
図 7‐5 : BEEBS ベン チマー ク を実行 し た HP ポー ト の高帯域幅 ト ラ フ ィ ッ ク の書き込みパフ ォ ーマ ン ス結果
X-Ref Target - Figure 7-6
図 7‐6 : BEEBS ベン チマー ク を実行 し た HP ポー ト の高帯域幅 ト ラ フ ィ ッ ク の読み出 し パフ ォ ーマ ン ス結果
HP ポー ト の読み出 し ス ループ ッ ト お よ びレ イ テ ン シには、 行列乗算中のパフ ォーマ ン ス に も っ と 目立っ た低下が見
ら れ ます (図 7-6 を参照)。 ほかのすべてのテ ス ト 中は、 読み出 し 帯域幅は約 420MB/秒ですが、 メ モ リ を多用す る 行
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
39
第 7 章 : ハイ パフ ォ ーマ ン ス ポー ト の評価
列乗算の間は (1024KB のデー タ ア レ イ を使用)、 ス ループ ッ ト は約 340MB/秒に低下 し ま す。 図 7-6 に示す よ う に、
[Show/Hide Trace Tooltip] ボ タ ン
を使用 し て、 こ の事実を確認 し ます。 64 秒間おいて、 4 つの HP ポー ト の読み
出 し ス ループ ッ ト はすべて約 338MB/秒にな り ま す。 ス ループ ッ ト の こ の低下は レ イ テ ン シの増加 と 一致 し てお り 、
ど ち ら も DDR コ ン ト ロ ー ラ ーでの飽和に起因 し てい ます。
具体的な時点でのパフ ォーマ ン ス指標値を レ ポー ト す る には、[Trace Tooltip] ボ タ ン を使用す る こ と も で き ます。 ツー
ル ヒ ン ト が表示 さ れた ら 、 それを グ ラ フ内の任意点に移動 さ せ る こ と がで き 、 指定 さ れた測定値が表示 さ れます。 正
確な時点でのパフ ォーマ ン ス を指定す る のに非常に便利です。
X-Ref Target - Figure 7-7
図 7‐7 : さ ま ざ ま な HP ポー ト ト ラ フ ィ ッ ク での BEEBS ベン チマー クの相対的な ラ ン タ イ ム (デー タ ア レ イ サイ ズは
1024KB)
HP ト ラ フ ィ ッ ク が増加 し た影響は ソ フ ト ウ ェ ア パフ ォーマ ン ス で見 ら れます。 こ のパフ ォーマ ン ス の全体的な指標
は ラ ン タ イ ムです。 BEEBS ソ フ ト ウ ェ アに追加 さ れた測定を使用する 場合は (57 ページの 「ハー ド ウ ェ アの計測」 を
参照)、 1024KB のデー タ ア レ イ サ イ ズ を使用 し た 8 つのベンチマー ク の相対的な ラ ン タ イ ムが図 7-7 に表示 さ れ ま
す。 ト ラ フ ィ ッ ク のない各ベンチマー ク の ラ ン タ イ ムは、 1.0 に正規化 さ れます。 こ の大型ア レ イ には DDR へのア ク
セ ス が必要 と な る ため、 ソ フ ト ウ ェ ア ラ ン タ イ ムの増加は DDR 飽和に よ る も の と 考え ら れます。 行列乗算では、 ソ
フ ト ウ ェ エア ラ ン タ イ ム が最 も 長 く な り ます。 CRC (巡回冗長検査) アルゴ リ ズ ム も ラ ン タ イ ムに目立っ た影響を与
え ますが、 こ れは、 デー タ ア レ イ の メ モ リ 読み出 し 回数が増加 し た こ と と 、 CRC 多項式テーブルが原因であ る こ と
がほ と ん ど です。 その他のベンチマー ク は、 4 つの HP ポー ト すべてで高い スループ ッ ト の ト ラ フ ィ ッ ク があ っ て も 、
パフ ォーマ ン ス に最低限の影響 し か与え ません。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
40
第 8章
DDR コ ン ト ロー ラ ー設定の評価
Zynq-7000 AP SoC デバ イ ス フ ァ ミ リ の場合、 DDR メ モ リ の帯域幅の割 り 当て を あ る 程度 コ ン ト ロ ールで き ます。 こ
れは、 オンチ ッ プ DDR コ ン ト ロ ー ラ ー (DDRC) で設定で き ます。 SDK 2014.4 よ り 、 SPM デザ イ ンの ク ロ ッ ク 周波数
お よ び DDRC 設定を変更で き る よ う にな っ てい ます。 こ の章では、 帯域幅は必ず し も 作成で き ませんが、 それを割 り
当て直す こ と がで き る と い う こ と を説明 し ます。
X-Ref Target - Figure 8-1
図 8‐1 : Zynq‐7000 AP SoC の DDR コ ン ト ロー ラ ー
まず、 DDRC への コ ネ ク テ ィ ビ テ ィ を理解 し てお く こ と が大切です。 図 8-1 は Zynq-7000 AP SoC の DDRC のブ ロ ッ
ク 図です。 DDRC には 4 つのポー ト があ り ます。 CPU お よ びア ク セ ラ レー タ コ ヒ ーレ ン シ ポー ト (ACP) (ポー ト 0)
か ら の ト ラ フ ィ ッ ク 、 中央 イ ン タ ー コ ネ ク ト を介 し たほかのマ ス タ ー (ポー ト 1) か ら の ト ラ フ ィ ッ ク 、 HP2 お よ び
HP3 の HP ポー ト (ポー ト 2) か ら の ト ラ フ ィ ッ ク 、 HP0 お よ び HP1 の HP ポー ト (ポー ト 3) か ら の ト ラ フ ィ ッ ク を処
理 し ます。 DDRC の設定は、 ブー ト プ ロ セ ス の初期段階で さ ま ざ ま なシ ス テ ム設定を コ ン フ ィ ギ ュ レー ト す る 、 PS7
ま た は FSBL の一部です。 詳細は、 『Zynq-7000 AP SoC テ ク ニ カ ル リ フ ァ レ ン ス マ ニ ュ ア ル』 (UG585) [参照 1] の
「DDR メ モ リ コ ン ト ロ ー ラ ー」 の章を参照 し て く だ さ い。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
41
第 8 章 : DDR コ ン ト ロー ラ ー設定の評価
X-Ref Target - Figure 8-2
図 8‐2 : デ フ ォル ト FSBL コ ン フ ィ ギ ュ レーシ ョ ン設定 (SPM デザイ ン)
SDK の Project Explorer で SPM プ ロ ジ ェ ク ト (プ ロ ジ ェ ク ト の デフ ォ ル ト 名は SPM_ZC_702_HwPlatform) を右 ク リ ッ
ク し 、 [Configure FSBL Parameters] を ク リ ッ ク し ます。 図 8-2 はその と き に開 く ダ イ ア ロ グ ボ ッ ク ス です。 SPM デザ
イ ンのデフ ォ ル ト の FSBL 設定が表示 さ れてい ます。 こ のダ イ ア ロ グ ボ ッ ク ス では次の設定がで き ます。
•
[(PS/PL/DDR) Clock Frequency (MHz)] : プ ロ セ ッ シ ン グ シ ス テ ム (PS)、 プ ロ グ ラ マブル ロ ジ ッ ク (PL)、 DDR の ク
ロ ッ ク 周波数を指定で き ます。
•
[DDR Data Path Width] : 16 ビ ッ ト ま たは 32 ビ ッ ト のデー タ パ ス幅を指定で き ます。
•
[DDR Port (0/1/2/3) - Enable HPR] : 4 つの DDR ポー ト に対 し 、 ハ イ パフ ォーマ ン ス の読み出 し (HPR) を有効にす
る こ と がで き ます。
•
[HPR/LPR Queue partitioning] : 32 個の リ ク エ ス ト 分の読み出 し リ ク エ ス ト のキ ュ ーが DDRC に含まれてい ます。
HPR お よ び優先順位の低い読み出 し (LPR) に対する こ のキ ュ ーの割 り 当て方法を指定で き ます。
•
[(LPR/HPR/Write) to Critical Priority Level] : 図 8-2 にあ る 最後の 3 つの値は ク リ テ ィ カル レベルです。 3 つの異な
る キ ュ ー (LPR、 HPR、 Write) が ク リ テ ィ カ ルにな る 前に待機状態の も の を な く す こ と がで き る ク ロ ッ ク 数 (32
DDR ク ロ ッ ク サ イ ク ルが単位) を指定 し ます。 ク リ テ ィ カル ス テー ト に達す る と 、 そのキ ュ ーは最優先にな り
ます。 つま り 、 値が小 さ いほ ど、 そのキ ュ ーの優先度は高 く な り ます。
こ れ ら の DDRC 設定は Vivado® Design Suite で も 変更で き ます。 Vivado IP イ ン テ グ レー タ ー ベース のデザ イ ン では、
ブ ロ ッ ク 図の Zynq7 Processing System IP を ダブル ク リ ッ ク し ます。 コ ン フ ィ ギ ュ レーシ ョ ン ダ イ ア ロ グ ボ ッ ク ス が
開 き 、 そ こ で IP を再カ ス タ マ イ ズで き ます。 DDR コ ン ト ロ ー ラ ーの設定は、 [DDR Configuration] の下に リ ス ト さ れ
ていて、 詳細なオプシ ョ ンは [Enable Advanced options] の下に あ り ま す。 チ ェ ッ ク ボ ッ ク ス がオ ン にな っ ていれば、
読み出 し /書 き 込み優先順位、 優先順位の高い読み出 し (HPR) な ど、 パフ ォ ーマ ン ス に影響す る 可能性のあ る 重要な
設定を表示 し た り 、 変更 し た り で き ま す。 こ れ ら の設定の詳細は、 『Zynq-7000 AP SoC テ ク ニ カル リ フ ァ レ ン ス マ
ニ ュ アル』 (UG585) [参照 1] で説明 さ れてい ます。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
42
第 8 章 : DDR コ ン ト ロー ラ ー設定の評価
デ フ ォル ト の DDRC 設定
ベース ラ イ ン結果は、 42 ページの図 8-2に示す よ う に、 デフ ォ ル ト の FSBL 設定を使用 し て、 HP のみの ト ラ フ ィ ッ ク
を実行 し て作成 さ れてい ます。PL ト ラ フ ィ ッ ク は 37 ページの図 7-3に示す高帯域幅の HP ト ラ フ ィ ッ ク ですが、 その
期間は 10 秒に設定 さ れてい ます。ま た、ソ フ ト ウ ェ ア アプ リ ケーシ ョ ンは実行 さ れてい ません。[Debug Configuration]
を変更 し て コ ン フ ィ ギ ュ レーシ ョ ンで き ます。[Application] タ ブ を ク リ ッ ク し 、[Download Applications] チ ェ ッ ク ボ ッ
ク ス を オ フ に し ます。
X-Ref Target - Figure 8-3
図 8‐3 : デ フ ォル ト DDR コ ン フ ィ ギ ュ レーシ ョ ン設定を使用 し た HP パフ ォ ーマ ン ス
こ の ト ラ フ ィ ッ ク シナ リ オは ZC702 で実行 さ れていて、 結果は図 8-3 で確認で き ます。 デフ ォ ル ト の DDRC 設定は
ま だ変更 さ れて い な い た め、 使用 さ れて い る 点に注意 し て く だ さ い。 CPU か ら の DDR ト ラ フ ィ ッ ク が な い た め、
38 ページの図 7-4にあ る 前の結果 よ り も 高い帯域幅を HP ポー ト が維持 し てい ます。
こ のため、 合計の DDR 帯域幅は、 HP ポー ト で計測 さ れた各帯域幅の和にな り 、 次の よ う に計算 さ れます。
合計の帯域幅 = 434.63+434.70+434.67+435.08+429.81+429.87+430.06+430.47
= 3459.29 MB/秒
式1
合計の帯域幅は、 DDR の理論上の最大スループ ッ ト の 81.0% です。 4 つの異な る HP ポー ト か ら の高帯域幅の読み出
し と 書 き 込みが混ざ っ てい る こ と を考え る と 、 こ れは非常に よ いパフ ォーマ ン ス です。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
43
第 8 章 : DDR コ ン ト ロー ラ ー設定の評価
変更 し た DDRC 設定
DDRC 設定を変更 し 、上記の HP のみのテ ス ト を再実行 し て、パフ ォーマ ン ス結果を比較する こ と がで き ます。DDRC
設定を こ の ス ト レ ス テ ス ト 用に変更す る のは重要なのですが、 ユーザー デザ イ ンにはその変更が好ま し く ない場合
も あ る ので注意 し て く だ さ い。実際、デフ ォ ル ト の DDRC 設定を使用す る と ほ と ん ど のデザ イ ン で目指すパフ ォーマ
ン ス を達成す る こ と がで き ます。
X-Ref Target - Figure 8-4
図 8‐4 : 変更 し た FSBL コ ン フ ィ ギ ュ レーシ ョ ン設定 (SPM デザイ ン)
HP0 お よ び HP1 の読み出 し ト ラ フ ィ ッ ク に、 高い優先順位が必要であ る シナ リ オを検討 し てみま し ょ う 。 Zynq-7000
AP SoC では、 こ れ ら の HP ポー ト は、 DDR ポー ト 3 に よ り 処理 さ れます (41 ページの図 8-1を参照)。 図 8-4 にあ る よ
う に、 こ れは、 HPR を DDR ポー ト 3 に追加す る こ と で達成で き ます。 リ ク エ ス ト キ ュ ー も 、 HPR の 24 個の リ ク エ
ス ト 、 LPR の 8 個の リ ク エ ス ト を割 り 当て る こ と で分割で き てい ます。 HPR はその ク リ テ ィ カル レベルを 2 に下げ
る こ と で、 さ ら に優先度が上がっ ていて、 LPR お よ び書 き 込みの ク リ テ ィ カル レベルは 15 に上げ ら れてい ます。 こ
れは、 HPR が目指す優先度で受信 さ れ る よ う にす る ための重要な ス テ ッ プです。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
44
第 8 章 : DDR コ ン ト ロー ラ ー設定の評価
X-Ref Target - Figure 8-5
図 8‐5 : 変更 さ れた DDR コ ン ト ロー ラ ー設定を使用 し た HP パフ ォ ーマ ン ス
図 8-5 は、 DDRC 設定を変更 し 、 同 じ HP のみの ト ラ フ ィ ッ ク を再実行 し た後の SDK での結果を示 し てい ます。 HP0
お よ び HP1 の DDR コ ン ト ロ ー ラ ーでの ト ラ ンザ ク シ ョ ンは高い優先順位であ る ため、HP0 お よ び HP1 は リ ク エ ス ト
さ れてい る 512 MB/秒の読み出 し ス ループ ッ ト を達成で き てい ます。 し か し 、 ほかのすべての ト ラ フ ィ ッ ク (HP2 お
よ び HP3 の リ ク エ ス ト さ れた読み出 し 、 そ し てすべての書き 込み) 達成スループ ッ ト は低下 し てい ます。 こ れは、 こ
れ ら の ト ラ ンザ ク シ ョ ンの優先順位が低い こ と が原因です。 つま り 、 DDRC 設定でその よ う に指定 さ れてい る と い う
こ と です。 こ のテ ス ト の合計帯域幅は次の よ う に計算 さ れます。
合計帯域幅 =410.34+410.46+410.37+410.58+512.08+512.21+356.39+356.59
= 3379.02 MB/秒
式2
こ の合計帯域幅は、 デフ ォ ル ト の DDRC 設定で達成 さ れた合計帯域幅の 2.3% に収ま っ てい ます (ま と めは 43 ページ
の図 8-3 お よ び 式 1 を参照 し て く だ さ い)。 DDRC 設定を変更 し て も 帯域幅は作成 さ れず、 再度割 り 当て ら れ る だけ
であ る 点に注意 し て く だ さ い。 つま り 、 DDR コ ン ト ロ ー ラ ーで達成 さ れた合計帯域幅を占め る 率が高い も のが、 リ
ク エ ス ト さ れた優先順位の高いポー ト HP0 お よ び HP1 に割 り 当て直 さ れます。 一方で合計帯域幅は比較的一定 し て
い ます。
X-Ref Target - Figure 8-6
図 8‐6 : 変更 さ れた DDR コ ン ト ロー ラ ー設定を使用 し た HP ポー ト の読み出 し レ イ テ ン シ
ま た、 別の確認方法が、 図 8-6 にあ る 読み出 し レ イ テ ン シの図に示 さ れてい ます。 HP0 お よ び HP1 での読み出 し ト ラ
フ ィ ッ ク に高い優先順位を与え る ため、 DDRC が コ ン フ ィ ギ ュ レーシ ョ ン さ れてい る ため、 こ れ ら のポー ト の レ イ テ
ン シは比較的低 く な っ てい ます。 つま り 、 こ れ ら のポー ト の読み出 し リ ク エ ス ト は、 高い優先順位で DDRC に よ っ て
処理 さ れてい ます。 一方で、 その他の HP ポー ト 、 HP2 と HP3 の読み出 し リ ク エ ス ト は低い優先順位で処理 さ れてい
る ため、 その レ イ テ ン シは も っ と 高 く な り ます。 こ のため、 HP0 と HP1 の スループ ッ ト が高 く な り 、 HP2 と HP3 の
スループ ッ ト は低 く な り ます。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
45
第 8 章 : DDR コ ン ト ロー ラ ー設定の評価
オ ン チ ッ プ メ モ リ の使用
すべての HP ポー ト の書 き 込み と 読み出 し 両方の ト ラ フ ィ ッ ク に対 し 、 512MB/秒を得 る と い う のがデザ イ ン要件に
な っ てい る ケース を考え てみま し ょ う 。DDRC 帯域幅を増加 さ せ る ためほかの メ モ リ を利用す る にはど う し た ら よ い
で し ょ う か。 帯域幅合計は 8 * 512 = 4096MB/秒、 ま たは DDR の理論上の最大スループ ッ ト の 96.0% が必要にな り ま
す。 通常の DDR コ ン ト ロ ー ラ ーや、 書 き 込み と 読み出 し を混合 さ せた メ モ リ を使っ て も こ れを達成す る こ と はで き
な い の ですが、 追加デー タ バ ッ フ ァ リ ン グ 用に オ ン チ ッ プ メ モ リ (OCM) を 利用す る こ と が可能です。 こ れは、
Zynq-7000 AP SoC PS にあ る 、 優れた、 低い レ イ テ ン シの ス ク ラ ッ チ パ ッ ド を提供す る 256KB メ モ リ と は別です。
X-Ref Target - Figure 8-7
図 8‐7 : DDR と OCM の両方を使用 し 、 HP ポー ト の高帯域幅 ト ラ フ ィ ッ ク を モデルする ATG ト ラ フ ィ ッ ク コ ン フ ィ
ギ ュ レーシ ョ ン
図 8-7 は OCM を使用す る あ る ト ラ フ ィ ッ ク シナ リ オ を示 し てい ます。 こ のシナ リ オ を、 37 ページの図 7-3にあ る 元
のシナ リ オ と 比較 し て く だ さ い。 リ ク エ ス ト さ れた スループ ッ ト は、 すべての操作お よ び タ イ プに対 し て同 じ ま ま で
すが、 HP2 お よ び HP3 の ト ラ フ ィ ッ ク は OCM を使用 し てい ます。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
46
第 8 章 : DDR コ ン ト ロー ラ ー設定の評価
X-Ref Target - Figure 8-8
図 8‐8 : DDR と OCM の両方を使用 し た HP ポー ト の高帯域幅 ト ラ フ ィ ッ ク のパフ ォ ーマ ン ス サマ リ
その よ う な ト ラ フ ィ ッ ク シナ リ オの結果は図 8-8 に示 さ れてい ます。OCM は DDR の帯域幅を増加 さ せ る ために使用
さ れてい る ので、 4 つの HP ポー ト すべてで書 き 込みお よ び読み出 し の両方の操作に対 し て、 512MB/秒 と い う 必要な
帯域幅が維持 さ れてい ます。 OCM か ら の平均読み出 し レ イ テ ン シは 32 か ら 34 サ イ ク ルですが、 DDR か ら の平均は
37 か ら 39 サ イ ク ルだ と い う こ と も 注目に値 し ます。 こ れ ら の レ イ テ ン シ値はシ ス テ ムの多 く の要因に左右 さ れ る の
で、 SPM デザ イ ン を使用 し 、 さ ま ざ ま な条件の下で解析を実行する こ と が重要です。
も ち ろん、 DDRC 設定を変更 し て、 帯域幅の再割 り 当て を試 し てみる こ と がで き ます。 た と えば、 ユーザーのプ ロ グ
ラ マブル ロ ジ ッ ク デザ イ ン で、 あ る IP の帯域幅要件が も っ と 高か っ た り 、 あ る いは レ イ テ ン シ要件が低か っ た り す
る ケース があ り ます。その コ アが ど の HP ポー ト に接続 さ れ る のか (ま たはどれに接続する 予定なのか) を把握 し た ら 、
その HP ポー ト と のペアに も っ と 高い帯域幅を割 り 当て る こ と がで き ます。 た と えば、 第 11 章 「徹底パフ ォーマ ン ス
解析」 では、 マルチ レ イ ヤー ビデオ デ ィ ス プ レ イ コ ン ト ロ ー ラ ーの帯域幅要件が、 シ ス テ ムの AXI マ ス タ ー よ り も
高 く な っ てい ます。
デザ イ ン の条件 と 制約が違えば、 別の HPR と 優先レベルの組み合わせのほ う が う ま く い く こ と も あ り ます。 た と え
ば、 DDR ポー ト 0 の優先順位を上げ る こ と で、 ユーザーの ソ フ ト ウ ェ アの ラ ン タ イ ム パフ ォーマ ン ス を改善する た
めに、 こ れ ら の設定を変更す る こ と も で き る で し ょ う 。 こ のポー ト は L2 キ ャ ッ シ ュ に接続 さ れていて、 CPU お よ び
ACP ポー ト 用にな っ てい ます。
SDK で提供 さ れてい る パフ ォーマ ン ス解析機能を利用す る こ と で、 こ う し たパフ ォーマ ン ス結果をすばや く 、 視覚的
に検証す る こ と がで き ます。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
47
第 9章
メ モ リ 階層および ACP の評価
SPM (System Performance Modeling) デザ イ ン を使用 し て、 Zynq®-7000 AP SoC キ ャ ッ シ ュ のパフ ォーマ ン ス効果を評
価す る こ と がで き ます。 まず ソ フ ト ウ ェ アだけ を使用 し たベース ラ イ ン パフ ォーマ ン ス を査定 し て、 それか ら 、 ア ク
セ ラ レー タ コ ヒ ーレ ン シ ポー ト (ACP) の ト ラ フ ィ ッ ク の効果を評価で き ます。 ソ フ ト ウ ェ アのみを実行 し てい る と
き は メ モ リ パフ ォーマ ン ス は非常に予測 し やすいのですが、 ほかの ト ラ フ ィ ッ ク ア ク テ ィ ビ テ ィ を シ ス テ ム に加え
る と 、 結果はそれほ ど簡単には予測で き な く な る 可能性が出て き ます。 特に、 CPU お よ び ACP の ト ラ フ ィ ッ ク は共
有の L2 キ ャ ッ シ ュ で互いに影響 し 合 う 可能性があ り ます。 SPM デザ イ ン を使用す る こ と で、 こ の解析を非常に簡単
に行 う こ と がで き ます。
メ モ リ パフ ォ ーマ ン スの査定
こ の査定を始め る には、 SPM デザ イ ン を使用 し 、 ソ フ ト ウ ェ アのみを実行 し たベース ラ イ ン パフ ォ ーマ ン ス を査定
し ます。 こ の評価に使用す る アプ リ ケーシ ョ ンは、 SPM プ ロ ジ ェ ク ト の中にあ る プ リ コ ンパ イ ル さ れた実行フ ァ イ ル
の 1 つ、 メ モ リ ス ト ラ イ ド ベンチマー ク プ ロ グ ラ ムです。
X-Ref Target - Figure 9-1
図 9‐1 : メ モ リ ス ト ラ イ ド ベン チマー ク ソ フ ト ウ ェ ア を使用 し たア プ リ ケーシ ョ ン設定
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
48
第 9 章 : メ モ リ 階層および ACP の評価
図 9-1 は、 メ モ リ ス ト ラ イ ド ベンチマー ク ソ フ ト ウ ェ ア実行フ ァ イ ルを使用 し て SDK で こ れを定義す る 方法を示 し
てい ます (15 ページの 「SPM ソ フ ト ウ ェ ア」 を参照)。 こ の ソ フ ト ウ ェ アは、 帯域幅お よ び平均レ イ テ ン シ を計算す
る よ う に設定 さ れてい ます (56 ページの 「 ソ フ ト ウ ェ アの計測」 を参照)。
表 9‐1 : メ モ リ ス ト ラ イ ド ベン チマー ク を使用 し た ソ フ ト ウ ェ アのみの帯域幅結果 (MB/秒)
パ タ ーン タ イ プ
リ ニア
ラ ンダム
(予測値)
ラ ンダム
( リ アル タ イ ム)
サイ ズ
操作 タ イ プ
4KB
64KB
1024KB
読み出 し
2141.4
338.4
118.1
書 き 込み
2114.8
238.4
57.6
コ ピー
1248.4
126.7
32.9
読み出 し / 書 き 込
み
1194.4
265.2
64.4
読み出 し
1019.9
325.9
92.4
書 き 込み
532.4
285.6
64.1
コ ピー
442.6
140.6
31.9
読み出 し
337.2
138.7
41.5
書 き 込み
409.8
393.6
70.0
コ ピー
409.7
159.4
32.8
表 9‐2 : メ モ リ ス ト ラ イ ド ベン チマー ク を使用 し た ソ フ ト ウ ェ アのみのレ イ テ ン シ結果 (ナ ノ 秒)
パ タ ーン タ イ プ
サイ ズ
操作 タ イ プ
4KB
64 KB
1024 KB
リ ニア
読み出 し
1.87
11.82
33.88
ラ ンダム
(予測値)
読み出 し
1.89
16.78
69.46
プ ロ グ ラ マブル ロ ジ ッ ク (PL) の ト ラ フ ィ ッ ク を使用せずに、 ソ フ ト ウ ェ アのみのテ ス ト での帯域幅結果 (MB/秒) は
表 9-1 に、 レ イ テ ン シ結果 (ナ ノ 秒) は表 9-2 に リ ス ト さ れてい ます。 4KB、 64KB、 1024KB と い う 3 つのサ イ ズは、
メ モ リ 階層の異な る ス テージでの帯域幅を テ ス ト す る ために使用 さ れてい ます。 こ の 3 つのサ イ ズは、 SPM プ ロ ジ ェ
ク ト のプ リ コ ンパ イ ル さ れた メ モ リ ス ト ラ イ ド 実行フ ァ イ ルに よ り 使用 さ れてい ます。 こ れ ら のデー タ ア レ イ の位
置は、 そのサ イ ズ と 、 プ ロ グ ラ ムで使用 さ れてい る ヒ ープ以外の場所には まずみ ら れない と い う 事実か ら 推測で き ま
す。
1 つのサ イ ズ内で も っ と も 高い帯域幅は リ ニ アの帯域幅テ ス ト で達成 さ れます。こ れ ら のテ ス ト は 32 バ イ ト のキ ャ ッ
シ ュ ラ イ ン を利用す る こ と がで き る か ら です。 コ ピーや、 読み出 し /書 き 込み と い っ た操作は、 読み出 し と 書 き 込み
の両方の操作が行われ る ため、 一般的にその速度は遅 く な り ます。 3 つのサ イ ズの う ち、 4KB ア レ イ がいちばん高い
帯域幅を維持 し 、 1024KB ア レ イ がいちばん低い帯域幅を維持 し ます。
表 9-1 お よ び表 9-2 に リ ス ト さ れてい る 12 個のベンチマー ク が 3 つのデー タ ア レ イ サ イ ズでそれぞれに実行 さ れ る
ので、 合計 36 個のテ ス ト が実行 さ れてい ます。 各テ ス ト 間に 1 秒間の ス リ ープが挿入 さ れてい る ため、 CPU 使用率
を見れば、 ど のベンチマー ク が実行 さ れてい る のか を見分けやす く な っ てい ます。 図 9-2 には、 結果の タ イ ム ラ イ ン
が表示 さ れてい ます。 各ベンチマー ク 内で、 小 さ いサ イ ズか ら 大 き なサ イ ズへ と 順番に、 3 つのデー タ サ イ ズが実行
さ れてい ます。 CPU0 の使用率お よ びその使用期間を確認で き ます。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
49
第 9 章 : メ モ リ 階層および ACP の評価
X-Ref Target - Figure 9-2
図 9‐2 : メ モ リ ス ト ラ イ ド ベン チマー クの PS パフ ォ ーマ ン ス グ ラ フ
図 9-2 は、 [PS Performance] パネルに レ ポー ト さ れてい る ほかの 3 つのグ ラ フ、 L1 デー タ キ ャ ッ シ ュ ミ ス率、 命令ご
と の CPU 書 き 込み/読み出 し の ス ト ール サ イ ク ル数が示 さ れてい ます。 メ モ リ ス ト ラ イ ド ベンチマー ク は一定間隔
で行われ る ので、 それが こ れ ら のグ ラ フ に反映 さ れてい ます。 ま た、 こ の 3 つのグ ラ フは、 デー タ が ど こ に取 り 込ま
れてい る かに関す る 情報 も 示す こ と がで き ます。 3 つに 1 つベンチマー ク の L1 デー タ キ ャ ッ シ ュ ミ ス率が 0% にな
り ますが、 こ れは 4KB のサ イ ズが使用 さ れた場合です。 ほかの 2 つのサ イ ズは、 L1 デー タ キ ャ ッ シ ュ には収ま ら な
いため、 ミ ス率はほぼ 100% にな り ます。
こ れ ら のキ ャ ッ シ ュ ミ ス の ソ フ ト ウ ェ アへの影響は、 命令ご と の ス ト ール サ イ ク ル数で確認で き ます。 ス ト ール サ
イ ク ル数が多ければ、 メ モ リ 書 き 込み (書 き 込み) ま たはデー タ キ ャ ッ シ ュ 補充 (読み出 し ) を待 っ てい る 間のプ ロ
セ ッ サのサ イ ク ル数が多 く な り ます。 つま り 、 そのベンチマー ク の有効帯域幅が低 く な り ます。 た と えば、 図 9-2 に
あ る リ ニア帯域幅の コ ピーのベンチマー ク は、約 10 か ら 11 秒で実行 さ れてい ます。 こ の期間中の命令ご と の CPU 書
き 込み/読み出 し ス ト ール サ イ ク ル数が多いのは、すべての メ モ リ ス ト ラ イ ド ベンチマー ク の中で最 も 低い帯域幅の
1 つを維持 し てい る か ら です (33.23 MB/秒、 49 ページの表 9-1を参照)。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
50
第 9 章 : メ モ リ 階層および ACP の評価
デー タ サイ ズおよび局所性
メ モ リ 階層のパ フ ォ ーマ ン ス を よ り 視覚的確認す る ため、 メ モ リ ス ト ラ イ ド テ ス ト で使用 さ れたサ イ ズの範囲を
1KB か ら 4096KB ま でに し ま し た。 こ れで、 デー タ サ イ ズお よ びその局所性が、 CPU で達成 さ れ る 帯域幅 と レ イ テ
ン シに ど の よ う に影響す る か をはっ き り と 確認で き る よ う にな り ます。
X-Ref Target - Figure 9-3
図 9‐3 : メ モ リ ス ト ラ イ ド テ ス ト で達成 し た CPU メ モ リ 帯域幅
X-Ref Target - Figure 9-4
図 9‐4 : メ モ リ ス ト ラ イ ド テ ス ト で達成 し た CPU メ モ リ ア ク セス レ イ テ ン シ
51 ページの図 9-3は、 メ モ リ ス ト ラ イ ド テ ス ト 中に CPU0 で達成 さ れた メ モ リ 帯域幅を示 し てい ます。はっ き り と 説
明で き る よ う に、 ラ ン ダ ム帯域幅 ( リ アル タ イ ム) テ ス ト は、 こ のグ ラ フ には表示 さ れてい ません。 サ イ ズが大 き く な
る と 、 L1 と L2 デー タ キ ャ ッ シ ュ の境界で大 き く 変動 し てい ま す。 こ れはサ イ ズが前のキ ャ ッ シ ュ には収ま ら な く
な っ て し ま っ たか ら です。 図 9-4 も 、 メ モ リ ス ト ラ イ ド テ ス ト 中に CPU0 で達成 さ れ る 平均 メ モ リ ア ク セ ス レ イ テ
ン シに対 し 、 同 じ よ う な変動があ る こ と を示 し てい ます。 し か し 、 サ イ ズが大 き く な る と 帯域幅が低 く な る 一方で、
レ イ テ ン シは大 き く 増加 し てい ます。
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
51
第 9 章 : メ モ リ 階層および ACP の評価
共有 L2 キ ャ ッ シ ュ
CPU と メ モ リ と の間のベース ラ イ ン パフ ォーマ ン ス を測 る こ と がで き たので、 次に、 ア ク セ ラ レー タ コ ヒ ーレ ン シ
ポー ト (ACP) に ト ラ フ ィ ッ ク を追加 し て、 シ ス テ ム パフ ォーマ ン スへのその影響を解析 し ます。 メ モ リ ス ト ラ イ ド
ソ フ ト ウ ェ ア (15 ページの 「SPM ソ フ ト ウ ェ ア」 を参照) は、 CPU0 で ま た実行 さ れてい ますが、 今回は ト ラ フ ィ ッ
ク が ACP に追加 さ れてい ます。 L2 キ ャ ッ シ ュ は CPU と ACP で共有 さ れてい る ため、 その メ モ リ であ る 程度の競合
が起 き る こ と が予測 さ れます。
X-Ref Target - Figure 9-5
図 9‐5 : ACP での ト ラ フ ィ ッ ク を モデ リ ングする ATG コ ン フ ィ ギ ュ レーシ ョ ン
図 9-5 は、ACP の初期 ト ラ フ ィ ッ ク をモデルす る 、AXI ト ラ フ ィ ッ ク ジ ェ ネ レー タ ー (ATG) の コ ン フ ィ ギ ュ レーシ ョ
ン を示 し てい ます。 4KB 領域内での ラ ン ダ ム ア ド レ ス指定が指定 さ れてい ますが、 L2 か ら DDR ま での メ モ リ パ ス
が使用 さ れてい ます。 [Tranx interval] の最初の値は 100 ク ロ ッ ク サ イ ク ルで、 100MHz で 128MB/秒の スループ ッ ト を
リ ク エ ス ト す る よ う 、 ATG が コ ン フ ィ ギ ュ レー ト さ れ ます。 そのほかの設定はその ま ま に し てお き 、 [Tranx interval]
の値を下げます。 そ う す る と 、 リ ク エ ス ト さ れた スループ ッ ト 値が増え てい き ます。 こ の ト ラ ンザ ク シ ョ ン間隔に使
用 さ れ る 値は、 100、 50、 30、 25、 20、 17 です。 こ れ ら の間隔はそれぞれ、 128、 256、 426、 512、 640、 752MB/秒の
スループ ッ ト を リ ク エ ス ト し ます。
こ の ト ラ フ ィ ッ ク シナ リ オで、 帯域幅に関 し て、 CPU と ACP と の間での ト レー ド オ フ を試行錯誤す る こ と がで き ま
す。ただ し 、 こ れは CPU と ACP が共有 メ モ リ 空間を使用 し ていないケース を モデル し てい る 点に注意 し て く だ さ い。
DDR に対 し て も 同様で、 L2 デー タ キ ャ ッ シ ュ は、 ス ケ ジ ュ ー リ ン グに基づいて帯域幅を割 り 当て ます。 合わせた帯
域幅が L2 キ ャ ッ シ ュ がサポー ト で き る 値 よ り 高い場合は、 バ ッ ク プ レ ッ シ ャ ー と い う 形で競合が起 き ます。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
52
第 9 章 : メ モ リ 階層および ACP の評価
X-Ref Target - Figure 9-6
図 9‐6 : メ モ リ ス ト ラ イ ド および ACP ト ラ フ ィ ッ ク な し のパフ ォ ーマ ン ス サマ リ
X-Ref Target - Figure 9-7
図 9‐7 : メ モ リ ス ト ラ イ ド および 752 MB/秒を リ ク エス ト する ACP ト ラ フ ィ ッ クのパフ ォ ーマ ン ス サマ リ
53 ページの図 9-6 は、 ACP ト ラ フ ィ ッ ク な し で メ モ リ ス ト ラ イ ド を実行 し た後の、 SDK でのパフ ォーマ ン ス サマ リ
です。 図 9-7 は、752MB/秒 ( ト ラ ンザ ク シ ョ ン間隔は 17) を リ ク エ ス ト す る ACP の読み出 し /書 き 込み ト ラ フ ィ ッ ク を
追加 し て メ モ リ ス ト ラ イ ド を実行 し た同 じ パフ ォーマ ン ス サマ リ です。 こ れ ら は同 じ テ ス ト の 2 種類のサマ リ です
が、 その違いはあ る 程度見 ら れます。 ACP ト ラ フ ィ ッ ク は図 9-7 で明 ら かに見 ら れますが、 CPU 統計は大体類似 し て
い ます。
命令ご と の CPU 書 き 込みス ト ール サ イ ク ル数 と 、 命令ご と の CPU 読み出 し ス ト ール サ イ ク ル数には 1 つ違いがあ
り ます。 こ れ ら の値は、 ACP ト ラ フ ィ ッ ク な し で 2.03 お よ び 4.10 ですが、 高帯域幅の ACP ト ラ フ ィ ッ ク を追加す る
と 、 それぞれ 2.67 お よ び 5.22 に増加 し ます。 こ れ ら 2 つの指標の値が高 く な る と 、 一般的に メ モ リ 書 き 込み と デー
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
53
第 9 章 : メ モ リ 階層および ACP の評価
タ キ ャ ッ シ ュ 補充で CPU が ス ト ールす る こ と を示 し ます。 その理由は、 ACP ト ラ フ ィ ッ ク が L2 キ ャ ッ シ ュ の帯域
幅をかな り 使っ て し ま っ てい る ために、 L2 キ ャ ッ シ ュ で競合が起 き る か ら です。
X-Ref Target - Figure 9-8
図 9‐8 : レ イ テ ン シへの影響を示す SDK での ACP パフ ォ ーマ ン ス結果
図 9-8 は、こ の競合が ACP の書 き 込みお よ び読み出 し のパフ ォーマ ン ス に ど の よ う な影響を与え てい る のか を示 し て
い ます。 ACP 書 き 込みパフ ォーマ ン スへの影響は最小限で、 さ ま ざ ま な ソ フ ト ウ ェ ア ベンチマー ク を試 し てみて も
レ イ テ ン シにわずかな増加が見 ら れ る だけです。 し か し 、平均読み出 し レ イ テ ン シは、 メ モ リ ス ト ラ イ ド ソ フ ト ウ ェ
アの影響を明 ら かに受けていて、 ベンチマー ク のシーケ ン ス がその周期に反映 さ れてい ます。 ACP スループ ッ ト も 影
響を受けていて、 約 640MB/秒の ワ ー ス ト ケース値に低下 し てい ます。 リ ク エ ス ト さ れた帯域幅 752MB/秒は、 一般
的なデザ イ ンにはおそ ら く 値が高すぎ て現実的ではあ り ませんが、 シ ス テ ムの ス ト レ ス テ ス ト には効果があ り ます。
X-Ref Target - Figure 9-9
図 9‐9 : CPU0 vs ACP 帯域幅 (サイ ズ = 4 KB) で達成 さ れたパフ ォ ーマ ン ス
X-Ref Target - Figure 9-10
図 9‐10 : CPU0 vs ACP 帯域幅 (サイ ズ = 64 KB) で達成 さ れたパフ ォ ーマ ン ス
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
54
第 9 章 : メ モ リ 階層および ACP の評価
X-Ref Target - Figure 9-11
図 9‐11 : CPU0 vs ACP 帯域幅 (サイ ズ = 1024 KB) で達成 さ れたパフ ォ ーマ ン ス
リ ク エ ス ト さ れた ACP 帯域幅の値が確認 さ れたので、 維持 さ れてい る CPU の帯域幅 も 記録 さ れてい ます。 54 ページ
の図 9-9は、 4KB の サ イ ズ を 使用 し た メ モ リ ス ト ラ イ ド で の CPU0 に よ っ て 達成 さ れ た 帯域幅 を 示 し て い ま す。
図 9-10 は、 メ モ リ ス ト ラ イ ド が 64KB で実行 さ れた と き の CPU0 帯域幅を、図 9-11 は、 メ モ リ ス ト ラ イ ド が 1024KB
で実行 さ れた と き の帯域幅を示 し てい ます。こ れ ら のサ イ ズで得 ら れた値は、L1 デー タ キ ャ ッ シ ュ 、L2 デー タ キ ャ ッ
シ ュ 、 そ し て DDR と それぞれで達成 さ れた帯域幅の有効な計測値 と みな さ れます。
メ モ リ ス ト ラ イ ド ソ フ ト ウ ェ ア を 4KB で実行す る 場合は、 CPU 帯域幅は ACP の ト ラ フ ィ ッ ク の影響は受け ません
(54 ページの図 9-9を参照)。 64KB お よ び 1024KB を使用す る と 、 ACP ト ラ フ ィ ッ ク は CPU 帯域幅に大 き な影響を与
え ます (図 9-10 お よ び図 9-11 を参照)。 CPU0 帯域幅が一番低下 し たのは、 64KB で リ ニ ア帯域幅の コ ピー ベンチマー
ク を実行 し た と き で、 14.6% で し た。
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
55
第 10 章
カ ス タ ム タ ーゲ ッ ト の使用
ザ イ リ ン ク ス ソ フ ト ウ ェ ア開発キ ッ ト (SDK) のシ ス テ ム パフ ォーマ ン ス解析ツールボ ッ ク ス をデザ イ ンで使用す る
には、 ソ フ ト ウ ェ アの計測、 ハー ド ウ ェ アの計測、 そ し て SDK 内でのカ ス タ ム タ ーゲ ッ ト の監視 と い う 3 つの重要
な点を考慮す る 必要があ り ます。
ソ フ ト ウ ェ アの計測
ソ フ ト ウ ェ ア ラ ン タ イ ム、 帯域幅、 平均レ イ テ ン シは、 xtime_l.h ヘ ッ ダーで定義 さ れてい る ス タ ン ド ア ロ ン の BSP
で使用で き る 簡単な計測を使用 し ます。 各ベンチマー ク の前後に、 XTime_GetTime() が挿入 さ れてい ます (57 ページ
の図 10-1を参照)。 2 つの Xtime 値の差は、 xtime_l.h にあ る COUNTS_PER_SECOND 値を使用 し て秒 (ま たは ミ リ 秒)
に変換 さ れてい ます。 ベンチマー ク 実行中に送信 さ れ る デー タ 量はわか っ てい る ため、 その特定ベンチマー ク を実行
し てい る 間に達成 さ れた帯域幅お よ び平均レ イ テ ン シは計算す る こ と も で き ます。
#include
#include
#include
#include
<stdlib.h>
<stdio.h>
<unistd.h>
"xtime_l.h"
// XTime_GetTime()
// Macros
#define TIMEDIFF(t1,t2) (t2 - t1)
#define MILLISECONDS(t) (1000.0 * t / COUNTS_PER_SECOND)
// Globals
XTime start, end;
// Start a test
void startTest() {
XTime_GetTime(&start);
}
// End a test
void endTest() {
XTime_GetTime(&end);
double time_curr = TIMEDIFF(start, end);
double msec = MILLISECONDS(time_curr);
printf("Run-time = %.2f msec...\n", msec);
// Achieved Bandwidth = (total bytes transferred) / (msec)
// Average Latency = (msec) / (total memory accesses)
}
// Dummy test
void runSomething(int time) {
sleep(time);
}
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
56
第 10 章 : カ ス タ ム タ ーゲ ッ ト の使用
int main(void) {
startTest();
runSomething(1);
endTest();
startTest();
runSomething(2);
endTest();
return 0;
}
X-Ref Target - Figure 10-1
図 10‐1 : サン プルの C/C++ ソ フ ト ウ ェ ア コ ー ド
ハー ド ウ ェ アの計測
SDK でパフ ォーマ ン ス解析機能を使用 し たい場合は、プ ロ グ ラ マブル ロ ジ ッ ク (PL) デザ イ ンに AXI パフ ォーマ ン ス
モニ タ ー (APM) を含め る 必要があ り ます。 APM は既に SPM (System Performance Modeling) の固定ビ ッ ト ス ト リ ーム
デザ イ ンに含まれてい る こ と に注意 し て く だ さ い (15 ページの 「SPM ソ フ ト ウ ェ ア」 を参照)。
X-Ref Target - Figure 10-2
図 10‐2 : AXI パフ ォ ーマ ン スモニ タ ー –イ ン ス タ ン ス と カ ス タ マ イ ズ
図 10-2 は、Vivado® Design Suite の IP イ ン テ グ レー タ ーのブ ロ ッ ク 図にお よ びその コ ン フ ィ ギ ュ レーシ ョ ン パネルに
APM の イ ン ス タ ン ス が ど の よ う に表示 さ れ る かを示 し てい ます。Vivado IP イ ン テ グ レー タ ーに こ れを追加す る には、
APM のあ る デザ イ ン を設定す る ための手順に従っ て く だ さ い。
1.
IP イ ン テ グ レー タ ーのブ ロ ッ ク 図で、 [Add IP] ボ タ ン
2.
「AXI Performance Monitor」 を検索 し て、 それを ダブル ク リ ッ ク し ます。
3.
APM を ダブル ク リ ッ ク し て [Re-Customize IP] ダ イ ア ロ グ ボ ッ ク ス を開 き ます。 こ のダ イ ア ロ グ ボ ッ ク ス では次
のオプシ ョ ン を設定で き ます。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
を ク リ ッ ク し ます。
57
第 10 章 : カ ス タ ム タ ーゲ ッ ト の使用
a.
[APM Mode] の下にあ る [Profile] をチ ェ ッ ク し ます。
b.
[Number of Monitor interfaces] を 5 に設定 し ます。
4.
次の作業を行っ て、 APM を ユーザー デザ イ ンに接続 し ます。
a.
Zynq-7 プ ロ ッ セシ ン グ シ ス テ ム (AXI イ ン タ ーコ ネ ク ト を介す) の GP0 ま たは GP1 に S_AXI を接続 し ます。
b.
SLOT_x_AXI ポー ト (x=0…4)に HP0、 HP1、 HP2、 HP3、 お よ び ACP を接続 し ます。 こ れ ら の イ ン タ ーフ ェ
イ ス がデザ イ ンで使用 さ れていない場合は、 対応す る ス ロ ッ ト を未接続の ま ま に し ておき ます。
c.
s_axi_aclk お よ び s_axi_aresetn を、 GP0/GP1 に関連付け ら れてい る ク ロ ッ ク お よ び リ セ ッ ト に接続 し ます。
d.
すべての入力、 slot_x_axi_aclk お よ び slot_x_axi_aresetn を該当する ク ロ ッ ク お よ び リ セ ッ ト に接続 し ます。
e.
core_aclk お よ び core_aresetn を も っ と も 高い ク ロ ッ ク 周波数で ク ロ ッ ク / リ セ ッ ト に接続 し ます。
5.
[File] → [Export] → [Export Hardware] を ク リ ッ ク し て、 ビ ッ ト ス ト リ ーム を ビル ド し て、 Vivado か ら エ ク ス ポー
ト し ます。
6.
[File] → [New] → [Project] を ク リ ッ ク し て、 次に [Xilinx] → [Hardware Platform Specification] を ク リ ッ ク し て、 生
成 さ れた フ ァ イ ル <your design>.hdf をSDK に イ ン ポー ト し ます。
カ ス タ ム タ ーゲ ッ ト の監視
SDK には、 第 11 章 「徹底パフ ォーマ ン ス解析」 で説明 し た よ う な、 実行 し てい る タ ーゲ ッ ト を監視す る 機能があ り
ます。 タ ーゲ ッ ト のオペレーテ ィ ン グ シ ス テ ムに関わ ら ず、 テ ク ニ ッ ク には 2 つあ り 、 ど ち ら も 使用で き ます。 違い
は、 ハー ド ウ ェ ア プ ラ ッ ト フ ォーム仕様が SDK に イ ン ポー ト さ れ る か ど う かです。 こ れは Vivado で作成 さ れたハー
ド ウ ェ ア デザ イ ンで、 プ ロ ジ ェ ク ト と し て SDK に イ ン ポー ト さ れます。
X-Ref Target - Figure 10-3
図 10‐3 : デバ ッ グ コ ン フ ィ ギ ュ レーシ ョ ン での タ ーゲ ッ ト 設定 (イ ンポー ト さ れたハー ド ウ ェ ア プ ラ ッ ト フ ォ ーム仕
様を使用)
Vivado でデザ イ ン が定義 さ れてい る な ら 、 そのデザ イ ンに基づいてハー ド ウ ェ ア プ ラ ッ ト フ ォ ーム仕様を作成す る
こ と をお勧め し ます。 その後、 その仕様に基づいてパフ ォーマ ン ス解析を実行で き ます。 手順は次の と お り です。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
58
第 10 章 : カ ス タ ム タ ーゲ ッ ト の使用
1.
Vivado で [File] → [Export] → [Export Hardware] を ク リ ッ ク し て、 ビ ッ ト ス ト リ ーム を ビル ド し て、 Vivado か ら エ
ク ス ポー ト し ます。 [File] → [New] → [Project] を ク リ ッ ク し て、 次に [Xilinx] → [Hardware Platform Specification]
を ク リ ッ ク し て、 生成 さ れた フ ァ イ ル <your design>.hdf をSDK に イ ン ポー ト し ます。
2.
[Run] → [Debug Configurations] を ク リ ッ ク し て、 パフ ォーマ ン ス解析コ ン フ ィ ギ ュ レーシ ョ ン を作成 し ます。
3.
パフ ォーマ ン ス解析を コ ン フ ィ ギ ュ レーシ ョ ンす る には次の手順に従い ます。
a.
[Performance Analysis] を選択 し て、 [New] を ク リ ッ ク し ます。
b.
[Debug Type] を [Standalone Application Debug] に設定 し ます。
c.
[Hardware platform] を先ほ ど イ ン ポー ト し たハー ド ウ ェ ア プ ラ ッ ト フ ォーム仕様に設定 し ます。その他に も 、
シ ス テ ム全体の リ セ ッ ト 、 FPGA のプ ロ グ ラ ム、 ps7_init の実行、 ps7_post_config の実行、 ク ロ ス ト リ ガーの
イ ネーブル と いっ たオプシ ョ ンがあ り ます。
d.
パフ ォーマ ン ス解析のパースペ ク テ ィ ブを開 く には、 [Debug] を ク リ ッ ク し ます。
58 ページの図 10-3 は、 第 11 章 「徹底パフ ォーマ ン ス解析」 で使用 さ れてい る タ ーゲ ッ ト 設定を示 し てい ます。 こ れ
は、 Zynq®-7000 AP SoC 基本 タ ーゲ ッ ト リ フ ァ レ ン ス デザ イ ン (TRD) に接続 し 、 こ れ を監視す る ための も のです。
チ ェ ッ ク ボ ッ ク ス はすべてオ フ にな っ てい る こ と に注意 し て く だ さ い。TRD は SD カー ド ブー ト を使用す る ため、シ
ス テ ムは既に リ セ ッ ト お よ び コ ン フ ィ ギ ュ レーシ ョ ン さ れてい ます。
X-Ref Target - Figure 10-4
図 10‐4 : デバ ッ グ コ ン フ ィ ギ ュ レーシ ョ ンの タ ーゲ ッ ト 設定 (ハー ド ウ ェ ア プ ラ ッ ト フ ォ ームな し )
何 ら かの理由でハー ド ウ ェ アプ ラ ッ ト フ ォーム仕様を作成で き ない場合は、SDK でパフ ォーマ ン ス解析を実行す る こ
と がで き ます。 手順は次の と お り です。
1.
[Run] → [Debug Configurations] を ク リ ッ ク し て、 パフ ォーマ ン ス解析コ ン フ ィ ギ ュ レーシ ョ ン を作成 し ます。
2.
[Performance Analysis] を選択 し て、 [New] を ク リ ッ ク し ます。
3.
[Debug Type] を [Attach to running target] に設定 し ます。
4.
[PS Processor Frequency (MHz)] をデザ イ ンで使用 さ れてい る PS ク ロ ッ ク 周波数に設定 し ます。
5.
デザ イ ンに APM が含まれ る 場合は、 次を実行 し ます。
a.
[Enable APM Counters] を実行 し ます。
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
59
第 10 章 : カ ス タ ム タ ーゲ ッ ト の使用
6.
b.
[APM Frequency (MHz)] をデザ イ ンの APM コ アの s_axi_aclk に接続 さ れてい る ク ロ ッ ク の周波数に設定 し ま
す。
c.
[APM Base Address] をデザ イ ンの APM の基本ア ド レ ス に設定 し ます。
パフ ォーマ ン ス解析のパースペ ク テ ィ ブ を開 く には、 [Debug] を ク リ ッ ク し ます。
59 ページの図 10-4 は第 11 章 「徹底パフ ォーマ ン ス解析」 で使用 さ れてい る タ ーゲ ッ ト 設定を示 し てい ます。 こ れは
『Zynq-7000 All Programmable SoC ZC702 基本 タ ーゲ ッ ト リ フ ァ レ ン ス デザ イ ン』 (UG925) [参照 3] で説明 さ れてい る
Zynq-7000 AP SoC 基本 タ ーゲ ッ ト リ フ ァ レ ン ス デザ イ ン (TRD) に接続 し 、 こ れを監視す る ための も のです。 APM
周波数は 50MHz で、 APM 基本ア ド レ ス は 0x400F0000 と い う 16 進数に設定 さ れてい る こ と に注意 し て く だ さ い。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
60
第 11 章
徹底パフ ォ ーマ ン ス解析
SDK では徹底 し たパフ ォーマ ン ス解析フ ロ ーを実行す る こ と がで き ます (7 ページの図 1-2を参照)。 こ の フ ロ ーを使
用 し 、 予想デザ イ ン で ト ラ フ ィ ッ ク を モデル し た後に、 実際のデザ イ ン を使用 し てパフ ォ ーマ ン ス を検証で き ます。
こ の徹底フ ロ ーを よ り わか り やす く す る ため、 こ の章ではサンプル デザ イ ン を使っ て フ ロ ーを説明 し ます。 使用 さ れ
る デ ザ イ ン は Zynq-7000 AP SoC ベー ス の タ ー ゲ ッ ト リ フ ァ レ ン ス デ ザ イ ン (TRD) で、 こ れ は 『Zynq-7000 All
Programmable SoC ZC702 ベース の タ ーゲ ッ ト リ フ ァ レ ン ス デザ イ ン (TRD) で、 こ れは 『Zynq-7000 All Programmable
の タ ーゲ ッ ト リ フ ァ レ ン ス デザ イ ン』 (UG925) [参照 3]で説明 さ れてい ます。
要件の査定
図 11-1 は、 HDMI ビデオ入力 と 出力があ り 、 ソ ーベル フ ィ ル タ ーを使用 し た処理を行 う 、 TRD のブ ロ ッ ク 図です。
DDR メ モ リ には複数のビデオ フ レームが格納 さ れ、 高い帯域幅の書 き 込みお よ び読み出 し ト ラ フ ィ ッ ク のチ ャ ネル
が複数作成 さ れます。
X-Ref Target - Figure 11-1
図 11‐1 : Zynq‐7000 AP SoC ベースの TRD ハー ド ウ ェ ア ブ ロ ッ ク図
こ こ では、 こ のデザ イ ンは計画段階にあ っ て、 ま だ完成 し ていない も の と し ます。 SPM を使用 し て こ のデザ イ ン を モ
デルす る にはど う し た ら よ いで し ょ う か。 まず、 シ ス テ ムの帯域幅要件を査定 し ます。 こ れには、 まずデザ イ ンの通
信チ ャ ネルすべての予期帯域幅を計算 し 、 次に、 PS-PL イ ン タ ーフ ェ イ ス を決め ます。 こ れは AXI ト ラ フ ィ ッ ク なの
で、 ト ラ ンザ ク シ ョ ン ご と のサ イ ク ル数、 そ し てデー タ の局所性 も 重要です。
帯域幅を計算す る には、 入力 さ れ、 処理 さ れてい る デー タ の タ イ プ を知っ てお く 必要があ り 、 それをデ ィ ス プ レ イ に
出力 し ます。 61 ページの図 11-1 に示す よ う に、 TRD の入力デー タ は、 CbCr 4:2:2 のデー タ フ ォーマ ッ ト で 1080p/60
のビデオ、 ま たは 16ビ ッ ト /ピ ク セルを出力する HDMI ソ ース です。 こ のデザ イ ンには、 フ ィ ル タ ーを介 し た ビデオ
と 、 コ ン ト ロ ールお よ びグ ラ フ用の GUI レ イ ヤーを表示 さ せ る ため、 出力デ ィ ス プ レ イ に複数の ビデオ レ イ ヤーを
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
61
第 11 章 : 徹底パフ ォ ーマ ン ス解析
オーバーレ イ さ せ る と い う 要件 も あ り ます。 GUI レ イ ヤーは 1920 x 300、 RGB 4:4:4 フ ォーマ ッ ト で、 ほかの レ イ ヤー
はすべて フル フ レーム、 YCbCr 4:2:2 フ ォーマ ッ ト です。 ク ロ ッ ク 周波数は ま だわか ら な く て も 、 デー タ ト ラ フ ィ ッ
ク の必須帯域幅を使用 し て、 シ ス テ ム を モデルす る こ と がで き ます。
表 11‐1 : Zynq‐7000 AP SoC ベースの TRD での帯域幅の査定
説明
ビデオ フ ォ ーマ ッ ト
ポー ト
タ イプ
帯域幅
DDR 帯域幅 (%)
HDMI ビデオ入力
YCbCr 4:2:2
HP0
書 き 込み
248.8
5.8
処理入力
YCbCr 4:2:2
HP2
読み出 し
248.8
5.8
処理出力
YCbCr 4:2:2
HP2
書 き 込み
248.8
5.8
マ ルチ レ イ ヤ ー ビ デオ
出力
( レ イ ヤー 1 : 1920 x 300
GUI)
RGB 4:4:4
HP0
読み出 し
138.3
3.3
マ ルチ レ イ ヤ ー ビ デオ
出力
(レ イ ヤー 2 : 1920 x 1080)
YCbCr 4:2:2
HP0
読み出 し
248.8
5.8
合計 ト ラ フ ィ ッ ク
なし
HP0/HP2
書き込み/読み出 し
1133.4
26.5
表 11-1 は Zynq-7000 AP SoC ベー ス の TRD の帯域幅査定の ま と めです。 各ビデオ チ ャ ネルの計算 さ れた帯域幅は、
DDR 帯域幅のパーセ ン テージ と と も に リ ス ト さ れてい ます。 こ のデザ イ ン仕様では、 HP0 お よ び HP2 が使用 さ れて
い ます。 こ の 2 つでは、 DDR コ ン ト ロ ー ラ ーで異な る ポー ト が使用 さ れ る か ら です。 も ち ろ ん、 ほかの コ ネ ク テ ィ
ビ テ ィ のモデ リ ン グ も 可能です。
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
62
第 11 章 : 徹底パフ ォ ーマ ン ス解析
デザイ ンのモデル
帯域幅要件が確認で き たので、 次は SPM デザ イ ン を使用 し てモデ リ ン グ を実行 し ます。 必要 と い う わけではあ り ま
せんが、 プ ロ セ ッ シ ン グ シ ス テ ム (PS) ト ラ フ ィ ッ ク のモデルには、 ソ フ ト ウ ェ ア アプ リ ケーシ ョ ンの使用を推奨 し
ます。 こ こ では、 PS で動 き の激 し いア ク テ ィ ビ テ ィ を モデルす る ため、 メ モ リ ス ト ラ イ ド ソ フ ト ウ ェ ア アプ リ ケー
シ ョ ン を使用 し ます。 実際のデザ イ ンでは実行 さ れ る ソ フ ト ウ ェ アではあ り ませんが、 ア ク テ ィ ビ テ ィ と メ モ リ 帯域
幅に関 し て、 ワース ト ケース のテ ス ト シナ リ オ を提供 し ます。
X-Ref Target - Figure 11-2
図 11‐2 : Zynq‐7000 AP SoC ベースの TRD の ト ラ フ ィ ッ ク を モデルする ための ATG コ ン フ ィ ギ ュ レーシ ョ ン
図 11-2 は、 SPM を使用 し て TRD の ト ラ フ ィ ッ ク を モデルす る 方法の 1 つを示 し てい ます。 ビデオ フ レームは メ モ
リ の別の部分に格納 さ れ る も の と し 、 [Address Start] の値は ddr0 お よ び ddr2 に設定 さ れてい ま す。 さ ら に、 ビデオ
デー タ は通常連続す る デー タ ラ イ ン と し て格納 さ れ る ので、 [Address Next] の値は [increment] に設定 さ れてい ます。
[Beats/tranx] の値は、 ソ ーベル フ ィ ル タ ーへの入/出力ビデオ、 そ し てマルチ レ イ ヤー ビデオ出力を モデルす る ため
に、 それぞれ 8 お よ び 16 が選択 さ れてい ます。 [Tranx interval] は、 62 ページの表 11-1に ま と め ら れてい る よ う に、 そ
れぞれのポー ト お よ び タ イ プに対 し て求め ら れ る スループ ッ ト に一致す る よ う に指定 さ れてい ます。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
63
第 11 章 : 徹底パフ ォ ーマ ン ス解析
X-Ref Target - Figure 11-3
図 11‐3 : Zynq‐7000 AP SoC ベースの TRD を モデ リ ン グ し たパフ ォ ーマ ン ス結果
ATG は、 指定 さ れた ト ラ フ ィ ッ ク で コ ン フ ィ ギ ュ レーシ ョ ン さ れ、 ZC702 ボー ド で実行 さ れてい ます。 図 11-3 は、 こ
の実行後の結果を ま と めた も のです。 HP0 お よ び HP2 の両方で、 こ のデザ イ ン に必要な書 き 込みお よ び読み出 し の
帯域幅を達成で き てい ます。 CPU パフ ォーマ ン ス結果は メ モ リ ス ト ラ イ ド ベンチマー ク の も ので、 実際の TRD アプ
リ ケーシ ョ ンではあ り ませんが、 こ のア ク テ ィ ビ テ ィ を も と に予測す る こ と はで き ます。
X-Ref Target - Figure 11-4
図 11‐4 : Zynq‐7000 AP SoC ベースの TRD を モデ リ ング し た書き込みおよび読み出 し のパフ ォ ーマ ン ス
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
64
第 11 章 : 徹底パフ ォ ーマ ン ス解析
図 11-4 は、サ イ リ ン ク ス ソ フ ト ウ ェ ア開発キ ッ ト (SDK) か ら の書き 込みお よ び読み出 し のパフ ォーマ ン ス グ ラ フ で、
達成 さ れたパフ ォーマ ン ス の詳細を示 し てい ます。 平均書き 込みレ イ テ ン シお よ び書き 込みスループ ッ ト は、 テ ス ト
全体で一定 し てい ます。平均読み出 し レ イ テ ン シは メ モ リ ス ト ラ イ ド ベンチマー ク の影響を大 き く 受けてい ます。 こ
れは DDR コ ン ト ロ ー ラ ーで競合が起 き てい る ためです。 し か し 、 読み出 し スループ ッ ト はテ ス ト 全体を通 し て一定
し てい ます。
第 1 章 「概要」 で説明 し た よ う に、 特にデザ イ ンが計画段階にあ る 場合は、 こ のモデ リ ン グ を実行 し たほ う が よ い理
由がいろいろ と あ り ます。 こ の特定デザ イ ンに限っ てい う と 、 次の よ う な理由があ り ます。
•
リ ス ク を軽減 – こ の SPM モデルは、 必要な レ イ テ ン シお よ びスループ ッ ト が達成可能であ る こ と を証明 し てい
ます。 つま り 、 Zynq-7000 AP SoC ベース の TRD で、 同 じ パフ ォーマ ン ス が得 ら れ る 可能性が非常に高い こ と を
示 し てい ます。
•
デザ イ ンの改善 – 64 ページの図 11-3 はモデルの HP0 お よ び HP2 の平均読み出 し レ イ テ ン シがそれぞれ 40.13、
32.41 であ る こ と を示 し てい ます。 フ レーム レー ト の制約がはっ き り と し てい る こ の よ う な ビデオ デザ イ ンの場
合、 デ ィ ス プ レ イ コ ン ト ロ ー ラ ーを こ の指標範囲内で動作する よ う に設計する こ と がで き ます。
•
さ ま ざ ま なシナ リ オ設定 – 出力デ ィ ス プ レ イ に も っ と ビデオ レ イ ヤーを追加する こ と も 可能です。実際のデザ イ
ン内で繰 り 返 し 検証作業を行わずに、 SPM を使用 し てシナ リ オを想定 し て先に検証 し てお く こ と がで き ます。 ほ
かに も 、 2 番目の ビデオ パ イ プ ラ イ ン を含めた り 、 4K の解像度に上げてみた り す る オプシ ョ ン も あ り ます。 こ
れ ら のシナ リ オはすべてモデル可能で、 デザ イ ン フ ェ ーズが始ま る 前に解析する こ と がで き ます。
パフ ォ ーマ ン ス検証
SPM モデルのパフ ォーマ ン ス は実際のデザ イ ン を使用 し て検証で き ます。 APM を含む、 正 し く 計測 さ れたデザ イ ン
を使用 し 、 Zynq-7000 AP SoC ベース の TRD のパフ ォ ーマ ン ス を解析 し ます (57 ページの 「ハー ド ウ ェ アの計測」 を
参照)。 2015.1 で配布 さ れてい る TRD では既に検証が行われてい ます。
X-Ref Target - Figure 11-5
図 11‐5 : Zynq‐7000 AP SoC ベースの TRD の Vivado IP イ ン テグレー タ ーのブ ロ ッ ク図
図 11-5 は、 Vivado® Design Suite の IP イ ン テ グ レー タ ーでブ ロ ッ ク 図で定義 さ れてい る TRD を示 し てい ます。 APM
イ ン ス タ ン ス がハ イ ラ イ ト さ れてい ます。 APM はプ ロ フ ァ イ ル モー ド で コ ン フ ィ ギ ュ レー ト さ れていて、 パフ ォー
マ ン ス結果が正 し く SDK に レ ポー ト さ れ る よ う にな っ てい ます。 HP0 は AXI パフ ォーマ ン ス モニ タ ー (APM) の ス
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
65
第 11 章 : 徹底パフ ォ ーマ ン ス解析
ロ ッ ト 0 に接続 さ れていて、 HP2 は ス ロ ッ ト 2 に接続 さ れてい ます。 ス ロ ッ ト 1 はオープンの ま ま で (HP1 が使用 さ
れていないため)、 [Number of Monitor interfaces] は 3 に設定 さ れてい ます。
X-Ref Target - Figure 11-6
図 11‐6 : ZC702 ボー ド を使用 し た Zynq‐7000 AP SoC ベースの TRD の接続図
図 11-6 は、 デモ を実行す る ための ZC702 ボー ド への接続図です。 ボー ド は図にあ る よ う に接続 さ れ、 デザ イ ンは SD
カー ド か ら ブー ト さ れます。
結果は67 ページの図 11-7 の表に ま と め ら れていて、その図は67 ページの図 11-8 にあ り ます。プ ロ グ ラ マブル ロ ジ ッ
ク (PL) のパフ ォーマ ン ス結果は、 直接、 64 ページの図 11-3 にあ る SPM モデルか ら 収集 さ れた値 と 比較で き ます。 モ
デルか ら の書 き 込みお よ び読み出 し スループ ッ ト はすべて実際の結果の 2.0% 内にすべて収ま っ てい ます。 書 き 込み
レ イ テ ン シは実際のデザ イ ンの 1 サ イ ク ル内にあ り 、モデルの平均読み出 し レ イ テ ン シは実際のデザ イ ンの 16.0% 内
です。 実際のデザ イ ンは、 も と も と SPM よ り も バース ト 性が高い よ う ですが、 平均パフ ォ ーマ ン ス値は十分に正確
で、 TRD でパフ ォーマ ン ス目標が満たす こ と がで き る で し ょ う 。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
66
第 11 章 : 徹底パフ ォ ーマ ン ス解析
X-Ref Target - Figure 11-7
図 11‐7 : 実際の Zynq‐7000 AP SoC ベースの TRD のパフ ォ ーマ ン ス結果
X-Ref Target - Figure 11-8
図 11‐8 : Zynq‐7000 AP SoC ベースの TRD の書き込みおよび読み出 し のパフ ォ ーマ ン ス
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
67
第 11 章 : 徹底パフ ォ ーマ ン ス解析
詳細な解析
2 番目の TRD の実行は、 TRD の さ ま ざ ま な ラ ン タ イ ム設定のパフ ォーマ ン スへの影響を調べ る ために、 実行 さ れて
い ます。 表 11-2 は、 こ れ ら すべて設定、 そ し て SDK で得 ら れたその設定に対応 し たパフ ォーマ ン ス結果を ま と めた
も のです。 時間は こ れ ら の設定がテ ス ト 実行中に使用 さ れた と き で、 お よ その時間です (69 ページの図 11-9 お よ び
69 ページの図 11-10 を参照)。表 10 の最終行は、64 ページの図 11-3でモデ リ ン グ さ れた ト ラ フ ィ ッ ク シナ リ オ と 、図
55 にあ る 実際のデザ イ ン を使用 し た実行に対応 し てい ます。
表 11‐2 : 実際の Zynq‐7000 AP SoC ベースの TRD のパフ ォ ーマ ン ス指標のま と め
説明
時間 (単位は秒、
概算値)
L1 デー タ キ ャ ッ シ ュ
ア ク セス (x103)
書き込みスループ ッ ト
(MB/秒)
読み出 し スループ ッ ト
(MB/秒)
CPU0
CPU1
HP0
HP2
HP0
HP2
GUI のみ、
最小化
0-10
100
100
0
0
37
0
GUI のみ、
最大化
10-20
100
100
0
0
140
0
ビデオ
イ ネーブル
20-30
100
100
246
0
382
0
ソ ーベル
フ ィ ルター –
ソ フ ト ウ ェア
モー ド
30-50
2800
7000
246
0
382
0
ソ ーベル
フ ィ ルター –
ハー ド ウ ェ ア
モー ド
50-70
100
200
246
246
382
246
表 11-2 に リ ス ト さ れてい る よ う に、 パフ ォーマ ン スへの影響は直接 SDK で計測で き ます。 実際の TRD では、 GUI ビ
デオ出力レ イ ヤーには最小化モー ド (1920 x 80) お よ び最大化モー ド (1920 x 300) の 2 つがあ り ます。 0 か ら 20 秒の
間、 ビデオ フ レームのその部分だけがハー ド ウ ェ アで出力 さ れ、 ビデオ デ ィ ス プ レ イ に送信 さ れます。 こ れは、 HP0
での読み出 し スループ ッ ト で確認で き ます。出力ビデオが イ ネーブルにな っ た後、合計 HP0 の読み出 し 帯域幅にはフ
ル ビデオ フ レームお よ び GUI レ イ ヤーが含まれます。 入力 4:2:2 のビデオ も HP0 の DDR に書き 込まれます。
ソ ーベル フ ィ ル タ ーを オ ンにす る と 、 パフ ォーマ ン ス には非常に大 き な変化が出ます。 ソ フ ト ウ ェ ア モー ド が使用
さ れてい る と き 、 明 ら かに CPU ア ク テ ィ ビ テ ィ が増加 し 、 特に L1 デー タ キ ャ ッ シ ュ ア ク セ ス が多 く な っ てい ます。
ま た、ソ ーベル フ ィ ル タ ーをハー ド ウ ェ ア モー ド で使用す る と 、HP2 の書 き 込みお よ び読み出 し ト ラ フ ィ ッ ク にはっ
き り と 影響が出ます。
Zynq-7000 AP SoC ベース の TRD のパフ ォーマ ン ス結果は、69 ページの図 11-9 お よ び69 ページの図 11-10 にあ る グ ラ
フ を見 る と 特にはっ き り と わか り ます。 69 ページの図 11-9にあ る PS パフ ォ ーマ ン ス結果に関 し ては、 約 30 秒か ら
50 秒の間、 ソ ーベル ソ フ ト ウ ェ ア フ ィ ル タ ー モー ド が使用 さ れてい る と き に注目すべ き です。 こ の時間は、 一定 し
て CPU 使用率が高 く 、 IPC や L1 デー タ キ ャ ッ シ ュ ア ク セ ス な ど の値が と て も 高 く な っ てい ます。
69 ページの図 11-10 にあ る PL パフ ォーマ ン ス に関 し ては、 ど の時間に も はっ き り と し た特徴が見 ら れます。 も ち ろ
ん、 約 50 秒か ら 70 秒の間、 ソ ーベル ハー ド ウ ェ ア フ ィ ル タ ーが使用 さ れてい る と き に、 いちばんア ク テ ィ ビ テ ィ
が見 ら れます。 HP0 お よ び HP2 での書 き 込みスループ ッ ト 、 HP2 での読み出 し スループ ッ ト は、 4:2:2 のビデオ ス ト
リ ーム の予期値にすべて対応 し てい ま す。 HP0 の読み出 し ス ループ ッ ト には、 4:2:2 の フ ル フ レ ーム ビデオ と パー
シ ャ ル フ レームの GUI レ イ ヤーが含まれてい る ため、 値が高 く な っ てい ます。
ま と め る と 、Zynq-7000 AP SoC ベース の TRD を計測す る こ と には、1) 最初に SPM でモデル さ れたパフ ォーマ ン ス結
果を検証で き る 、 そ し て 2) さ ま ざ ま なデザ イ ン設定で も っ と 踏み込んだ解析がで き る 、 と い う 2 つの大 き な利点が
あ り ます。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
68
第 11 章 : 徹底パフ ォ ーマ ン ス解析
X-Ref Target - Figure 11-9
図 11‐9 : Zynq‐7000 AP SoC ベースの TRD の PS パフ ォ ーマ ン ス グ ラ フ
X-Ref Target - Figure 11-10
図 11‐10 : Zynq‐7000 AP SoC ベースの TRD の PL パフ ォ ーマ ン ス グ ラ フ
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
69
付録 A
パフ ォ ーマ ン ス チ ェ ッ ク リ ス ト
こ の付録では、 Zynq®-7000 AP SoC デザ イ ンのパフ ォーマ ン ス を評価す る と き に考慮すべ き 項目を ま と めたチ ェ ッ ク
リ ス ト を提供 し ます。 こ れはすべての項目を挙げてい る リ ス ト ではあ り ませんが、 注意点や、 なかなか気づけない よ
う な点を リ ス ト し ていて、 こ れを手始めに し て作業を進め る と い う 形で利用 し て く だ さ い。 サ イ リ ン ク ス ソ フ ト ウ ェ
ア開発キ ッ ト (SDK) も 、 シ ス テ ム パフ ォーマ ン ス を評価す る のに便利な ツールで、 その機能や利点 も い く つか こ こ
に挙げてい ます。
•
シ ス テ ム パフ ォーマ ン ス モデ リ ン グの仕様
シ ス テ ム パフ ォーマ ン ス モデ リ ン グ (SPM) は、 ハー ド ウ ェ ア設計の経験や知識がな く て も 、 シ ス テ ム パフ ォーマ ン
ス を調べ る 場合に理想的です。 SPM を使用す る こ と で、 パフ ォーマ ン ス目標を満たす こ と がで き る と い う 確認作業が
で き 、 達成で き たパフ ォーマ ン ス の指標が把握 し やす く な り 、 さ ま ざ ま なシナ リ オを設定 し て調査 し てい く 環境を提
供で き ます。 デザ イ ン を作成 し てた り 、 デバ ッ グ し てい る 途中であ っ て も 、 SPM を利用する こ と で、 オーバーヘ ッ ド
を出す こ と な く 、 デザ イ ン を調査 し 、 アーキ テ ク チ ャ に関する 判断材料を得る こ と がで き ます。 こ のガ イ ド では、 わ
か り やすい よ う に、 さ ま ざ ま な例が用意 さ れてい ます。
•
SPM での ク ロ ッ ク 周波数の調整
SPM を使用 し て、 プ ロ セ ッ シ ン グ シ ス テ ム (PS)、 プ ロ グ ラ マブル ロ ジ ッ ク (PL)、 お よ び DDR の ク ロ ッ ク 周波数を
調整す る ための調査がで き ます。 帯域幅の高いシ ス テ ムが求め ら れ る 場合は、 スループ ッ ト を増やすために ク ロ ッ ク
周波数を調整す る こ と をお勧め し ます。 初期段階の評価環境では、 周波数はデザ イ ン目標に も な り ます。
•
L2 キ ャ ッ シ ュ プ リ フ ェ ッ チの設定/設定解除
PL310 キ ャ ッ シ ュ コ ン ト ロ ー ラ ーで命令お よ びデー タ のプ リ フ ェ ッ チ設定をチ ェ ッ ク し ます。チ ェ ッ ク 方法について
は、 第 6 章 「 ソ フ ト ウ ェ ア パフ ォーマ ン ス の評価」 を参照 し て く だ さ い。
•
コ ンパ イ ラ 最適化設定
SDK で C/C++ ビ ル ド 設定 を チ ェ ッ ク し ま す。 ベ ス ト パ フ ォ ー マ ン ス を 得 る に は、 [Optimize More (O2)] ま た は
[Optimize Most (O3)] を使用す る こ と を推奨 し ます。
•
効率的な ソ フ ト ウ ェ ア コ ー ド の記述
こ のガ イ ド では、 行列乗算のパフ ォーマ ン ス を約 5 倍伸ばす方法が説明 さ れてい ます。 ハ イ パフ ォーマ ン ス で、 効率
的 な ソ フ ト ウ ェ ア コ ー ド の 記 述 方 法 に 関 し て は、 Ulrich Drepper 著 『What Every Programmer Should Know About
Memory』 (Ref [3]) を参照 し て く だ さ い。 こ の資料では、 次の よ う な点を考慮す る よ う ア ド バ イ ス さ れてい ます。
•
°
キ ャ ッ シ ュ のバ イ パ ス (一時的な書き 込み用ではない場合)
°
キ ャ ッ シ ュ ア ク セ スお よ び ミ ス率の最適化
°
プ リ フ ェ ッ チの使用
°
同時並行処理やマルチ ス レ ッ ド の検討
競合の把握
ソ フ ト ウ ェ ア のみの テ ス ト を実行す る だけで も 予測可能なパ フ ォ ーマ ン ス 結果が得 ら れ ま すが、 HP ポー ト ま たは
ACP に ト ラ フ ィ ッ ク シナ リ オ を導入す る と 、 パフ ォ ーマ ン ス に影響が出て、 予測が難 し く な り ます。 ほかの高帯域
幅の ト ラ フ ィ ッ ク を シ ス テ ムに追加す る と 、 必ず L2 キ ャ ッ シ ュ 、 ハ イ パフ ォーマ ン ス ス イ ッ チ、 ま たは DDR コ ン
ト ロ ー ラ ーに競合が発生 し ます。 こ の競合 と 、 その影響を把握 し てお く と 、 非常に役立ち ます。
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
70
付録 A : パフ ォ ーマ ン ス チ ェ ッ ク リ ス ト
•
DDR コ ン ト ロ ー ラ ー設定
こ れ ら の設定は SDK (SPM デザ イ ンのみ) ま たは Vivado® Design Suite で Processing System 7 (PS7) IP ブ ロ ッ ク の コ ン
フ ィ ギ ュ レーシ ョ ン で変更す る こ と がで き ます。 こ れ ら の設定は、 シ ス テ ム のニーズに基づいて、 DDR か ら 帯域幅
を割 り 当て直すのに使用 し ます。 こ の変更方法、 お よ び CPU と HP ポー ト の DDR 帯域幅への影響については、 第 8
章 「DDR コ ン ト ロ ー ラ ー設定の評価」 を参照 し て く だ さ い。
•
Zynq-7000 AP SoC オンチ ッ プ メ モ リ の使用
オンチ ッ プ メ モ リ (OCM) は 256KB の メ モ リ ブ ロ ッ ク で、 ア ク セ ラ レー タ コ ヒ ーレ ン シ ポー ト (ACP)、 汎用ポー ト
(GP)、 ハ イ パフ ォーマ ン ス (HP) ポー ト か ら 、 CPU と プ ロ グ ラ マブル ロ ジ ッ ク にア ク セ ス で き ます。 OCM は低レ イ
テ ン シ ア ク セ ス を可能に し 、 同期化ま たは ス ク ラ ッ チ パ ッ ド アプ リ ケーシ ョ ン で使用す る のに理想的な コ ン ポーネ
ン ト です。
•
ア ク セ ラ レー タ コ ヒ ーレ ン シ ポー ト の使用
ACP は ARM Cortex-A9 プ ロ セ ッ サー と の キ ャ ッ シ ュ コ ヒ ー レ ン シ用です。 こ の コ ヒ ー レ ン シは一部の ア プ リ ケー
シ ョ ン では有用ですが、 L2 キ ャ ッ シ ュ で競合が起 き る 可能性があ り ます。 こ の競合がデザ イ ン に発生す る のは好ま
し く ない場合は、 OCM を ACP と 一緒に使用 し て、 低レ イ テ ン シ メ モ リ イ ン タ ーフ ェ イ ス を作成 し ます。
•
ハ イ パフ ォーマ ン ス ポー ト の使用
HP ポー ト は、 PS、 PL、 DDR の間に スループ ッ ト が非常に大 き な イ ン タ ーフ ェ イ ス を提供 し ます。 HP ポー ト は、 高
い帯域幅が必要な部分であれば、 デザ イ ンの ど こ にで も 推奨 さ れます。 すべての HP ポー ト は同 じ に作成 さ れてい ま
すが、 DDR コ ン ト ロ ー ラ ーで使用 さ れ る HP ポー ト のペア を把握 し てお く こ と は重要です。 HP0 と HP1 と で 1 つの
DDR ポー ト を共有 し てお り 、 HP2 と HP3 と で別の DDR ポー ト を共有 し てい ます。 こ れ ら のポー ト ぺアは一緒に使
用す る こ と も で き ます し (DDR 設定を変更す る 場合)、個別に使用する こ と も で き ます (複数の DDRC ポー ト で帯域幅
を最大限にす る ため)。
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
71
付録 B
その他のソ ースおよび法的通知
ザイ リ ン ク ス リ ソ ース
ア ンサー、 資料、 ダ ウ ン ロ ー ド 、 フ ォー ラ ム な ど のサポー ト リ ソ ース は、 ザ イ リ ン ク ス サポー ト サ イ ト を参照 し て
く だ さ い。
ソ リ ュ ーシ ョ ン セ ン タ ー
デバ イ ス、 ツール、 IP のサポー ト については、 ザ イ リ ン ク ス ソ リ ュ ーシ ョ ン セ ン タ ーを参照 し て く だ さ い。 ト ピ ッ
ク には、 デザ イ ン ア シ ス タ ン ト 、 ア ド バ イ ザ リ 、 ト ラ ブルシ ュ ー ト ヒ ン ト な ど が含まれます。
参考資料
さ ら に詳細な情報が必要な場合は、 次の リ フ ァ レ ン ス を参照 し て く だ さ い。
ザイ リ ン ク ス ユーザー ガ イ ド および リ フ ァ レ ン ス ガ イ ド
1.
『Zynq-7000 All Programmable SoC テ ク ニ カル リ フ ァ レ ン ス マニ ュ アル』 (UG585)
2.
Vivado Design Suite ユーザー ガ イ ド : エンベデ ッ ド プ ロ セ ッ サ ハー ド ウ ェ ア デザ イ ン』 (UG898)
3.
『Zynq-7000 All Programmable SoC ZC702 基本 タ ーゲ ッ ト リ フ ァ レ ン ス デザ イ ン (ISE Design Suite 14.4) ユーザー
ガ イ ド 』 (UG925)
シス テム パフ ォ ーマ ン ス解析
UG1145
20152015
年4月
UG1145(v2015.1)
(v2015.2)
年1 日
6月
japan.xilinx.com
24 日
72
付録 B : その他のソ ースおよび法的通知
サー ド パーテ ィ の参考文献
4.
James Pallister、Simon Hollis、Jeremy Bennett 共著、「BEEBS: Open Benchmarks for Energy Measurements on Embedded
Platforms」 (2013 年 8 月 23 日)オン ラ イ ン版 : http://dblp.uni-trier.de/db/journals/corr/corr1308.html#PallisterHB13
5.
David A. Patterson、John L. Hennessy 共著、『Computer Organization & Design: The Hardware/Software Interface』 (Morgan
Kaufman Publishers, Inc.、 第 2 版、 1998 年)
6.
Ulrich Drepper 著、 「What Every Programmer Should Know About Memory」 (2007年 11 月 21 日)オン ラ イ ン版 :
http://www.cs.bgu.ac.il/~os142/wiki.files/drepper-2007.pdf.
ト レーニ ン グ リ ソ ース
ザ イ リ ン ク ス では、 本書に含ま れ る コ ン セプ ト を説明す る さ ま ざ ま な ト レーニ ン グ コ ー スお よ びオ ン ラ イ ン ビデオ
を提供 し てい ます。 次の リ ン ク か ら 関連す る ト レーニ ン グ リ ソ ース を参照 し て く だ さ い。
1.
Zynq-7000 All Programmable SoC : 開発ツールの概要
2.
Zynq-7000 All Programmable SoC : シ ス テ ム パフ ォーマ ン ス ツールの概要
3.
Zynq-7000 All Programmable SoC : 5 分間で Hello World
4.
Zynq-7000 All Programmable SoC : ベア メ タ ル アプ リ ケーシ ョ ン開発
重要な法的通知
本通知に基づいて貴殿ま たは貴社 (本通知の被通知者が個人の場合には 「貴殿」 、 法人その他の団体の場合には 「貴社」 。 以下同 じ )
に開示 さ れ る 情報 (以下 「本情報」 と いい ます) は、 ザ イ リ ン ク ス の製品を選択お よ び使用す る こ と のためにのみ提供 さ れます。 適
用 さ れ る 法律が許容す る 最大限の範囲で、 (1) 本情報は 「現状有姿」、 お よ びすべて受領者の責任で (with all faults) と い う 状態で提供
さ れ、 ザ イ リ ン ク ス は、 本通知を も っ て、 明示、 黙示、 法定を問わず (商品性、 非侵害、 特定目的適合性の保証を含みますが こ れ ら
に限 ら れません)、 すべての保証お よ び条件を負わない (否認す る ) も の と し ます。 ま た、 (2) ザ イ リ ン ク ス は、 本情報 (貴殿ま たは貴
社に よ る 本情報の使用を含む) に関係 し 、 起因 し 、 関連す る 、 いかな る 種類 ・ 性質の損失ま たは損害について も 、 責任を負わない
(契約上、 不法行為上 (過失の場合を含む)、 その他のいかな る 責任の法理に よ る かを問わない) も の と し 、 当該損失ま たは損害には、
直接、 間接、 特別、 付随的、 結果的な損失ま たは損害 (第三者が起 こ し た行為の結果被っ た、 デー タ 、 利益、 業務上の信用の損失、
その他あ ら ゆ る 種類の損失や損害を含みま す) が含ま れ る も の と し 、 それは、 た と え当該損害や損失が合理的に予見可能であ っ た
り 、 ザ イ リ ン ク ス がそれ ら の可能性について助言を受け ていた場合であ っ た と し て も 同様です。 ザ イ リ ン ク ス は、 本情報に含ま れ
る いかな る 誤 り も 訂正す る 義務を負わず、 本情報 ま たは製品仕様のア ッ プデー ト を貴殿 ま たは貴社に知 ら せ る 義務 も 負い ま せん。
事前の書面に よ る 同意のない限 り 、 貴殿ま たは貴社は本情報を再生産、 変更、 頒布、 ま たは公に展示 し てはな り ません。 一定の製
品は、 ザ イ リ ン ク ス の限定的保証の諸条件に従 う こ と と な る ので、 http://japan.xilinx.com/legal.htm#tos で見 ら れ る ザ イ リ ン ク ス の販
売条件を参照 し て く だ さ い。 IP コ アは、 ザ イ リ ン ク ス が貴殿ま たは貴社に付与 し た ラ イ セ ン ス に含ま れ る 保証 と 補助的条件に従 う
こ と にな り ます。 ザ イ リ ン ク ス の製品は、 フ ェ イ ルセーフ と し て、 ま たは、 フ ェ イ ルセーフ の動作を要求す る アプ リ ケーシ ョ ンに
使用す る ために、 設計 さ れた り 意図 さ れた り し てい ません。 その よ う な重大な アプ リ ケーシ ョ ン にザ イ リ ン ク ス の製品を使用す る
場合の リ ス ク と 責任は、 貴殿ま たは貴社が単独で負 う も のです。 http://japan.xilinx.com/legal.htm#tos で見 ら れ る ザ イ リ ン ク ス の販売
条件を参照 し て く だ さ い。
© Copyright 2015 Xilinx, Inc. Xilinx、 Xilinx の ロ ゴ、 Artix、 ISE、 Kintex、 Spartan、 Virtex、 Vivado、 Zynq、 お よ び こ の文書に含ま れ る
その他の指定 さ れたブ ラ ン ド は、 米国お よ びその他各国のザ イ リ ン ク ス社の商標です。 すべてのその他の商標は、 それぞれの保有
者に帰属 し ます。
こ の資料に関す る フ ィ ー ド バ ッ ク お よ び リ ン ク な ど の問題につ き ま し ては、 [email protected] ま で、 ま たは各ページの
右下にあ る [フ ィ ー ド バ ッ ク 送信] ボ タ ン を ク リ ッ ク す る と 表示 さ れ る フ ォ ームか ら お知 ら せ く だ さ い。 フ ィ ー ド バ ッ ク は日本語で
入力可能です。 いただ き ま し た ご意見を参考に早急に対応 さ せていただ き ます。 なお、 こ の メ ール ア ド レ スへのお問い合わせは受
け付けてお り ません。 あ ら か じ めご了承 く だ さ い。
シス テム パフ ォ ーマ ン ス解析
UG1145 (v2015.1)
20152015
年4月
UG1145
(v2015.2)
年1 日
6 月 24 日
japan.xilinx.com
73