システム運用で怖いのは 「人的ミス」 と 「見えない」 こと。

システム運用で怖いのは
「人的ミス」 と 「見えない」 こと。
株式会社野村総合研究所
IT基盤インテグレーション事業本部
寺井 忠仁
1
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
NRI野村総合研究所グループのご紹介
■従業員数;
■資本金 ;
7,738名
186億円
■売上高 ; 3,630億円
(2013年3月期)
主な事業とサービス
2
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
運用サービスの売上比率 48.9%
※NRIの財務データ
コンサルティング
サービス
商品販売
98億円
2.9%
360億円
10.8%
2012年3月期
連結売上高
3,355億円
運用サービス
1,640億円
48.9%
※記載金額は、億円未満を切り捨てて表示
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
サービス別
売上高構成
開発・製品販売
1,255億円
37.4%
3
NRIのデータセンター
4
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
システムマネジメント事業への取り組み
お客様
運用改善
サービスレベル向上
インソース
主な提供サービス
運用改革コンサル
運用コスト削減
リスク管理
(セキュリティ、安全対策)
コンプライアンス
①アウトソーシング
運用ツール提供
教育・研修支援
自社で運用改革推進
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
(400社以上)
弊社における主な改革
<見える化:継続>
①SLMによるSL向上
③プロセス改革
④教育・資格制度
②運用改善サービス
データセンターコンサル
セキュリティコンサル
アウトソーシング
②自動化・無人化
ITSM導入支援
運用基盤構築
NRI
⑤開発部門へのけん制
⑥コンプライアンス(SOX法等)
お客様の
ソーシング戦略
⑦セキュリティ・安全対策
新たな器で運用改革を実現
「所有」から「利用」へ → リリース業務増
「人的ミス」の原因、対策
「見える化」の課題、対策
「自動化」のイメージ
まとめ
6
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
NRIのあゆみ
1960年台
1980年台
現在
国内初の民間シンクタンク
「情報と創業」
「Navigation X Solution」
国内初の商用コンピュータ導入
アウトソーシングの拡大
開発・運用一体化
事業
1965年
野村総合研究所 設立
開発
1966年
野村コンピュータシステム設立
1988年
野村総合研究所に合併
2006年
野村総合研究所に合併
(旧 野村電子計算センター)
運用
1968年
NRIデータサービス 設立
(旧 野村オペレーションサービス)
7
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
7
改善活動の全体像
見
え
る
化
、
標
準
化
組開
織発
改・
運
革用
の
自ツ
動ー
化ル
に
よ
る
べき・べからず集
メインフレーム運用改善
運用業務分析
システム別運用最適化
オペレータ削減
運用効率化施策
運用設計標準フレームワーク
運用業務の
見える化
運用・オペレーションの標準化・均質化
可視化によるメッセージ削減、コール削減
トラブル撲滅会議
トラブル削減
障害ナビゲーションシステム
運用組織改革
組織活性化
サービスデスク
業務移管
運用・開発トレーニ制度
SLA導入
オペレーションエンジニアのレベルアップ(社内認定制度)
リリース会議
センター移転
DR構築
千手基盤導入
安定運用
統合監視・スーパーバイザーによる集中監視
ITSMS導入
運用効率化
MSP展開
ESP展開
Senju Family
統合監視ツール
MSP
リリース管理
運行管理
運用工程標準化
ESP
障害ナビゲーション
障害時自動電話
千手コマンド連携
IT資産管理システム
日報システム
Senju/SM導入
8
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
統合集中監視
役割別に分離、集約・統合化、省力化
顧客A
顧客B
顧客C
運用管理
運用管理
運用管理
オペレーション
サーバ N/W
監視
監視
オペレーション
サーバ N/W
監視
監視
オペレーション
サーバ N/W
監視
監視
運用管理
オペレーション
サーバ、
N/W監視
9
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
運用改善イメージ
メインフレーム
分業制
開発
ユーザー
開発
マネージャー
ベンダーA
開発管理
顧客担当
「所有」から「利用」
開発管理
関連部署
ユーザー
ベンダーA
顧客担当
ベンダーB
運用
ベンダーB
サービス
デスク
顧客担当
ベンダー
開発管理
運用
運用
高度化
セルフ
サービス
ポータル
運用
ポータル
クラウド
オンプレミス
データセンター
オペレータ
ホスト
運用管理
オペレータ
オペレータ
10
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
運用の変遷
1990年台
2000年台
現在
将来
メインフレーム
オープン化
仮想化・クラウド
所有から利用へ
IT利用目的
バックエンド処理
ITサービス提供
ITによる事業貢献
ITのコモディティ化
※業務効率化、生産性向上
※ビジネス基盤強化
※環境変化に対応
※スピード経営実現
運用管理
管理対象の拡大
あいまいなルール
属人的運用
サービス視点管理
ルールと現場のかい離
縦割りから横割り
自動化・無人化
DevOps
ITサービスマネージャ
Senju/OCリリース
Senju/ENリリース
Senju/SMリリース
※ジョブ・監視
※混在ツールの統合
※ITSMSの実現
更なる自動化
基盤を推進
限られた管理対象
厳格なルール
明確な役割
Senju Family
11
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
11
「つくり1年、廻し10年」 → 「使いながら良くする」
アジャイル
リーン・スタートアップ
DevOps・・・
開発期間短縮
リリース作業頻発
12
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
運用改善テーマ
運用業務
定常作業
人的ミス
防止
更なる
自動化
見える化
運用
スピードUP
変更・
リリース作業
障害対応
13
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
「所有」から「利用」へ → リリース業務増
「人的ミス」の原因、対策
「見える化」の課題、対策
「自動化」のイメージ
まとめ
14
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
人的ミスに対する対策ポイント
①考慮漏れ=基盤設計時の検討不足など
→運用は設計時から作りこむ
②運用ミス =運用担当者の手順指示ミスや申請ミス
→変更管理を徹底
③作業ミス =オペレータの操作ミス
→現場の改善と自動化
④不可効力 = ハード障害やソフトの未知のバグなど
→リスク管理の随時見直し
31%
「人」起因は対応可能
13%
運用
考慮
ミス
モレ
作業
不可
ミス
効力
オペレーションミス
作業ミス
運用ミス
考慮漏れ
不可抗力
25%
31%
15
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
ITIL®での重点ポイント
運用
考慮
ミス
モレ
作業
不可
ミス
効力
顧客/ユーザー
考慮
モレ
運用
ミス
作業
ミス
サービス
ストラテジ
サービス
デザイン
サービス
トランジション
サービス
オペレーション
需要管理
ポートフォリオ管理
財務管理
サービスカタログ管理
サービスレベル管理
キャパシティ管理
可用性管理
ITサービス継続性管理
情報セキュリティ管理
サプライヤ管理
移行の計画立案
およびサポート
リリース管理および
展開管理
サービスの妥当性確認
およびテスト評価
サービスデスク
アクセス管理
要求実現
インシデント管理
イベント管理
問題管理
IT運用管理
アプリケーション管理
技術管理
不可
効力
継続的サービス改善
CSI改善プロセス
サービス測定
サービス報告
※ITIL® is a Registered Trade Mark of the Cabinet Office.
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
16
①考慮漏れ
NRIの事例:標準フレームワーク
運用
考慮
ミス
モレ
作業
不可
ミス
効力
NRI標準フレームワークへの組み込み
システム開発時の
フレームワークの工程に
運用設計を組み込み
運用設計工程に
おけるアウトプット
のドキュメントを標準化
開発/運用の
役割分担・責任
マトリクスによる明確化
運用基盤アーキテクチャの標準化
システム監視基盤、バッチジョブ
実行基盤としての運用基盤構成の
アーキテクチャを標準化
運用共通基盤の利用ガイドライン
イベント管理・インシデント管理・サービス要求
基盤のIFを全プロジェクトに提供
運用受け入れ基準の明確化
リリース会議
における
運用受け入れ
基準の設定
運用受け入れ基準
(約50項目)の
遵守率を各システム
毎に評価・検証
オペレーション
訓練状況の
チェックリストを
評価・検証
リリース後のランニング
工程における障害・
イベント状況を継続的
にウォッチ
17
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
①考慮漏れ
NRIの事例:「べき・べからず集」
運用部隊の
サポートが弱い
開発担当者
何もしてくれない
運用
考慮
ミス
モレ
作業
不可
ミス
効力
開発部隊に言われるが
ままの単純作業受け入れ
開発と運用
の壁
単純作業が溢れ、本来
やるべき障害対応の
サポート範囲が狭くなった
運用担当者
設計・開発時に運用品質のために考慮してほしいチェックポイント集を作成
適用前
適用後
・障害連絡(電話&メール)
・障害連絡(千手により、自動電話&メール通知)
・リブート運用(手動)
・テープ交換(手動)
・リブート運用(千手ジョブによる、自動化)
・テープ搬送(手動)
・Diskランプチェック(手動)
・大量メッセージ出力(目視で切り分け、無視)
・テープ搬送(ネットワークを利用し、データ伝送化)
・システム締め延長運用(手動)
・ジョブ登録(手動登録)
・テープ交換(DISK化、ライブラリにより、自動交換)
・Diskランプチェック(ログ監視により自動化)
・大量メッセージ出力(SENでフィルタし、少出力化)
・システム締め延長(千手により、自動制御)
・ジョブ登録(千手オフライザ利用により、簡易登録化)
18
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
②運用ミス
対策のポイントは、「変更管理」
運用
考慮
ミス
モレ
作業
不可
ミス
効力

手順が明確化されておらず、指示内容があいまい

システムの中身が担当以外には判らず、変更申請の監査
ができていない

変更が多すぎて、一つ一つをレビューする事が出来ない
結果
19
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
②運用ミス
変更管理の7つのR
運用
考慮
ミス
モレ
作業
不可
ミス
効力

変更を「提起(Raised)」したのは誰か?

変更の「理由(Reason)」は何か?

変更に求められる「見返り(Return)」は何か?

変更に伴う「リスク(Risk)」は何か?

変更を行うために必要な「リソース(Resource)」は何か?

変更の構築、テスト、実施の「責任者(Responsible)」は誰か?

この変更と他の変更との「関係(Relationship)」は何か?
20
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
③作業ミス
対策のポイントは「改善意識と自動化」
人材育成
ビジネス
スキル
ヒューマン
スキル
ITスキル
運用
考慮
ミス
モレ
作業
不可
ミス
効力
現場の改善意識
改善活動の支援 (例:KY活動)
活動の見える化 (例:エン楽会)
etc…
業務自動化
ツールによる自動化
外部業務委託
etc…
21
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
③作業ミス
業務の標準化・自動化
運用
考慮
ミス
モレ
作業
不可
ミス
効力
・ 手動オペレーションを削減し、属人化を排除
・ 業務を標準化し、システムで代行可能
SSAにより
自動実行
予定日付/予定時刻の到来を
もって、SSA機能により
RBAが自動実行される
リリースフローの
自動実行
22
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
④不可抗力
リスク管理の定期的見直しが重要
• 所有から利用へ
• 利用形態の多様化
• 情報の事業影響度大
コストと品質のバランス
頻繁な見直しが必要
A
C
P
D
運用
考慮
ミス
モレ
作業
不可
ミス
効力
大
リスク
移転
影
響
度
低
リスク
回避
高
発生確率
リスク
保有
リスク
低減
小
23
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
「所有」から「利用」へ → リリース業務増
「人的ミス」の原因、対策
「見える化」の課題、対策
「自動化」のイメージ
まとめ
24
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
システム
ナレッジ
状況
プロセス
運用業務の見える化(定性データ)
業務や技術の問題
状況把握に時間がかかり、対応が遅くなる
コミュニ
ケーション
情報・ノウハウ共有の問題
ゴリ押しの特殊運用は特定の人しか判らない
定常業務に加え、緊急の依頼が多い
システム状況
見える化
クラウド・仮想化の管理法が不明
無駄なメッセージの対応に時間がかかる
覚えるべき技術やツールが多い
役割が明確になっておらず、タスクが放置される
運用のノウハウが蓄積できていない
ナレッジ
パートナーが多くてノウハウが貯まらない
見える化
パートナー社員は雇い主に改善依頼を言いにくい
ドキュメント・手順書整備の問題
過去の履歴が管理しきれない
運用手順がしっかり定義されておらず対応が不明
ドキュメントが更新されていない
プロセス
見える化
ドキュメントの書き方や文言がバラバラ
モチベーションやコストの問題
モチベーション維持がたいへん
コスト削減がなかなかできない
利用者・開発の声
障害は詳細確認前でもすぐに連絡して欲しい
コミュニケーション
運用状況をリアルタイムに共有して欲しい
見える化
運用が持っている情報をユーザにも公開して欲しい
㈱野村総合研究所調べ
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
25
システム
状況
① システム状況の見える化
情報共有改善イメージ
プロセス
ナレッジ
コミュニ
ケーション
操作・対応
【これからの運用イメージ】
【これまでの運用イメージ】
開発
ユーザー
開発
情報取得・通知
連携・指示
運用
複数拠点
ユーザー
サービスデスク
マネージャー
ベンダーA
開発管理
ベンダーB
自動通知
運用
セルフサービスポータル
申請・承認
ワークフロー
ダッシュボード
イベントフィルタ
運用管理
関連部署
情報連携基盤
運用高度化
サーバ監視
顧客担当
マルチデバイス
関連部署
オペレータ
マネージャー
開発管理
顧客担当
ベンダーB
対応
ナビゲーション
ベンダーA
イベント集約
自動
オペレーション
運用ポータル
サービス
要求状態
ビジネス
インパクト分析
ナレッジ・FAQ
運用レポート
ワークフロー
オペレータ
ジョブ運用
オンプレミス
クラウド
サーバ監視
データセンター
運用管理
オペレータ
ジョブ運用
26
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
システム
状況
② ナレッジの見える化
データ蓄積
シス
シス
シス
テムA テムB テムC
プロセス
ナレッジ
コミュニ
ケーション
シス
シス
シス
テムA テムB テムC
開発
開発
開発
開発
運用
運用
運用
運用
保守
保守
保守
保守
27
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
システム
状況
② ナレッジの見える化
「情報」を「知恵」に昇華
プロセス
ナレッジ
コミュニ
ケーション
ナレッジを組合せ
意思決定を誘導
情報を分析
パターンを把握
ナレッジ
データを整理
関係を理解
情報
データ
知恵
DIKWモデル
D :Data(データ)
I :Information(情報)
K :Knowledge(知識)
W :Wisdom(知恵)
28
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
システム
③ プロセスの見える化
プロセス整備前・後
プロセス
本番にリリース ?
聞いてない・・
監査
担当者
私に聞かれ
ても困る
ベンダA社
担当
関係ないベンダに
クレーム入れたのは誰?
変更要求
(RFC)
また同じ問合せ
ベンダB社
担当
アプリA
開発者
記録・参照
構成管理
CMDB
ベンダC社
担当
既知の
エラー
問題
とりあえず
直せばいいでしょ
ケーション
リリース
運用
担当者
急いでと言われても
勝手に変更できない
コミュニ
システム
システム
対応の証跡を
今すぐ見せて
ナレッジ
状況
ユーザに依頼された
から直接リリースした
そういうことは
運用に聞いて
アプリB
開発者
インフラ
担当者
参照 既知のエラー
インシ
デント
DB
解決
過去の
インシデント
ログを送れと
言われても
よく分からない
ユーザA
いつまで
待たせるんだ !
ユーザB
いつものベンダ
さんに聞こう
ユーザC
29
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
問合せ/申請
どこに問合せ
ればいいの?
ユーザD
FAQ
ユーザA
ユーザB
ユーザC
ユーザD
29
システム
状況
④ コミュニケーションの見える化
情報共有改善イメージ
監査
担当者
ベンダA社
担当
プロセス
運用
担当者
ベンダC社
担当
アプリ
開発者
アプリA
開発者
アプリB
開発者
インフラ
担当者
30
ユーザB
ケーション
メール
ログ情報
経過管理
構成管理
etc
:
ベンダ
担当
インフラ
担当者
サービス
デスク
ユーザA
ユーザA
コミュニ
監査
担当者
運用
担当者
ベンダB社
担当
ナレッジ
ユーザB
ユーザC
ユーザC
30
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
システム
状況
プロセス
「見える化」対策のポイント
①システム状況の見える化
→必要な情報の抽出、公開
②ナレッジの見える化
→スキルベースからナレッジベースへ
ナレッジ
コミュニ
ケーション
魅せる化
見せる化
③プロセスの見える化
→サービスデスクを整備
見える化
④コミュニケーションの見える化
→情報共有基盤の整備、現場定着
31
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
「所有」から「利用」へ → リリース業務増
「人的ミス」の原因、対策
「見える化」の課題、対策
「自動化」のイメージ
まとめ
32
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
自動化技術
【自動車の自動化技術】
–
–
–
–
–
物
–
–
–
–
–
–
オートマチック
アンチロックブレーキ
エアバック
オートクルーズ
カーナビゲーション
自動運転
【Senju Familyの
運用自動化技術】
人
モニタリング
ジョブスケジュール
メッセージアクション
高度フィルタリング
ランブックオートメーション
Senju Service Automation
運用無人化
33
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
自動化の課題
自動車運転
自動化
人の判断
見える化
システム運用
自動化
人の判断
見える化
34
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
自動化の目的
【自動車運転自動化】
① 渋滞解消
② 事故防止
③ 省エネ
・運転手の不満、6割が渋滞
・交通事故原因、9割が運転
技術ではなく見落とし
【システム運用自動化】
① 運用スピードUP
② トラブル防止
③ コスト削減
・所有から利用へ
・人的要因のトラブル撲滅
・人手運用の限界
35
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
自動化効果 調査レポート
自動化未使用時4時間 → 自動化後平均 83分。
・DETECT(検知)
問題の存在を検知するまでが22分。
(監視ツールによるイベント自動検知機能を使用)
・IDENTIFY(判明)
問題の内容を正しく判明するまでの時間。
問題の関連付、特徴付、 テクニカルチーム等の割り当て処理を含む。
・FIX(解決)
問題を受け取ったテクニカルチームによる、
問題の修正に費やす時間。
正しい問題分類処理にも密接に関係する。
・ イベントオートメーションのアウテージ時間
(平均時間:83分。自動化未使用時:4時間)
(出所:NRI-A 調査レポート)
36
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
運用自動化(Senju Service Automation)イメージ
予定日時が到来すると・・・
ランブックが自動実行され
る。
最終承認者による承認が
完了すると、申請状況が
「承認済」となる
予定日時が到来するまでは、
依頼待ちのステータス。
⑤実行結果連絡
①申請
②受付/承認
④実行/結果確認
③オペレーション指示
開発担当者
運用責任者
⑤実行結果連絡
①申請
②受付
オペレータ
③承認
⑤自動実行
業務サーバ
④実行指示
Senju Service Manager
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
Senju Enterprise Navigator
Senju Operation
Conductor
「所有」から「利用」へ → リリース業務増
「人的ミス」の原因、対策
「見える化」の課題、対策
「自動化」のイメージ
まとめ
38
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
まとめ
運用業務
定常作業
運用
ミス
考慮
モレ
作業
ミス
不可
効力
改善テーマ
人的ミス
防止
変更・
リリース作業
見える化
障害対応
システム
状況
プロセス
原因→解決
考慮漏れ
開発考慮
運用ミス
変更管理
作業ミス
リリース管理
不可効力
リスク管理
状況把握
抽出/公開
ナレッジ
収集/分析
プロセス
サービス
デスク
コミュニ
ケーション
情報共有
基盤
ナレッジ
コミュニ
ケーション
将来
更なる
自動化
運用
スピードUP
39
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
ご清聴、誠にありがとうございました。
お問い合わせ、ご感想等は下記までお願いいたします。
40
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.