守る - cybozu.com 運用の裏側

22
守守 cybozu.com 運運運運運 守守守守 @ymmt2005

Upload: hirotaka-yamamoto

Post on 21-Nov-2014

7.286 views

Category:

Technology


4 download

DESCRIPTION

cybozu.com カンファレンス II 講演資料 2012-09-26

TRANSCRIPT

Page 1: 守る - cybozu.com 運用の裏側

守るcybozu.com 運用の裏側

山本泰宇@ymmt2005

Page 2: 守る - cybozu.com 運用の裏側

今回技術の難しい話は

しません

Page 3: 守る - cybozu.com 運用の裏側

こんな疑問ありませんか?ファーストサーバーのような事故は

起きる?

ISMS/ISO27001 認証あれば安心?

サービスレベルって何?

トラブル発生時は誰がどう対応するの?

Page 4: 守る - cybozu.com 運用の裏側

運用とは

システムなどが正常に稼動し続けられるような

状態を維持すること。異常の兆候がないか状態

の監視したり、最新版のソフトウェアに入れ替

える等の保守作業、老朽化した設備の更新、障

害に備えたデータなどの保全、障害時の復旧作

業などが含まれる。 via e-words

Page 5: 守る - cybozu.com 運用の裏側

運用=商品

• 月 500 円 = Office の値段月 500 円 = Office + 運用の値段

• 「運用の説明」 = 「商品の説明」

• 「運用障害」 = 「商品の不具合」

• 「運用への投資」 = 「商品価値増大」

cybozu.com の「商品の一部」

Page 6: 守る - cybozu.com 運用の裏側

月 500 円に含まれるもの

サイボウズ Office

1GB のディスクスペース

運用サービス• 障害監視、性能監視、

チューニング、バージョンアップ、 OS ・ミドルウェアの保守、バックアップ、古い機材の更新、 etc.

ここを解説

Page 7: 守る - cybozu.com 運用の裏側

ここからの内容• 前提としていること原理と原則

• サービスレベル目標

• 自動監視システム等手段

• 平時・緊急時の運用体制体制

• 本当にやっているのか?保証

Page 8: 守る - cybozu.com 運用の裏側

原理

• 人はミスをする• 機械は壊れる• ソフトウェアにはバグがある

山本の公理

• 俗にいう「ヒヤリ・ハット」• 重大 : 軽微 : ニアミス = 1:29:300

ハインリッヒの法則

Page 9: 守る - cybozu.com 運用の裏側

原則• 顧客データの保護 > サービス再開 > 原因究明データ優先

• 開発者は運用環境にアクセスできません• 開発用に、別データセンターを運営

開発者を信用しない

• 通常運用は完全自動化• 手動操作履歴はすべてログ保存

オペレーターを信用しない

• 利用する範囲で安定運用ができるか評価• バックアップデータに正常アクセスできることを定期確

ソフトウェアを信用しない

• 安定運用に支障があるものは、リリースを拒否• リリース後に発覚したものは即時の改修を要求

社長のいうこと無茶を通さない

Page 10: 守る - cybozu.com 運用の裏側

略して

頑固一徹

Page 11: 守る - cybozu.com 運用の裏側

サービスレベル目標項目 目標稼働率 99.9%

応答時間 4秒以内利用開始まで 3分以内復旧時間 単純障害は無停止

( VMホスト障害は 10分)

ログ保存期間 オンラインで1年間

Page 12: 守る - cybozu.com 運用の裏側

目標なくして運用なし!

Page 13: 守る - cybozu.com 運用の裏側

目標なくして運用なし!

• 各目標値を測定して、• 自動監視・有人監視体制を構築、• 性能監視してチューニングしています

稼働目標があるから

• 落ちていても気づかない• 性能が低下しても改善しない• 予算・人員もつかない

目標がなければ

Page 14: 守る - cybozu.com 運用の裏側

監視システム

データセンター

• 外形アクセス監視• バックグランド処理監視• リアルタイムアクセスログ監視• ストレージ監視• プロセス監視• リソース使用率監視• etc.

24 時間有人監視センター

オペレーター

Page 15: 守る - cybozu.com 運用の裏側

目標→測定→公開

cybozu.com Web サイトで公開していますhttps://www.cybozu.com/jp/service/slo/availability.html

6 月 30日のうるう秒トラブル

Page 16: 守る - cybozu.com 運用の裏側

Square ストレージシステム

Page 17: 守る - cybozu.com 運用の裏側

Square の秘密• 独立したバックアップ専用サーバー• 東日本 DC からレプリカの操作は不可

誤操作の防止

• リストア結果が正常か毎日自動チェック

自動ベリファイ

• リストアボリュームで事前にリハーサル

• 分離されているので運用環境に影響なし

リハーサル

Page 18: 守る - cybozu.com 運用の裏側

オペレーションルール

3カ条

極力自動化

作業しない勇気

自作ツール禁止

作業ミス対策

操作ログの自動保存

臨時バックアップ

事前リハーサル

Page 19: 守る - cybozu.com 運用の裏側

ISMS/ISO27001

意味するところ• 規則が決まっている• 規則通り作業している

意味しないところ• 運用レベルが高いか否か• 中身を確認することが重要!

効果• 規則を決めてドキュメントにする文化• 規則通り作業する文化

Page 20: 守る - cybozu.com 運用の裏側

サイボウズ固有の ISMS運用

• ITIL や非機能要求グレードを参考に設定

具体的な目標値

• 手順ミス防止を、自動化でさらに追及

オペレーター「も」信用しない

• セキュリティ問題を全社で一元管理する体制を整備

CSIRT (Computer Security Incident Response Team)

• 稼働率目標・結果やストレージの情報を公開• 各テナント別稼働率なども今後の公開を予定

情報公開

Page 21: 守る - cybozu.com 運用の裏側

まとめ

cybozu.com 運用チームは頑固一徹

目標なくして運用なし!

認証≠高品質、中身が重要です

Page 22: 守る - cybozu.com 運用の裏側

Questions?