openstack ops mid-cycle meetup 参加報告
TRANSCRIPT
2015年8月 NTTコミュニケーションズ 技術開発部
OpenStack Ops Mid-‐Cycle Meetup@PAO 参加報告
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Ops Meetupとは?
n OpenStack Operators Meetup(通称:Ops Meetup) クラウドの運用者が集まるイベントであり、運用者(Ops)同士のベストプラクティスやアイデアの意見交換、運用者の視点から開発者へのフィードバックを行う
n 次の3つを目的としてディスカッションやプレゼンテーション形式で話し合いが行われる 1. OpenStackの運用中に発生した問題へのフィードバックの収集と、コ
ミュニティへの共有 2. 運用者たちがベストプラクティスやアーキテクチャについてお互いに情
報交換が出来る体制を作る 3. クラウド運用者からの建設的/積極的な関わりあいを増やす
n 開催時期 • OpenStack SummitのDesign summit開催中の数日 • SummitとSummitの間(Mid-‐cycle)で数日
Copyright © NTT Communica8ons Corpora8on. All right reserved.
1
Copyright © NTT Communica8ons Corpora8on. All right reserved.
今回のイベント概要
n イベント名:OpenStack Ops Mid-‐Cycle Meetup n 日時:2015年8月18日、19日
n 場所:米国:パロアルト(HP, GoDaddyがスポンサー) n 主催:OpenStack Founda8on
n 参加者:2日で195名(登録は305名) n 参加者の多くは西海岸とオースティン n ヨーロッパから数名とアジアからはNTTグループの5名 n 構成はOps、PTL6〜7名(Keystone, SwiR, Cinder, etc)、ATC二十数名(Coreが
数名)
n 参加目的:OpenStackを活用している企業の運用者が集まり、各社の運用方法の情報共有やOpenStackの開発者にフィードバックを提言していく会議体であり、今後のクラウド運用のノウハウや情報を収集するため
n 備考:議事録はEtherpad*1で公開中
*1:hUps://etherpad.openstack.org/p/PAO-‐ops-‐meetup
2
Copyright © NTT Communica8ons Corpora8on. All right reserved.
⾃自⼰己紹介
• 三井貴之(みついたかゆき) • H27年NTT COM入社 • 技術開発部 クラウドコア OpenStackチーム • 学生時代にアルバイトやフリーランスでソフト
ウェア開発を経験 • 趣味 – ゴルフ – 海外ドラマ
3
Copyright © NTT Communica8ons Corpora8on. All right reserved.
⾃自⼰己紹介
u 氏名: • 小倉真人 (おぐらまひと, Mahito OGURA)
u 所属: • NTTコミュニケーションズ 技術開発部
• OpenStackの調査 / 開発 / 人材育成に従事 u 経歴: • 2009 – 2010:NTTコムウェア入社、Eucalyptusの検証 • 2010 – 2012:仮想化基盤(KVM)の監視 / デプロイ
効率化の検証 • 2012 – 2013:Cassandra, HBase, MongoDBの検証 • 2013 – 2014:Hadoop基盤の自動構築検証 • 2014 – 現在:10月に人事異動で現職へ
4
Copyright © NTT Communica8ons Corpora8on. All right reserved.
OpenStack Ops Mid-‐Cycle Meetup@PAO 1日目
Copyright © NTT Communica8ons Corpora8on. All right reserved.
5
Copyright © NTT Communica8ons Corpora8on. All right reserved.
スケジュール(1⽇日⽬目)*1
8/18 Tue Med II Med III Salon A Salon B Bacchus
9:00 -‐ 10:00 Registra8on
10:00 -‐ 10:30 Introduc8on
10:30 -‐ 11:15 Burning Issues
11:15 -‐ 11:55 Hypervisor Tuning
11:55 -‐ 12:05 Breakout Explain
12:05 -‐ 13:30 Lunch
13:30 -‐ 15:00 Large Deployments Team
Burning Issues
Logging WG
Upgrades WG
Ops Guide Fixing
15:00 -‐ 15:30 Coffee
15:30 -‐ 16:00 Breakout Reports
16:00 -‐ 17:00 Using Containers for Deployment
17:00 -‐ 18:00 Lightning Talks
*1:hUps://goo.gl/qOQfFs
6
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Burning Issues *1
² 概要 – 運用経験から得られた修正すべき点などを共有・議論 – Moderator: Ulf
n 内容 – Neutron – キャパシティマネジメント – Ceilometer – RabbitMQ – KeyStone – SOC コンプライアンス – トラブルシューティング – テスト
*1:hUps://etherpad.openstack.org/p/PAO-‐ops-‐burning-‐issues
7
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Burning Issues Neutron
n バグの報告 – Kiloのdhcp agentの問題で、テナントがfipをロスト – L2,L3 agentを再起動すると、すべてのテナントのルータと
コンピュートノードがフラッシュされる • Kiloにはパッチなし。Libertyは修正予定
– HA routerのL2 popula8onにバグあり n トラブルシューティングが困難 – ドキュメント不足 – いい解析ツールがない(今はtcpdump)
n ネットワークモデルのアンケート – Linux bridge 半数 – Open vswitch 半数 – Contrail 少数
8
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Burning Issues キャパシティマネジメント
n Quotas – ドメインごとに定義 – グローバルで定義 – Flavor/azで定義 – Novaのroot diskと一時ディスクにも欲しい • Vcpuとvmemoryにはある • Blueprint, hUps://blueprints.launchpad.net/nova/+spec/root-‐and-‐ephemeral-‐disk-‐quota)
– Neutron networkのport数
n EbayではアセットをCMDBで管理
9
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Burning Issues Ceilometer 1/2
n ユーザ関心 – 使ってみたい: 一人 – 諦めた : 数人 – 関心なし: 一人 – grep : 数人
n ユースケース – 監査証跡 – メータリング – チャージバック/ショーバック
• VerisignはkibanaとElas8csearchを使ってチャージバックを構築し始めた
• eBayは別の方法ですでに実現している
10
Copyright © NTT Communica8ons Corpora8on. All right reserved.
n 主なgapや問題点 – Mongo
• Influxdbや他のプロプライエタリDBに切り替えている人も存在
– パフォーマンス – 安定性 – 機能の理解に時間がかかる
• フルタイムエンジニアが7ヶ月
n スケール – 135コンピュート : 1Ceilometer – Azごとに1000まで (プロプライエタリDB使用)
Burning Issues Ceilometer 2/2
11
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Burning Issues RabbitMQ 1/2
n Rabbit teamによるinstall/configガイドが発表 – Vancouverで告知 – OpenStackに特化したドキュメントをrabbitmq.comに載せ
ることを計画中 • 故障や分割時からの復旧 • 動作中のクラスタでupgradeを行った時の影響
n Rabbitの開発はgithubに移行 n Kiloでもnova-‐computeでrabbit再起動にいくつかの問
題が見られる n heartbeatはoslo messagingにあってバックポート可能 n Junoと 新のoslo.messagingは動作良好 n LBを使う/わないのメリット・デメリットをOpsで議論した
い
12
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Burning Issues RabbitMQ 2/2 今後の予定
n 3.6.0リリース – 2015年10 or 11月 – オペレーション改善にフォーカス – クラスタのプロビジョニングが容易に • 2タイプのプラグインが存在 • Chef/puppet/その他のモジュールをサポート
– オペレーション指向のコマンドがrabbitmqctlに n 3.7.0リリース – 2016年4 or 5月 – Pluggable logging バックエンド – Pluggable クラスタリングメカニズム
13
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Burning Issues Keystone 1/2
n 主に権限について議論 – VMがどのHVにいるのかはadminのみが知る
• 仕様 – AdminAはフルアクセスできるが、AdminBはそうではないネットワークが
欲しい – ホワイトリストのユーザだけがCRUD可能 – A,Cユーザはフルアクセスできるが、BユーザはRead Only – VMに特定の権限
• 別テナントのswiRコンテナにアクセス可能 – Adminは何でもできる
• 様々な独自roleやポリシーを使って運用しているところもある • Admin+extraの権限を提案。E.g. プロジェクトの削除にはAdmin+deleteの権限が
必要 • ロールのアサインを制御できるadmin-‐nessな権限 • V3では粒度の細かいコントロールをサポート
– 特定のロールにread-‐onlyアクセスを許可する等
– Novaのpolicy.jsonで、別テナントへのアクセス可能に関する設定が無視 • Libertyでは修正済み
– Libertyのkeystoneでは試験的に中央集権されたポリシーを持つ
14
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Burning Issues Keystone 2/2
n スケーリング – 並列に多くの認証リクエストが来た時に認証時間が
長くなる • 400の同時リクエスト時にはレスポンスに14秒かかる • トークンの認証が遅ければすべてのサービスが遅くなる • トークンの破棄についても議論していきたい
15
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Burning Issues SOC / コンプライアンス
n アクセス/ログイベント – だれがいつ作ったかを知りたい – CADF(Cloud Audi8ng Data Federa8on)
• 顧客が監査機能を維持できるようにするために、クラウドプロバイダーが提供する標準化された監査データ
• データを格納するバックエンドが必要 – Logstash(ELK) – Ceilometer
n ユーザ認証に連続で失敗した場合にロックアウトしたい – SQLドライバー以外を使えばできる(LDAP、IPA、AD) – Keystoneチームにウイスキーを与えれば…
n Audit keystonemiddlewawre – 開発は終了
16
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Burning Issues トラブルシューティング
n 以下のトラブルシューティングが困難 – “OpenStackが遅い”
• どうやってパフォーマンスの解析や問題点を発見するか – Datadog(cloud monitoring as a service) – Icinga(Open Source Enterprise Monitoring)はこの用途には使えなかった
– “VMが作れない” – ロードバランサ – DNS解決 – UDPとマルチキャスト – “no valid host found”
n 中央でログ収集 – Fuel-‐plugin-‐ima-‐collector – ELK
n Correla8on engine – 既知のイベントに関しては自動的にトラブルシューティング
17
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Burning Issues testing/validation
n APIテスト、interoperabilityテスト – RefStack
n パフォーマンステスト – Rally
n HAテスト – Cloud99
18
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Hypervisor Tuning*1 1/5
² 概要 – ハイパーバイザーのチューニングに関するベストプラクティスの共有・議
論 – Moderators: Joe Topjian
n チューニングテスト – DaCapoは良いツール – Disk IOテスト
• FIO – 70/30 tes8ng at 8k – レイテンシを見ている(スループットではない) – Ansibleを使って複数VMで同時に実行
• Iometer – シングル/クラスタ用のIO計測ツール
– 共通のテスト環境のリセット方法が欲しい • キャッシュなどが再テストを邪魔する
– CBTOOL (hUps://github.com/ibmcb/cbtool) – PHORONIX TEST SUITE (hUp://www.phoronix-‐test-‐suite.com/) – PerfKitBenchmarker (hUps://github.com/GoogleCloudPlarorm/
PerfKitBenchmarker)
*1:hUps://etherpad.openstack.org/p/PAO-‐ops-‐hypervisor-‐tuning
19
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Hypervisor Tuning 2/5
n どのカーネルスケジューラを使っているか – Deadline – Noopはホストスケジューラと競合しない
n Network – MTU
• 1550 • 8000 (いくつかのレガシーネットワークのため) • Kiloではneutronのconfigに書いたmtuが反映されない場合あり
– プロバイダーネットのMTUをより大きな値にするといいかもしれない
– Nic bonding • LACPがデファクトスタンダード • 再起動時、50回に1回、LACPではなくラウンドロビンとして上がってくる
n cpu_mode – Passthrough
• Upgrade時にいくつかの問題が発生 – Apparmor のバグ – レジュームできない
– Host-‐model • HVノードをスワップするときに、スワップ先のHVにCPU extesionsがなければvmが立ち上
がらない
20
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Hypervisor Tuning 3/5
n Intel KVM EPT – 6%スループットが改善 – hUp://openstack-‐in-‐produc8on.blogspot.fr/2015/08/ept-‐and-‐ksm-‐for-‐
high-‐throughput.html – バグでホストクラッシュを起こすときもある
n KSM – 各コンピュートノードで20%メモリ節約 – hUp://openstack-‐in-‐produc8on.blogspot.fr/2015/08/ept-‐and-‐ksm-‐for-‐
high-‐throughput.html – Javaを重くする – 0.94%スループットが改善
n NUMA – より効率UP – hUp://openstack-‐in-‐produc8on.blogspot.fr/2015/08/numa-‐and-‐cpu-‐
pinning-‐in-‐high-‐throughput.html – Random numa cell selec8onの時すべてのnuma cellが使われない場合が
ある • 修正済み
21
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Hypervisor Tuning 4/5
n Iptablesの設定 – conntrack_max
• 512k • 256k with hash table size of 16k • 256k with hash table size of 64k • Ubuntuのデフォの64kでは足りなくなった
n CPU overcommit (デフォルトは16:1) – 1.2:1 – 2:1 – 4:1 – 16:1(ramのほうが先に限界がきて実際は3.5:1程度)
n Memory overcommit – 10%は良くない場合も
• OOM killerが目覚める!真っ先にVMをkill • RAM Hardwareの問題でOOM killerが走ることも • VMマイグレーションが失敗する
– 15%で問題なしのところも
22
Copyright © NTT Communica8ons Corpora8on. All right reserved.
n ローカルストレージ – メモリーのオーバーコミットにSSD使用 – キャッシュにZoL – bcache
n VM Swappinessは頻度をすくなるするかoffに n ひとつのHVでホストするVMの数はだいたい20-‐25 n HV一つに割り当てるRAM – 2-‐8G – テナントに合計いくつ、とかで割り当てる場合も
n ライブマイグレーション – Post-‐copy migra8on : 10人程度が注目 – XenServerではマイグレーション中にVMがかなり遅く – Cut overの時に数秒ネットワークが途切れる
Hypervisor Tuning 5/5
23
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Logging WG*1
² 概要 • ロギングに関する情報やベストプラクティスを共有
n LoggingはELK(elas8csearch + Logstash + Kibana)が主流 – ELK stackを使ったモニタリングが現在のベストプラクティスと言われていた – ログコレクタとしてSpark, Splunk, Fluentd, Rsyslog, Beaverの利用者も存在 – Infraチームのダッシュボードはgarafyamlを使ってGrafanaに出力してる
n Opsのツールに関するレポジトリの紹介 – OSOps:hUps://github.com/osops/ – Infraチーム:hUp://git.openstack.org/cgit/openstack-‐infra – RackspaceはOSAD(OpenStack Ansible Deployment)にコントリビュート
n Metricsはstatsd, collectdとダッシュボードを組み合わせている n Oslo.logのバグ紹介 n Blueprintについての議論
– return-‐request-‐id for API calls • リクエストを追いかける際に役立つが、考慮しなければいけないケースがあるので、
Blueprintで引き続き議論を行う – Error Code Spec
• エラー原因の特定に効果的ではあるが導入が非常に難しいとの声が多数
*1:hUps://etherpad.openstack.org/p/PAO-‐ops-‐logging
24
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Large Deployment WG*1
² 概要 – 大規模環境構築に関連した議論
n Mul8 node / mul8 region – Ceilometerclientがregion-‐nameを無視(
hUps://bugs.launchpad.net/python-‐ceilometerclient/+bug/1439553) – Horizon, keystone, swiRはregion共通 – Nova,neutron,glance,cinder,etc..はregion毎に
n 共通の定義が必要 regions/availability zones/cells/etc. – hUps://wiki.openstack.org/wiki/OpenStackTaxonomy
n Cells – インターフェイスと外部イベントのアタッチ/デタッチをサポートする
review(hUps://review.openstack.org/#/c/215459/) – Compatは異なるバージョンのcellの動作をサポート
• 公式ではサポートしていないが、Icehouse (API) <-‐> Juno (Compute)が動く • Kill(api) <-‐> juno(compute)はバグで動かない
n Novaclientはpaginateに未対応、vmが一定数を超えたらnova listに表示されない – Neutronも同じ
*1:hUps://etherpad.openstack.org/p/PAO-‐ops-‐logging
25
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Upgrades WG*1
² 概要 – OpenStackのバージョンアップに関するWG – Moderator: Will Auld(intel), Clayton O'Neill(TWC) – 参加者: 約15人
n Linux bridgeはneutronダウン時も動くが、OVSは動かない n 使用バージョン
• Juno: 5, kilo:3, それ以前:2 n 多くの人は同じアプローチでupgradeを行っている
– ツールはそれぞれで作成 n 不要なconfigファイルを探すツールが欲しい n Rabbitの変更がkiloへのアップグレードの主な理由 n Kollaやコンテナがupgradeを簡単にしてくれないか興味津々 n Lazy DB マイグレーションやリリース間のRPCについても議論
*1:hUps://etherpad.openstack.org/p/PAO-‐ops-‐upgrades
26
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Ops-‐‑‒guide-‐‑‒fixing WG*1
² 概要 – Ops Guide(hUp://docs.openstack.org/ops/) の修正 – Moderators: JJ, Joe Topjian – 参加者: 約10
n Ops GuideをRSTに変換中(Mitakaリリースまでには終わる…?) • Guideが古いので、みんなで修正しよう!
n ニュートロンのトラブルシューティングガイドが紹介 – hUp://docs.openstack.org/openstack-‐ops/content/network_troubleshoo8ng.html
– hUp://docs.openstack.org/kilo/install-‐guide/install/apt/content/figures/1/a/common/figures/installguidearch-‐neutron-‐networks.png
*1:hUps://etherpad.openstack.org/p/PAO-‐ops-‐ops-‐guide-‐fixing
27
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Using Containers for Deployment*1
² 概要 – コンテナを使ったデプロイに関するアイディアやベストプラクティスの共有
n 約25人がコンテナを使用 – baremetal :24人 – vms : 16人
n 使用ツール – LXC: 15, Docker: 10, Mesos : 0, k8s: 0
n 管理ツール – Juju, vagrant, OSAD
n 設定ファイル – コンテナの数だけ設定ファイルが必要 – Bind mountで/etcにある – Vmより管理が簡単
n Iscsiに問題あり – Rackspaceはbaremetalで – Kollaだと正常に動く
n コンテナのメモリサイズがホストのメモリサイズと同じ – rabbitMQがホストのメモリサイズを使ってメモリ確保をしてしまう – rabbitMQの設定で制限する必要あり
n Magnumを使っている人はまだいない
*1:hUps://etherpad.openstack.org/p/PAO-‐ops-‐containers-‐for-‐deployment
28
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Lightning Talks1. Ryan Moats, IBM, instrumen8on of neutron,
hUps://etherpad.openstack.org/p/neutron-‐instrumenta8on 2. Steve Pearson, CMDBの紹介 3. Clayton O’Neill, Time Warner Cable, kilo upgradeのissue,
hUps://docs.google.com/presenta8on/d/1y7xfol4IyoM4irvSapF2rXkxijzSOyjHohMBTIWiBB4/edit?usp=sharing
4. 市川 俊一, NTT SIC, ユースケースとVMHAプロジェクト(MASAKARI)の紹介, hUp://www.slideshare.net/toshikazu_org/openstack-‐ops-‐meetup-‐palo-‐alto-‐lt
5. 室井 雅仁, NTT SIC, Matchaの紹介 6. MaUhew Thode, Gentoo, OpenStackにおけるgenUo package 7. Tim Cuddy, HP, データアグリゲーション,
hUps://www.youtube.com/watch?v=EWqRMyCptDo&list=PL2rC-‐8e38bUURV8gCzH7NvBY0hj1FoFFe&index=54
8. Piet Kruithof, PTL OpenStack UX, UX Projectの紹介, hUps://docs.google.com/presenta8on/d/1FbTQI-‐FfEkj-‐9x2tRpt11Sef1-‐E-‐HUfv3_0CywKnfxg/edit?usp=sharing
9. JJ Asghar, Chefの人, chefを動かす話 10. James Blair, Shadeというシンプルなopenstackクライアントのライブラリ,
hUp://docs.openstack.org/infra/shade/ 11. John Dickinson, プロジェクトのコントリビュートの様子を可視化, hUps://
github.com/notmyname/git-‐stats
29
Copyright © NTT Communica8ons Corpora8on. All right reserved.
OpenStack Ops Mid-‐Cycle Meetup@PAO 2日目
Copyright © NTT Communica8ons Corpora8on. All right reserved.
30
Copyright © NTT Communica8ons Corpora8on. All right reserved.
スケジュール(2⽇日⽬目)*1
8/19 Wed Med II Med III Salon A Bacchus
9:00 -‐ 09:45 CMDB: use cases
9:45 -‐ 10:30 Deployment Tips
10:30 -‐ 11:15 What network model are you using? Are you happy?
11:15 -‐ 11:30 Coffee
11:30 -‐ 12:15 User CommiUee Discussion
12:15 -‐ 12:20 Breakout Explain
12:20 -‐ 13:30 Lunch
13:30 -‐ 15:00 Tools and Monitoring Product WG Packaging Ops Tags Team
15:00 -‐ 15:30 Coffee
15:30 -‐ 16:00 Breakout Reports
16:00 -‐ 17:00 Feedback Session, Tokyo Planning
*1:hUps://goo.gl/qOQfFs
31
Copyright © NTT Communica8ons Corpora8on. All right reserved.
CMDB*1 1/2n 背景:
バンクーバーのOpsサミットでHPとeBayがCMDBに関する 初のBlueprintの取り組みを開始
n 会場内のアンケートでは自前のCMDBを使っているユーザは10名程度
n 何の目的でCMDBを使っているのか
– 既存環境の関係性の記録(server, cloud, networks, topology, security zone. etc)
– 構成情報の管理
– レポート(キャパシティプランニング、設定が一致しているか、部門への投資)の作成
– OpenStackクラスタ構築・復旧・スケールアウトの自動化のため
– 監査対応・歴史の管理(ホストOSを入れなおしなどを行った場合に監査対応で過去のホスト名が必要になったりするため、過去のホスト名なども追いたい)
*1:hUps://etherpad.openstack.org/p/PAO-‐ops-‐cmdb
32
Copyright © NTT Communica8ons Corpora8on. All right reserved.
CMDB 2/2n 実装のアイデア
– RDF(Resource Descrip8on Framework)での実装(REST APIや専用のクエリの実装がすでに存在してる
n 今回の成果
– 実装の参考となるベストプラクティスの収集
– 実装方法のアイデア
• 既存ソフトウェアを使う方法と
• 新しいPJを立ち上げるための議論
– CMDBを実装するにあたり既存のPJに与える影響の影響
• Ironicはすでに同様の機能を持っており、追加機能も開発中
n FeedBackではGeneralセッションじゃなくてよかったのではという声が多数
33
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Deployment Tips*1 1/5
n Database Setup • Galera/replica8onが半数(他MySQL?) • GaleraをDC跨ぎで使っているのは3名
– Arbitratorを使ってSplit brain対策をしている – パフォーマンスはDC間のラインに依存
» 300kmを10g接続でKeystoneオンリーなら問題なし
• Galeraに入れてるデータ – Keystone – Designate – Horizonのセッションデータ – Glance(NovaとCinderはリージョンごとに構築)
*1:hUps://etherpad.openstack.org/p/PAO-‐ops-‐deployment-‐8ps
34
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Deployment Tips 2/5
n Deployment tools • Ansible / juju / chef/ cfengine / puppet / bcfg2
• Ansibleオンリーは数名でAnsible + 別ツールが多い • Puppet、Chefともにコミュニティへの参加を募っている
n RabbitMQ • サイレント故障が起きたりする • LB経由のアクセスはやめた方がいい?
• 大丈夫派 – Kiloだと直ってるっぽいがそれ以外はおすすめしない – OpenStack以外のサービスで使っているが問題なく動いている
• 問題あり派 – Kiloでも問題は直ってないと思っているが確認はしていない – library(Konbu)が原因みたいだがbugではなく仕様の可能性がある – rabbitのmul8-‐nodeを使っているがhaproxyは使わずにnova.confでrabbit
hostを直接設定してる
35
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Deployment Tips 3/5
n OVS? LinuxBridge • OVSの代わりにLinux bridgeを使ってるとの意見が多数
• 理由 – OVSのデバッグが難しい/OVSが複雑 – Linux Bridgeに対して以前の経験や知見があるから – “first class ci8zen in linux network stack” – OVSのupstreamのリリースがLinux kernelのリリースとラグがある – OVSのクラッシュでFlowsが消えて、Compute Nodeの再起動が必要になった
• Libertyに向けてOVSやテナントNWのように動くシンプルなLinux Bridgeの使い方のガイドを計画中 – OVSからのマイグレーション方法を含めてドキュメントが足りてないので充実
させる予定
• ARP spoofing protec8on for Linux Bridge agent – hUps://review.openstack.org/#/c/209705/
– 使っているOVSのバージョン • 2.3.0, 2.0.*は問題ない • 2.1.xは問題があるので今すぐUpgradeしたほうがいい
36
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Deployment Tips 4/5
n Package • ソースコードから直接構築 • pipかOSごとに用意されているパッケージ • giRwrap/anvil/Omnibus
n Load Balancer
• haproxyが50%(便利、稼働中、コストが安く済む) • HW製品が50%() • 負荷分散目的 12名 • HAを利用してる 13名
• Pacemaker/Corosync keepalived • VIPで運用しているとX-‐Forwarded-‐Forに対応していないサービ
ス (e.g Heat)がうまく動かなかったりする問題がある
• SSL offloadを使うとjuno以降のclientが失敗する
37
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Deployment Tips 5/5
n Object Storage • SwiRはOpenStackのデプロイの中で も安定している +2 • SwiR-‐proxyへのアクセス方法を複数設けている
• 開発者管理のクラウドからのアクセス • Apacheのmod_proxy経由(ユーザ用) • エンドポイントへの直接アクセス(Cloud内部からのアクセス限定)
• 新しいサイトをSwiR global clusterに追加するときは、初回はfull weightになるまで追加してはいけない
• swfit-‐proxyのためにPublic VIPを分けている(Junoで実現?) • Time werner cableではIcehouseから問題なく動いている • havanaから動いていたがjunoで壊れたという意見も
– 今のところ原因不明で調査中とのこと • 利用しているClient
• apiを直接 / python-‐swiRclient / openstack-‐client / pkgcloud
n その他 • 人気のTipsについてはOperators docに記載をする予定 • nginxとmod_wsgiのドキュメントがイケてない • Admin用のAPIサーバやRead only APIサーバ
• CERNではCeilometer用にRead onlyサーバを建てている
38
Copyright © NTT Communica8ons Corpora8on. All right reserved.
User Committee Discussion*1 1/2
n 現在のUser Surveyについてどう思うか • 生データがないのでよくわからない • 統計データがほしい(e.g. KVMを使ってる割合) • 長くて退屈なアンケートはやめるべき
• hUps://www.openstack.org/user-‐survey/AboutYou
n デプロイに関する情報をどう共有するか • 会社ごとにユーザグループを作りAdminを決める
• CTL(“Company team lead”)? • 各社のクラウドについて話す際はCTLが起点になる • ATCのように問題解決に協力することが期待される
• nova.confをmd5付きで公開する
n Ceph-‐brag style tool • Refstack( hUp://refstack.net) • DefCoreのmid-‐cycleでRefStackの実行結果のリンクが公開できるか話
し合われたことがある *1:hUps://etherpad.openstack.org/p/PAO-‐ops-‐user-‐commiUtee
39
Copyright © NTT Communica8ons Corpora8on. All right reserved.
User Committee Discussion 2/2
n Product WG/feedback loop – WGにどのように働いて欲しいか?
• REF-‐bugスタイルの機能要求 – hUps://github.com/openstack/openstack-‐user-‐stories/blob/master/user-‐story-‐
template.rst • Ops meetupの際に情報を提供してもらいたい
n Tags Team – プロジェクトのページに何を載せるべきか
• テストの総計とその結果 • adop8on vs maturity
n コミュニティ内のOpsの認知度向上について – Superuser awardみたいにSuperops awardを作る? – ATCのような仕組みを作る?(CTLのような)
• ATCになるにあたりCommit以外の方法があってもよいのでは? • DocsのBugやChefやPuppetみたいなところにコントリビュートする方法もある
– Opsを示すTシャツ、ステッカー、バッグを作る
40
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Tools and Monitoring*1 1/7
n Capacity planning tool – Schedule simulatorを利用
• 異なるVMサイズやオーダー、フレバーで実行可能 • キャパシティに何が起きるかをシミュレート可能
n Rolling reboot / Live migra8on / defrag – QEUMの脆弱性対策はglibcとqeumへのパッチ
• テナントへの通知は行う • コントロールプレーン上のサービスはリブートするが、
データプレーンはテナントのハンドリングに任せている – Live migra8onは運用上必須 – CVEはHypervisorのUpgradeに使ってる – KspliceはKernel upgrade時にもrebootしなくてよい
*1:hUps://etherpad.openstack.org/p/PAO-‐ops-‐tools-‐mon
41
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Tools & Monitoring 2/7
n Network monitoring tool – Network node manager (NNM) – OpenStack標準の機能
• モニタリングに加えてデバッグ機能が欲しいとの意見 – MonascaはNetworkingモニタの機能を幾つか持っている
n Object Storage の監視 – Recon
• hUp://docs.openstack.org/developer/swiR/admin_guide.html#cluster-‐telemetry-‐and-‐monitoring
– CephをNagiosで見ているが割り当てができていない • 結果、ユーザ側からのモニタリングができていないと気づいた
– Ichinga, MicroStrategy
42
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Tools & Monitoring 3/7
n Ops Ques8ons (Stackoverflow for OpenStack) – ask.openstack.org
• 現在管理者がいないがボランティアメンバがいる • Founda8onが主体となって管理者を雇ってもらいたい • 情報が足りなかったり古い回答が来るとの意見も
– リポジトリベースのナレッジ(Wiki等)を拡充させる – Ops MLへの参加の呼びかけ – 役に立たなくなった情報をどう管理するか
• 投票や回答への評価などの制度を設けてはとの意見も – モチベーションとしてATCのようなサミット参加への優遇や旅費の補助な
どを検討してはどうかとの意見
n Tenant clean up / evacua8on tool – ospurge (hUps://github.com/stackforge/ospurge) – Scrubber (HP)
43
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Tools & Monitoring 4/7
n Metering and billing – Talligent (hUp://talligent.com/) – CloudkiUyが将来有望? (hUps://github.com/stackforge/cloudkiUy)
– Pushback, chargeback, showback
n Valida8on following update or install – Tempest?
• Refstackはsetup+外部からTempest動かす機能がある – Jenkinsと自作のテストツールでAPI試験をしてる参加者も
n SLA – 99.5% ~ 99.95%ぐらいの可用性が求められている
44
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Tools & Monitoring 5/7
n Workflows – Mistral (hUps://wiki.openstack.org/wiki/Mistral) – Reparo
• タスクフローベースで壊れたマシンのHWの修復を自動化する
n Repository for ops tools in github – hUps://github.com/osops
n Backup – Truku (hUps://insights.ubuntu.com/2015/08/04/introducing-‐turku-‐cloud-‐friendly-‐backups-‐for-‐your-‐infrastructure/)
– Freezer (hUps://github.com/stackforge/freezer)
45
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Tools & Monitoring 6/7
n Log & Event aggrega8on – Monasca
• hUps://wiki.openstack.org/wiki/Monasca/Logging • hUps://wiki.openstack.org/wiki/Monasca/Events
– Elas8csearch & Kibana • Kiabanaではイベントが起きる前に検知ができない
– Incident.MOOGを使ってるとの意見も • hUp://pages.moogsoR.com/06-‐03-‐15-‐Webinar-‐OpenStack-‐Cloud-‐on-‐demand.html
n What’s your “Cloud watch” alterna8ve for OpenStack – Ichinga, Monasca, Nagios
46
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Tools & Monitoring 7/7
n Scale/ load tes8ng – Rally
n Anybody doing API throUling / user limits? – Apigee (hUps://apigee.com/about/) – Repose (hUp://www.openrepose.org/)
n Anomaly detec8on – Skyline (hUps://github.com/etsy/skyline)
n Ops Tools & MonitoringのIRC Mee8ngはWed at 10:00 AM – 日本時間で木曜 0:00 – 参加者が少ないので時間調整中
47
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Prodoct WG*1 1/2
n User Story – hUps://drive.google.com/drive/u/0/folders/0BxtM4AiszlEyfm9UTW5LMEQ5cUhHbmFsSkd5WFNfdTMwVFIwRUM1TVFXSHhhWHl6VHlpRzg
n Rolling upgradeの状況 – hUps://docs.google.com/spreadsheets/d/1iT0XraW8ORGk2�1bJMigE6wWdKK6YgrNB4ishPOc1M/edit#gid=1668081475
– RPC互換のTracker/Planning追加が必要
n Cross-‐projectのmeta-‐dataを置く場所が必要 – Grafi�をGlanceの外に出す提案が必要 – やるときはOsloのPTLやCPLたちにフォローアップしてもらうとよ
い *1:hUps://etherpad.openstack.org/p/PAO-‐ops-‐product-‐wg
48
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Product WG 2/2
n Versioned object – CinderはLibertyでできそうだが、Oslo library側がMitakaに
なりそう
n Encrypted Storage – Data Security Standard(DSS)のためにcinderの機能や暗号
化を矯正させるためにgalnceのイメージのメタデータ、novaのenforcementの仕組みを入れることに取り組んでいる
n User Storyのtemplateがある – hUp://github.com/openstack/openstack-‐user-‐stories – 上記の配下に分類もつくろうとしている
49
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Feedback Session, Tokyo Planning*1 1/2
n 改善点 – 建設的な会議にするための改善案 • OpsやDevでもないヒトを呼ばないためにはどうする?
– 呼ばない(Ops Mid-‐cycle Working Sessionの開催?) – UnconferenceやOpenSpacesを行う
– セッションの重複をなくす – 日程をもっと早く決めて周知する – 開催場所を北アメリカ以外でも検討する – モデレータのタスクの改善 • 議論の中で出たアクションやワークを明記する • 情報共有の際には重要なポイントに絞って報告する
*1:hUps://etherpad.openstack.org/p/PAO-‐ops-‐feedback
50
Copyright © NTT Communica8ons Corpora8on. All right reserved.
参考:Unconferenceとは
n Unconference(OpenSpace Conference) – 参加者主導のミーティング – 従来のConferenceで行われていた参加料やスポンサープレゼ
ン、トップダウンで決められた内容を避ける目的がある – 会議のはじめに参加者でアジェンダを作成する – 1人のスピーカーがしゃべるよりもオープンディスカッションをメ
インに進める – 高度な知識や経験を持った参加者を加えるとよりよい議論にな
る
n 参考: – hUps://en.wikipedia.org/wiki/Unconference – hUp://blogs.itmedia.co.jp/zenkishimoto/2009/10/unconference-‐c0.html
51
Copyright © NTT Communica8ons Corpora8on. All right reserved.
Feedback Session, Tokyo Planning 2/2
n 次回に向けて – War stories • 〜20分プレゼン + Breakoutのディスカッション
– Lightning Talk を2日する – 初のセッションをで話す内容をみんなで選ぶ • 今回の 初にBurning issuesはよかったとの意見も • 話した内容をスケジュールにFBする
– 聞きたいセッション • ベストプラクティス、Large deployment, Networking • Upgrade, CMDB, Hypervisor, Infra Container, Logging, etc…
52