openstack ops mid-cycle meetup 参加報告

53
20158NTTコミュニケーションズ 技術開発部 OpenStack Ops MidCycle Meetup@PAO 参加報告 Copyright © NTT Communica8ons Corpora8on. All right reserved.

Upload: ntt-communications-technology-development

Post on 12-Apr-2017

1.285 views

Category:

Technology


5 download

TRANSCRIPT

Page 1: OpenStack Ops Mid-cycle Meetup 参加報告

2015年8月  NTTコミュニケーションズ  技術開発部

OpenStack  Ops  Mid-­‐Cycle  Meetup@PAO  参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Page 2: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Ops  Meetupとは?

n OpenStack  Operators  Meetup(通称:Ops  Meetup)  クラウドの運用者が集まるイベントであり、運用者(Ops)同士のベストプラクティスやアイデアの意見交換、運用者の視点から開発者へのフィードバックを行う  

n 次の3つを目的としてディスカッションやプレゼンテーション形式で話し合いが行われる  1.  OpenStackの運用中に発生した問題へのフィードバックの収集と、コ

ミュニティへの共有  2.  運用者たちがベストプラクティスやアーキテクチャについてお互いに情

報交換が出来る体制を作る  3.  クラウド運用者からの建設的/積極的な関わりあいを増やす  

n  開催時期  •  OpenStack  SummitのDesign  summit開催中の数日  •  SummitとSummitの間(Mid-­‐cycle)で数日  

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

1

Page 3: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

今回のイベント概要

n イベント名:OpenStack  Ops  Mid-­‐Cycle  Meetup  n 日時:2015年8月18日、19日

n 場所:米国:パロアルト(HP,  GoDaddyがスポンサー)  n 主催:OpenStack  Founda8on

n 参加者:2日で195名(登録は305名)  n  参加者の多くは西海岸とオースティン  n  ヨーロッパから数名とアジアからはNTTグループの5名  n  構成はOps、PTL6〜7名(Keystone,  SwiR,  Cinder,  etc)、ATC二十数名(Coreが

数名)  

n 参加目的:OpenStackを活用している企業の運用者が集まり、各社の運用方法の情報共有やOpenStackの開発者にフィードバックを提言していく会議体であり、今後のクラウド運用のノウハウや情報を収集するため  

n 備考:議事録はEtherpad*1で公開中

*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐meetup

2

Page 4: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

⾃自⼰己紹介

•  三井貴之(みついたかゆき)  •  H27年NTT  COM入社  •  技術開発部 クラウドコア  OpenStackチーム  •  学生時代にアルバイトやフリーランスでソフト

ウェア開発を経験  •  趣味  – ゴルフ  – 海外ドラマ  

3

Page 5: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

⾃自⼰己紹介

u 氏名:  •  小倉真人  (おぐらまひと,  Mahito  OGURA)  

u 所属:  •  NTTコミュニケーションズ 技術開発部  

•  OpenStackの調査  /  開発  /  人材育成に従事  u 経歴:  •  2009  –  2010:NTTコムウェア入社、Eucalyptusの検証  •  2010  –  2012:仮想化基盤(KVM)の監視  /  デプロイ  

               効率化の検証  •  2012  –  2013:Cassandra,  HBase,  MongoDBの検証  •  2013  –  2014:Hadoop基盤の自動構築検証  •  2014  –  現在:10月に人事異動で現職へ  

4

Page 6: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

OpenStack  Ops  Mid-­‐Cycle  Meetup@PAO  1日目

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

5

Page 7: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

スケジュール(1⽇日⽬目)*1

8/18  Tue Med  II Med  III Salon  A Salon  B Bacchus

9:00  -­‐  10:00 Registra8on

10:00  -­‐  10:30 Introduc8on

10:30  -­‐  11:15 Burning  Issues

11:15  -­‐  11:55 Hypervisor  Tuning

11:55  -­‐  12:05 Breakout  Explain

12:05  -­‐  13:30 Lunch

13:30  -­‐  15:00 Large    Deployments  Team  

Burning  Issues

Logging  WG

Upgrades  WG

Ops  Guide  Fixing

15:00  -­‐  15:30 Coffee

15:30  -­‐  16:00 Breakout  Reports

16:00  -­‐  17:00 Using  Containers  for    Deployment

17:00  -­‐  18:00 Lightning  Talks

*1:hUps://goo.gl/qOQfFs

6

Page 8: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Burning  Issues  *1

² 概要  –  運用経験から得られた修正すべき点などを共有・議論  – Moderator:  Ulf  

n 内容  –  Neutron  –  キャパシティマネジメント  –  Ceilometer  –  RabbitMQ  –  KeyStone  –  SOC  コンプライアンス  –  トラブルシューティング  –  テスト  

*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐burning-­‐issues

7

Page 9: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Burning  Issues  Neutron    

n バグの報告  –  Kiloのdhcp  agentの問題で、テナントがfipをロスト  –  L2,L3  agentを再起動すると、すべてのテナントのルータと

コンピュートノードがフラッシュされる  •  Kiloにはパッチなし。Libertyは修正予定  

–  HA  routerのL2  popula8onにバグあり  n トラブルシューティングが困難  –  ドキュメント不足    –  いい解析ツールがない(今はtcpdump)  

n ネットワークモデルのアンケート  –  Linux  bridge  半数  –  Open  vswitch 半数  –  Contrail 少数

8

Page 10: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Burning  Issues  キャパシティマネジメント  

n Quotas  – ドメインごとに定義  – グローバルで定義  – Flavor/azで定義  – Novaのroot  diskと一時ディスクにも欲しい  •  Vcpuとvmemoryにはある  •  Blueprint,  hUps://blueprints.launchpad.net/nova/+spec/root-­‐and-­‐ephemeral-­‐disk-­‐quota)  

– Neutron  networkのport数  

n EbayではアセットをCMDBで管理  

9

Page 11: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Burning  Issues  Ceilometer  1/2  

n ユーザ関心  – 使ってみたい:  一人  – 諦めた  :  数人  – 関心なし:  一人  –  grep  :  数人  

n ユースケース  – 監査証跡  – メータリング  – チャージバック/ショーバック  

•  VerisignはkibanaとElas8csearchを使ってチャージバックを構築し始めた  

•  eBayは別の方法ですでに実現している  

10

Page 12: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

n 主なgapや問題点  – Mongo  

•  Influxdbや他のプロプライエタリDBに切り替えている人も存在  

–  パフォーマンス  –  安定性  –  機能の理解に時間がかかる  

•  フルタイムエンジニアが7ヶ月  

n スケール  –  135コンピュート  :  1Ceilometer  –  Azごとに1000まで  (プロプライエタリDB使用)  

Burning  Issues  Ceilometer  2/2  

11

Page 13: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Burning  Issues  RabbitMQ  1/2

n Rabbit  teamによるinstall/configガイドが発表  –  Vancouverで告知  –  OpenStackに特化したドキュメントをrabbitmq.comに載せ

ることを計画中  •  故障や分割時からの復旧  •  動作中のクラスタでupgradeを行った時の影響    

n Rabbitの開発はgithubに移行  n Kiloでもnova-­‐computeでrabbit再起動にいくつかの問

題が見られる  n heartbeatはoslo  messagingにあってバックポート可能  n  Junoと 新のoslo.messagingは動作良好  n LBを使う/わないのメリット・デメリットをOpsで議論した

い  

12

Page 14: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Burning  Issues  RabbitMQ  2/2  今後の予定

n 3.6.0リリース  – 2015年10  or  11月  – オペレーション改善にフォーカス  – クラスタのプロビジョニングが容易に  •  2タイプのプラグインが存在  •  Chef/puppet/その他のモジュールをサポート  

– オペレーション指向のコマンドがrabbitmqctlに  n 3.7.0リリース    – 2016年4  or  5月  – Pluggable  logging  バックエンド  – Pluggable  クラスタリングメカニズム  

13

Page 15: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Burning  Issues  Keystone  1/2

n  主に権限について議論  –  VMがどのHVにいるのかはadminのみが知る  

•  仕様  –  AdminAはフルアクセスできるが、AdminBはそうではないネットワークが

欲しい  –  ホワイトリストのユーザだけがCRUD可能  –  A,Cユーザはフルアクセスできるが、BユーザはRead  Only  –  VMに特定の権限  

•  別テナントのswiRコンテナにアクセス可能  –  Adminは何でもできる  

•  様々な独自roleやポリシーを使って運用しているところもある  •  Admin+extraの権限を提案。E.g.  プロジェクトの削除にはAdmin+deleteの権限が

必要  •  ロールのアサインを制御できるadmin-­‐nessな権限  •  V3では粒度の細かいコントロールをサポート  

–  特定のロールにread-­‐onlyアクセスを許可する等  

–  Novaのpolicy.jsonで、別テナントへのアクセス可能に関する設定が無視  •  Libertyでは修正済み  

–  Libertyのkeystoneでは試験的に中央集権されたポリシーを持つ  

14

Page 16: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Burning  Issues  Keystone  2/2

n スケーリング  – 並列に多くの認証リクエストが来た時に認証時間が

長くなる  •  400の同時リクエスト時にはレスポンスに14秒かかる  •  トークンの認証が遅ければすべてのサービスが遅くなる  •  トークンの破棄についても議論していきたい  

15

Page 17: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Burning  Issues  SOC  /  コンプライアンス

n アクセス/ログイベント  – だれがいつ作ったかを知りたい  –  CADF(Cloud  Audi8ng  Data  Federa8on)  

•  顧客が監査機能を維持できるようにするために、クラウドプロバイダーが提供する標準化された監査データ  

•  データを格納するバックエンドが必要  –  Logstash(ELK)  –  Ceilometer  

n ユーザ認証に連続で失敗した場合にロックアウトしたい  –  SQLドライバー以外を使えばできる(LDAP、IPA、AD)  –  Keystoneチームにウイスキーを与えれば…  

n Audit  keystonemiddlewawre  – 開発は終了  

16

Page 18: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Burning  Issues  トラブルシューティング

n 以下のトラブルシューティングが困難  –  “OpenStackが遅い”  

•  どうやってパフォーマンスの解析や問題点を発見するか  –  Datadog(cloud  monitoring  as  a  service)  –  Icinga(Open  Source  Enterprise  Monitoring)はこの用途には使えなかった  

–  “VMが作れない”  –  ロードバランサ  –  DNS解決  –  UDPとマルチキャスト  –  “no  valid  host  found”  

n 中央でログ収集  –  Fuel-­‐plugin-­‐ima-­‐collector  –  ELK  

n  Correla8on  engine  –  既知のイベントに関しては自動的にトラブルシューティング  

17

Page 19: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Burning  Issues  testing/validation

n APIテスト、interoperabilityテスト  – RefStack  

n パフォーマンステスト  – Rally  

n HAテスト  – Cloud99  

18

Page 20: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Hypervisor  Tuning*1  1/5

²  概要  –  ハイパーバイザーのチューニングに関するベストプラクティスの共有・議

論  –  Moderators:  Joe  Topjian    

n  チューニングテスト  –  DaCapoは良いツール  –  Disk  IOテスト  

•  FIO  –  70/30  tes8ng  at  8k  –  レイテンシを見ている(スループットではない)  –  Ansibleを使って複数VMで同時に実行  

•  Iometer  –  シングル/クラスタ用のIO計測ツール  

–  共通のテスト環境のリセット方法が欲しい  •  キャッシュなどが再テストを邪魔する  

–  CBTOOL  (hUps://github.com/ibmcb/cbtool)  –  PHORONIX  TEST  SUITE  (hUp://www.phoronix-­‐test-­‐suite.com/)  –  PerfKitBenchmarker  (hUps://github.com/GoogleCloudPlarorm/

PerfKitBenchmarker)  

*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐hypervisor-­‐tuning  

19

Page 21: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Hypervisor  Tuning  2/5  

n  どのカーネルスケジューラを使っているか  –  Deadline  –  Noopはホストスケジューラと競合しない  

n  Network  –  MTU  

•  1550  •  8000  (いくつかのレガシーネットワークのため)  •  Kiloではneutronのconfigに書いたmtuが反映されない場合あり  

–  プロバイダーネットのMTUをより大きな値にするといいかもしれない  

–  Nic  bonding  •  LACPがデファクトスタンダード  •  再起動時、50回に1回、LACPではなくラウンドロビンとして上がってくる  

n  cpu_mode  –  Passthrough  

•  Upgrade時にいくつかの問題が発生  –  Apparmor  のバグ  –  レジュームできない  

–  Host-­‐model  •  HVノードをスワップするときに、スワップ先のHVにCPU  extesionsがなければvmが立ち上

がらない  

20

Page 22: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Hypervisor  Tuning  3/5

n  Intel  KVM  EPT  –  6%スループットが改善  –  hUp://openstack-­‐in-­‐produc8on.blogspot.fr/2015/08/ept-­‐and-­‐ksm-­‐for-­‐

high-­‐throughput.html  –  バグでホストクラッシュを起こすときもある  

n  KSM  –  各コンピュートノードで20%メモリ節約  –  hUp://openstack-­‐in-­‐produc8on.blogspot.fr/2015/08/ept-­‐and-­‐ksm-­‐for-­‐

high-­‐throughput.html    –  Javaを重くする  –  0.94%スループットが改善  

n  NUMA  –  より効率UP  –  hUp://openstack-­‐in-­‐produc8on.blogspot.fr/2015/08/numa-­‐and-­‐cpu-­‐

pinning-­‐in-­‐high-­‐throughput.html    –  Random  numa  cell  selec8onの時すべてのnuma  cellが使われない場合が

ある  •  修正済み  

21

Page 23: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Hypervisor  Tuning  4/5

n  Iptablesの設定  –  conntrack_max  

•  512k  •  256k  with  hash  table  size  of  16k  •  256k  with  hash  table  size  of  64k    •  Ubuntuのデフォの64kでは足りなくなった  

n  CPU  overcommit  (デフォルトは16:1)  –  1.2:1  –  2:1  –  4:1  –  16:1(ramのほうが先に限界がきて実際は3.5:1程度)  

n  Memory  overcommit  –  10%は良くない場合も  

•  OOM  killerが目覚める!真っ先にVMをkill  •  RAM  Hardwareの問題でOOM  killerが走ることも  •  VMマイグレーションが失敗する  

–  15%で問題なしのところも  

22

Page 24: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

n ローカルストレージ  –  メモリーのオーバーコミットにSSD使用  –  キャッシュにZoL  –  bcache  

n VM  Swappinessは頻度をすくなるするかoffに  n ひとつのHVでホストするVMの数はだいたい20-­‐25  n HV一つに割り当てるRAM  –  2-­‐8G  –  テナントに合計いくつ、とかで割り当てる場合も  

n ライブマイグレーション  –  Post-­‐copy  migra8on  :  10人程度が注目  –  XenServerではマイグレーション中にVMがかなり遅く  –  Cut  overの時に数秒ネットワークが途切れる  

Hypervisor  Tuning  5/5

23

Page 25: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Logging  WG*1

²  概要  •  ロギングに関する情報やベストプラクティスを共有  

n  LoggingはELK(elas8csearch  +  Logstash  +  Kibana)が主流  –  ELK  stackを使ったモニタリングが現在のベストプラクティスと言われていた  –  ログコレクタとしてSpark,  Splunk,  Fluentd,  Rsyslog,  Beaverの利用者も存在  –  Infraチームのダッシュボードはgarafyamlを使ってGrafanaに出力してる  

n  Opsのツールに関するレポジトリの紹介  –  OSOps:hUps://github.com/osops/  –  Infraチーム:hUp://git.openstack.org/cgit/openstack-­‐infra  –  RackspaceはOSAD(OpenStack  Ansible  Deployment)にコントリビュート  

n  Metricsはstatsd,  collectdとダッシュボードを組み合わせている  n  Oslo.logのバグ紹介  n  Blueprintについての議論  

–  return-­‐request-­‐id  for  API  calls  •  リクエストを追いかける際に役立つが、考慮しなければいけないケースがあるので、

Blueprintで引き続き議論を行う  –  Error  Code  Spec  

•  エラー原因の特定に効果的ではあるが導入が非常に難しいとの声が多数  

*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐logging

24

Page 26: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Large  Deployment  WG*1

²  概要  –  大規模環境構築に関連した議論  

n  Mul8  node  /  mul8  region  –  Ceilometerclientがregion-­‐nameを無視(

hUps://bugs.launchpad.net/python-­‐ceilometerclient/+bug/1439553)  –  Horizon,  keystone,  swiRはregion共通  –  Nova,neutron,glance,cinder,etc..はregion毎に  

n  共通の定義が必要  regions/availability  zones/cells/etc.  –  hUps://wiki.openstack.org/wiki/OpenStackTaxonomy  

n  Cells  –  インターフェイスと外部イベントのアタッチ/デタッチをサポートする

review(hUps://review.openstack.org/#/c/215459/)  –  Compatは異なるバージョンのcellの動作をサポート  

•  公式ではサポートしていないが、Icehouse  (API)  <-­‐>  Juno  (Compute)が動く  •  Kill(api)  <-­‐>  juno(compute)はバグで動かない  

n  Novaclientはpaginateに未対応、vmが一定数を超えたらnova  listに表示されない  –  Neutronも同じ  

*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐logging

25

Page 27: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Upgrades  WG*1

² 概要  –  OpenStackのバージョンアップに関するWG  –  Moderator:  Will  Auld(intel),  Clayton  O'Neill(TWC)  –  参加者:  約15人  

n  Linux  bridgeはneutronダウン時も動くが、OVSは動かない  n 使用バージョン  

•  Juno:  5,  kilo:3,  それ以前:2    n 多くの人は同じアプローチでupgradeを行っている  

–  ツールはそれぞれで作成  n 不要なconfigファイルを探すツールが欲しい  n  Rabbitの変更がkiloへのアップグレードの主な理由  n  Kollaやコンテナがupgradeを簡単にしてくれないか興味津々  n  Lazy  DB  マイグレーションやリリース間のRPCについても議論  

*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐upgrades

26

Page 28: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Ops-‐‑‒guide-‐‑‒fixing  WG*1

² 概要  –  Ops  Guide(hUp://docs.openstack.org/ops/)  の修正  – Moderators:  JJ,  Joe  Topjian  –  参加者:  約10  

n Ops  GuideをRSTに変換中(Mitakaリリースまでには終わる…?)  •  Guideが古いので、みんなで修正しよう!  

n ニュートロンのトラブルシューティングガイドが紹介  –  hUp://docs.openstack.org/openstack-­‐ops/content/network_troubleshoo8ng.html  

–  hUp://docs.openstack.org/kilo/install-­‐guide/install/apt/content/figures/1/a/common/figures/installguidearch-­‐neutron-­‐networks.png  

 *1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐ops-­‐guide-­‐fixing

27

Page 29: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Using  Containers  for  Deployment*1

²  概要  –  コンテナを使ったデプロイに関するアイディアやベストプラクティスの共有  

n  約25人がコンテナを使用  –  baremetal  :24人  –  vms  :  16人  

n  使用ツール  –  LXC:  15,  Docker:  10,  Mesos  :  0,  k8s:  0  

n  管理ツール  –  Juju,  vagrant,  OSAD  

n  設定ファイル  –  コンテナの数だけ設定ファイルが必要  –  Bind  mountで/etcにある  –  Vmより管理が簡単  

n  Iscsiに問題あり  –  Rackspaceはbaremetalで  –  Kollaだと正常に動く  

n  コンテナのメモリサイズがホストのメモリサイズと同じ  –  rabbitMQがホストのメモリサイズを使ってメモリ確保をしてしまう  –  rabbitMQの設定で制限する必要あり  

n  Magnumを使っている人はまだいない  

*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐containers-­‐for-­‐deployment  

28

Page 30: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Lightning  Talks1.  Ryan  Moats,  IBM,  instrumen8on  of  neutron,

hUps://etherpad.openstack.org/p/neutron-­‐instrumenta8on  2.  Steve  Pearson,  CMDBの紹介  3.  Clayton  O’Neill,  Time  Warner  Cable,  kilo  upgradeのissue,  

hUps://docs.google.com/presenta8on/d/1y7xfol4IyoM4irvSapF2rXkxijzSOyjHohMBTIWiBB4/edit?usp=sharing  

4.  市川 俊一,  NTT  SIC,  ユースケースとVMHAプロジェクト(MASAKARI)の紹介,  hUp://www.slideshare.net/toshikazu_org/openstack-­‐ops-­‐meetup-­‐palo-­‐alto-­‐lt  

5.  室井 雅仁,  NTT  SIC,  Matchaの紹介  6.  MaUhew  Thode,  Gentoo,  OpenStackにおけるgenUo  package  7.  Tim  Cuddy,  HP,  データアグリゲーション,  

hUps://www.youtube.com/watch?v=EWqRMyCptDo&list=PL2rC-­‐8e38bUURV8gCzH7NvBY0hj1FoFFe&index=54  

8.  Piet  Kruithof,  PTL  OpenStack  UX,  UX  Projectの紹介,  hUps://docs.google.com/presenta8on/d/1FbTQI-­‐FfEkj-­‐9x2tRpt11Sef1-­‐E-­‐HUfv3_0CywKnfxg/edit?usp=sharing  

9.  JJ  Asghar,  Chefの人,  chefを動かす話  10.  James  Blair,  Shadeというシンプルなopenstackクライアントのライブラリ,  

hUp://docs.openstack.org/infra/shade/  11.  John  Dickinson,  プロジェクトのコントリビュートの様子を可視化,  hUps://

github.com/notmyname/git-­‐stats  

29

Page 31: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

OpenStack  Ops  Mid-­‐Cycle  Meetup@PAO  2日目

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

30

Page 32: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

スケジュール(2⽇日⽬目)*1

8/19  Wed Med  II Med  III Salon  A Bacchus

9:00  -­‐  09:45 CMDB:  use  cases

9:45  -­‐  10:30 Deployment  Tips

10:30  -­‐  11:15 What  network  model  are  you  using?  Are  you  happy?

11:15  -­‐  11:30 Coffee

11:30  -­‐  12:15 User  CommiUee  Discussion

12:15  -­‐  12:20 Breakout  Explain

12:20  -­‐  13:30 Lunch

13:30  -­‐  15:00 Tools  and  Monitoring Product  WG Packaging Ops  Tags  Team

15:00  -­‐  15:30 Coffee

15:30  -­‐  16:00 Breakout  Reports

16:00  -­‐  17:00 Feedback  Session,  Tokyo  Planning

*1:hUps://goo.gl/qOQfFs

31

Page 33: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

CMDB*1  1/2n  背景:  

バンクーバーのOpsサミットでHPとeBayがCMDBに関する 初のBlueprintの取り組みを開始  

n  会場内のアンケートでは自前のCMDBを使っているユーザは10名程度

n  何の目的でCMDBを使っているのか

–  既存環境の関係性の記録(server,  cloud,  networks,  topology,  security  zone.  etc)

–  構成情報の管理

–  レポート(キャパシティプランニング、設定が一致しているか、部門への投資)の作成

–  OpenStackクラスタ構築・復旧・スケールアウトの自動化のため

–  監査対応・歴史の管理(ホストOSを入れなおしなどを行った場合に監査対応で過去のホスト名が必要になったりするため、過去のホスト名なども追いたい)

*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐cmdb

32

Page 34: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

CMDB  2/2n  実装のアイデア  

–  RDF(Resource  Descrip8on  Framework)での実装(REST  APIや専用のクエリの実装がすでに存在してる  

n  今回の成果  

– 実装の参考となるベストプラクティスの収集  

– 実装方法のアイデア  

•  既存ソフトウェアを使う方法と  

•  新しいPJを立ち上げるための議論  

–  CMDBを実装するにあたり既存のPJに与える影響の影響  

•  Ironicはすでに同様の機能を持っており、追加機能も開発中  

n  FeedBackではGeneralセッションじゃなくてよかったのではという声が多数  

33

Page 35: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Deployment  Tips*1  1/5

n Database  Setup  •  Galera/replica8onが半数(他MySQL?)  •  GaleraをDC跨ぎで使っているのは3名  

–  Arbitratorを使ってSplit  brain対策をしている  – パフォーマンスはDC間のラインに依存  

»  300kmを10g接続でKeystoneオンリーなら問題なし  

•  Galeraに入れてるデータ  –  Keystone  –  Designate  –  Horizonのセッションデータ  –  Glance(NovaとCinderはリージョンごとに構築)

*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐deployment-­‐8ps  

34

Page 36: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Deployment  Tips  2/5

n Deployment  tools  •  Ansible  /  juju  /  chef/  cfengine  /  puppet  /  bcfg2  

•  Ansibleオンリーは数名でAnsible  +  別ツールが多い  •  Puppet、Chefともにコミュニティへの参加を募っている  

n RabbitMQ  •  サイレント故障が起きたりする  •  LB経由のアクセスはやめた方がいい?  

•  大丈夫派  –  Kiloだと直ってるっぽいがそれ以外はおすすめしない  –  OpenStack以外のサービスで使っているが問題なく動いている  

•  問題あり派  –  Kiloでも問題は直ってないと思っているが確認はしていない  –  library(Konbu)が原因みたいだがbugではなく仕様の可能性がある  –  rabbitのmul8-­‐nodeを使っているがhaproxyは使わずにnova.confでrabbit  

hostを直接設定してる  

35

Page 37: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Deployment  Tips  3/5

n OVS?  LinuxBridge  •  OVSの代わりにLinux  bridgeを使ってるとの意見が多数  

•  理由 –  OVSのデバッグが難しい/OVSが複雑 –  Linux  Bridgeに対して以前の経験や知見があるから –  “first  class  ci8zen  in  linux  network  stack” –  OVSのupstreamのリリースがLinux  kernelのリリースとラグがある –  OVSのクラッシュでFlowsが消えて、Compute  Nodeの再起動が必要になった

•  Libertyに向けてOVSやテナントNWのように動くシンプルなLinux  Bridgeの使い方のガイドを計画中 –  OVSからのマイグレーション方法を含めてドキュメントが足りてないので充実

させる予定

•  ARP  spoofing  protec8on  for  Linux  Bridge  agent –  hUps://review.openstack.org/#/c/209705/

–  使っているOVSのバージョン •  2.3.0,  2.0.*は問題ない  •  2.1.xは問題があるので今すぐUpgradeしたほうがいい

36

Page 38: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Deployment  Tips  4/5

n  Package  •  ソースコードから直接構築 •  pipかOSごとに用意されているパッケージ •  giRwrap/anvil/Omnibus    

 n  Load  Balancer  

•  haproxyが50%(便利、稼働中、コストが安く済む) •  HW製品が50%() •  負荷分散目的 12名 •  HAを利用してる 13名  

•  Pacemaker/Corosync  keepalived    •  VIPで運用しているとX-­‐Forwarded-­‐Forに対応していないサービ

ス  (e.g  Heat)がうまく動かなかったりする問題がある

•  SSL  offloadを使うとjuno以降のclientが失敗する

37

Page 39: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Deployment  Tips  5/5

n  Object  Storage  •  SwiRはOpenStackのデプロイの中で も安定している +2  •  SwiR-­‐proxyへのアクセス方法を複数設けている  

•  開発者管理のクラウドからのアクセス  •  Apacheのmod_proxy経由(ユーザ用)  •  エンドポイントへの直接アクセス(Cloud内部からのアクセス限定)  

•  新しいサイトをSwiR  global  clusterに追加するときは、初回はfull  weightになるまで追加してはいけない  

•  swfit-­‐proxyのためにPublic  VIPを分けている(Junoで実現?)  •  Time  werner  cableではIcehouseから問題なく動いている  •  havanaから動いていたがjunoで壊れたという意見も  

–  今のところ原因不明で調査中とのこと  •  利用しているClient  

•  apiを直接  /  python-­‐swiRclient  /  openstack-­‐client  /  pkgcloud  

n  その他  •  人気のTipsについてはOperators  docに記載をする予定  •  nginxとmod_wsgiのドキュメントがイケてない  •  Admin用のAPIサーバやRead  only  APIサーバ  

•  CERNではCeilometer用にRead  onlyサーバを建てている  

38

Page 40: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

User  Committee  Discussion*1  1/2

n  現在のUser  Surveyについてどう思うか  •  生データがないのでよくわからない  •  統計データがほしい(e.g.  KVMを使ってる割合)  •  長くて退屈なアンケートはやめるべき  

•  hUps://www.openstack.org/user-­‐survey/AboutYou  

n  デプロイに関する情報をどう共有するか  •  会社ごとにユーザグループを作りAdminを決める  

•  CTL(“Company  team  lead”)?  •  各社のクラウドについて話す際はCTLが起点になる  •  ATCのように問題解決に協力することが期待される  

•  nova.confをmd5付きで公開する  

n  Ceph-­‐brag  style  tool  •  Refstack(  hUp://refstack.net)    •  DefCoreのmid-­‐cycleでRefStackの実行結果のリンクが公開できるか話

し合われたことがある  *1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐user-­‐commiUtee

39

Page 41: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

User  Committee  Discussion  2/2

n  Product  WG/feedback  loop  –  WGにどのように働いて欲しいか?  

•  REF-­‐bugスタイルの機能要求  –  hUps://github.com/openstack/openstack-­‐user-­‐stories/blob/master/user-­‐story-­‐

template.rst  •  Ops  meetupの際に情報を提供してもらいたい  

n  Tags  Team  –  プロジェクトのページに何を載せるべきか  

•  テストの総計とその結果  •  adop8on  vs  maturity  

n  コミュニティ内のOpsの認知度向上について  –  Superuser  awardみたいにSuperops  awardを作る?  –  ATCのような仕組みを作る?(CTLのような)  

•  ATCになるにあたりCommit以外の方法があってもよいのでは?  •  DocsのBugやChefやPuppetみたいなところにコントリビュートする方法もある  

–  Opsを示すTシャツ、ステッカー、バッグを作る

40

Page 42: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Tools  and  Monitoring*1  1/7

n Capacity  planning  tool  –  Schedule  simulatorを利用  

•  異なるVMサイズやオーダー、フレバーで実行可能  •  キャパシティに何が起きるかをシミュレート可能  

n Rolling  reboot  /  Live  migra8on  /  defrag  – QEUMの脆弱性対策はglibcとqeumへのパッチ  

•  テナントへの通知は行う  •  コントロールプレーン上のサービスはリブートするが、  

データプレーンはテナントのハンドリングに任せている  –  Live  migra8onは運用上必須  –  CVEはHypervisorのUpgradeに使ってる  –  KspliceはKernel  upgrade時にもrebootしなくてよい  

*1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐tools-­‐mon  

41

Page 43: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Tools  &  Monitoring  2/7

n Network  monitoring  tool  –  Network  node  manager  (NNM)  –  OpenStack標準の機能  

•  モニタリングに加えてデバッグ機能が欲しいとの意見  – MonascaはNetworkingモニタの機能を幾つか持っている  

n Object  Storage  の監視  –  Recon  

•  hUp://docs.openstack.org/developer/swiR/admin_guide.html#cluster-­‐telemetry-­‐and-­‐monitoring  

–  CephをNagiosで見ているが割り当てができていない  •  結果、ユーザ側からのモニタリングができていないと気づいた  

–  Ichinga,  MicroStrategy

42

Page 44: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Tools  &  Monitoring  3/7

n Ops  Ques8ons  (Stackoverflow  for  OpenStack)  –  ask.openstack.org  

•  現在管理者がいないがボランティアメンバがいる  •  Founda8onが主体となって管理者を雇ってもらいたい  •  情報が足りなかったり古い回答が来るとの意見も  

–  リポジトリベースのナレッジ(Wiki等)を拡充させる  –  Ops  MLへの参加の呼びかけ  –  役に立たなくなった情報をどう管理するか  

•  投票や回答への評価などの制度を設けてはとの意見も –  モチベーションとしてATCのようなサミット参加への優遇や旅費の補助な

どを検討してはどうかとの意見  

n Tenant  clean  up  /  evacua8on  tool  –  ospurge  (hUps://github.com/stackforge/ospurge)  –  Scrubber  (HP)  

43

Page 45: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Tools  &  Monitoring  4/7

n Metering  and  billing  –  Talligent  (hUp://talligent.com/)  –  CloudkiUyが将来有望?    (hUps://github.com/stackforge/cloudkiUy)  

–  Pushback,  chargeback,  showback    

n Valida8on  following  update  or  install  –  Tempest?  

•  Refstackはsetup+外部からTempest動かす機能がある  –  Jenkinsと自作のテストツールでAPI試験をしてる参加者も  

n SLA  –  99.5%  ~  99.95%ぐらいの可用性が求められている  

44

Page 46: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Tools  &  Monitoring  5/7

n Workflows  – Mistral  (hUps://wiki.openstack.org/wiki/Mistral)  –  Reparo  

•  タスクフローベースで壊れたマシンのHWの修復を自動化する  

n Repository  for  ops  tools  in  github  –  hUps://github.com/osops  

n Backup  –  Truku  (hUps://insights.ubuntu.com/2015/08/04/introducing-­‐turku-­‐cloud-­‐friendly-­‐backups-­‐for-­‐your-­‐infrastructure/)  

–  Freezer  (hUps://github.com/stackforge/freezer)  

45

Page 47: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Tools  &  Monitoring  6/7

n Log  &  Event  aggrega8on  – Monasca  

•  hUps://wiki.openstack.org/wiki/Monasca/Logging  •  hUps://wiki.openstack.org/wiki/Monasca/Events  

–  Elas8csearch  &  Kibana  •  Kiabanaではイベントが起きる前に検知ができない  

–   Incident.MOOGを使ってるとの意見も  •  hUp://pages.moogsoR.com/06-­‐03-­‐15-­‐Webinar-­‐OpenStack-­‐Cloud-­‐on-­‐demand.html  

n What’s  your  “Cloud  watch”  alterna8ve  for  OpenStack  –  Ichinga,  Monasca,  Nagios  

46

Page 48: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Tools  &  Monitoring  7/7

n  Scale/  load  tes8ng  –  Rally  

n  Anybody  doing  API  throUling  /  user  limits?  –  Apigee  (hUps://apigee.com/about/)  –  Repose  (hUp://www.openrepose.org/)  

n  Anomaly  detec8on  –  Skyline  (hUps://github.com/etsy/skyline)  

n Ops  Tools  &  MonitoringのIRC  Mee8ngはWed  at  10:00  AM  –  日本時間で木曜  0:00  –  参加者が少ないので時間調整中

47

Page 49: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Prodoct  WG*1  1/2

n  User  Story  –  hUps://drive.google.com/drive/u/0/folders/0BxtM4AiszlEyfm9UTW5LMEQ5cUhHbmFsSkd5WFNfdTMwVFIwRUM1TVFXSHhhWHl6VHlpRzg  

n  Rolling  upgradeの状況  –  hUps://docs.google.com/spreadsheets/d/1iT0XraW8ORGk2�1bJMigE6wWdKK6YgrNB4ishPOc1M/edit#gid=1668081475  

–  RPC互換のTracker/Planning追加が必要  

n  Cross-­‐projectのmeta-­‐dataを置く場所が必要  –  Grafi�をGlanceの外に出す提案が必要  –  やるときはOsloのPTLやCPLたちにフォローアップしてもらうとよ

い  *1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐product-­‐wg

48

Page 50: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Product  WG  2/2

n Versioned  object  –  CinderはLibertyでできそうだが、Oslo  library側がMitakaに

なりそう  

n Encrypted  Storage  –  Data  Security  Standard(DSS)のためにcinderの機能や暗号

化を矯正させるためにgalnceのイメージのメタデータ、novaのenforcementの仕組みを入れることに取り組んでいる  

 n User  Storyのtemplateがある  –  hUp://github.com/openstack/openstack-­‐user-­‐stories  –  上記の配下に分類もつくろうとしている

49

Page 51: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Feedback  Session,  Tokyo  Planning*1  1/2

n 改善点  – 建設的な会議にするための改善案  •  OpsやDevでもないヒトを呼ばないためにはどうする?  

– 呼ばない(Ops  Mid-­‐cycle  Working  Sessionの開催?)  –  UnconferenceやOpenSpacesを行う  

– セッションの重複をなくす  – 日程をもっと早く決めて周知する  – 開催場所を北アメリカ以外でも検討する  – モデレータのタスクの改善  •  議論の中で出たアクションやワークを明記する  •  情報共有の際には重要なポイントに絞って報告する  

 *1:hUps://etherpad.openstack.org/p/PAO-­‐ops-­‐feedback  

50

Page 52: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

参考:Unconferenceとは

n  Unconference(OpenSpace  Conference)  –  参加者主導のミーティング  –  従来のConferenceで行われていた参加料やスポンサープレゼ

ン、トップダウンで決められた内容を避ける目的がある  –  会議のはじめに参加者でアジェンダを作成する  –  1人のスピーカーがしゃべるよりもオープンディスカッションをメ

インに進める  –  高度な知識や経験を持った参加者を加えるとよりよい議論にな

る  

n 参考:  –  hUps://en.wikipedia.org/wiki/Unconference  –  hUp://blogs.itmedia.co.jp/zenkishimoto/2009/10/unconference-­‐c0.html  

51

Page 53: OpenStack Ops Mid-cycle Meetup 参加報告

Copyright  ©  NTT  Communica8ons  Corpora8on.  All  right  reserved.

Feedback  Session,  Tokyo  Planning  2/2

n 次回に向けて  – War  stories  •  〜20分プレゼン +  Breakoutのディスカッション  

– Lightning  Talk  を2日する  –  初のセッションをで話す内容をみんなで選ぶ  •  今回の 初にBurning  issuesはよかったとの意見も  •  話した内容をスケジュールにFBする  

– 聞きたいセッション  •  ベストプラクティス、Large  deployment,  Networking  •  Upgrade,  CMDB,  Hypervisor,  Infra  Container,  Logging,  etc…  

52