openstack ops mid-cycle meetup 参加報告

2015年8月 NTTコミュニケーションズ技術開発部

OpenStack Ops Mid-‐Cycle Meetup@PAO 参加報告

Copyright © NTT Communica8ons Corpora8on. All right reserved.


Ops Meetupとは？

n OpenStack Operators Meetup（通称：Ops Meetup）クラウドの運用者が集まるイベントであり、運用者（Ops）同士のベストプラクティスやアイデアの意見交換、運用者の視点から開発者へのフィードバックを行う

n 次の3つを目的としてディスカッションやプレゼンテーション形式で話し合いが行われる 1.  OpenStackの運用中に発生した問題へのフィードバックの収集と、コ

ミュニティへの共有 2.  運用者たちがベストプラクティスやアーキテクチャについてお互いに情

報交換が出来る体制を作る 3.  クラウド運用者からの建設的/積極的な関わりあいを増やす

n  開催時期 •  OpenStack SummitのDesign summit開催中の数日 •  SummitとSummitの間（Mid-‐cycle）で数日


1


今回のイベント概要

n イベント名：OpenStack Ops Mid-‐Cycle Meetup n 日時：2015年8月18日、19日

n 場所：米国：パロアルト（HP, GoDaddyがスポンサー） n 主催：OpenStack Founda8on

n 参加者：2日で195名（登録は305名） n  参加者の多くは西海岸とオースティン n  ヨーロッパから数名とアジアからはNTTグループの5名 n  構成はOps、PTL6〜７名（Keystone, SwiR, Cinder, etc）、ATC二十数名（Coreが

数名）

n 参加目的：OpenStackを活用している企業の運用者が集まり、各社の運用方法の情報共有やOpenStackの開発者にフィードバックを提言していく会議体であり、今後のクラウド運用のノウハウや情報を収集するため

n 備考：議事録はEtherpad*1で公開中

*1：hUps://etherpad.openstack.org/p/PAO-‐ops-‐meetup

2


⾃自⼰己紹介

•  三井貴之(みついたかゆき) •  H27年NTT COM入社 •  技術開発部クラウドコア OpenStackチーム •  学生時代にアルバイトやフリーランスでソフト

ウェア開発を経験 •  趣味 – ゴルフ – 海外ドラマ

3


⾃自⼰己紹介

u 氏名： •  小倉真人 (おぐらまひと, Mahito OGURA）

u 所属： •  NTTコミュニケーションズ技術開発部

•  OpenStackの調査 / 開発 / 人材育成に従事 u 経歴： •  2009 – 2010：NTTコムウェア入社、Eucalyptusの検証 •  2010 – 2012：仮想化基盤（KVM）の監視 / デプロイ

効率化の検証 •  2012 – 2013：Cassandra, HBase, MongoDBの検証 •  2013 – 2014：Hadoop基盤の自動構築検証 •  2014 – 現在：10月に人事異動で現職へ

4


OpenStack Ops Mid-‐Cycle Meetup@PAO １日目


5


スケジュール（1⽇日⽬目）*1

8/18 Tue Med II Med III Salon A Salon B Bacchus

9:00 -‐ 10:00 Registra8on

10:00 -‐ 10:30 Introduc8on

10:30 -‐ 11:15 Burning Issues

11:15 -‐ 11:55 Hypervisor Tuning

11:55 -‐ 12:05 Breakout Explain

12:05 -‐ 13:30 Lunch

13:30 -‐ 15:00 Large Deployments Team

Burning Issues

Logging WG

Upgrades WG

Ops Guide Fixing

15:00 -‐ 15:30 Coffee

15:30 -‐ 16:00 Breakout Reports

16:00 -‐ 17:00 Using Containers for Deployment

17:00 -‐ 18:00 Lightning Talks

*1：hUps://goo.gl/qOQfFs

6


Burning Issues *1

² 概要 –  運用経験から得られた修正すべき点などを共有・議論 – Moderator: Ulf

n 内容 –  Neutron –  キャパシティマネジメント –  Ceilometer –  RabbitMQ –  KeyStone –  SOC コンプライアンス –  トラブルシューティング –  テスト

*1：hUps://etherpad.openstack.org/p/PAO-‐ops-‐burning-‐issues

7


Burning Issues Neutron

n バグの報告 –  Kiloのdhcp agentの問題で、テナントがfipをロスト –  L2,L3 agentを再起動すると、すべてのテナントのルータと

コンピュートノードがフラッシュされる •  Kiloにはパッチなし。Libertyは修正予定

–  HA routerのL2 popula8onにバグあり n トラブルシューティングが困難 –  ドキュメント不足 –  いい解析ツールがない(今はtcpdump)

n ネットワークモデルのアンケート –  Linux bridge 半数 –  Open vswitch　半数 –  Contrail　少数

8


Burning Issues キャパシティマネジメント

n Quotas – ドメインごとに定義 – グローバルで定義 – Flavor/azで定義 – Novaのroot diskと一時ディスクにも欲しい •  Vcpuとvmemoryにはある •  Blueprint, hUps://blueprints.launchpad.net/nova/+spec/root-‐and-‐ephemeral-‐disk-‐quota)

– Neutron networkのport数

n EbayではアセットをCMDBで管理

9


Burning Issues Ceilometer 1/2

n ユーザ関心 – 使ってみたい: 一人 – 諦めた : 数人 – 関心なし: 一人 –  grep : 数人

n ユースケース – 監査証跡 – メータリング – チャージバック/ショーバック

•  VerisignはkibanaとElas8csearchを使ってチャージバックを構築し始めた

•  eBayは別の方法ですでに実現している

10


n 主なgapや問題点 – Mongo

•  Influxdbや他のプロプライエタリDBに切り替えている人も存在

–  パフォーマンス –  安定性 –  機能の理解に時間がかかる

•  フルタイムエンジニアが7ヶ月

n スケール –  135コンピュート : 1Ceilometer –  Azごとに1000まで (プロプライエタリDB使用)

Burning Issues Ceilometer 2/2

11


Burning Issues RabbitMQ 1/2

n Rabbit teamによるinstall/configガイドが発表 –  Vancouverで告知 –  OpenStackに特化したドキュメントをrabbitmq.comに載せ

ることを計画中 •  故障や分割時からの復旧 •  動作中のクラスタでupgradeを行った時の影響

n Rabbitの開発はgithubに移行 n Kiloでもnova-‐computeでrabbit再起動にいくつかの問

題が見られる n heartbeatはoslo messagingにあってバックポート可能 n  Junoと新のoslo.messagingは動作良好 n LBを使う/わないのメリット・デメリットをOpsで議論した

い

12


Burning Issues RabbitMQ 2/2 今後の予定

n 3.6.0リリース – 2015年10 or 11月 – オペレーション改善にフォーカス – クラスタのプロビジョニングが容易に •  2タイプのプラグインが存在 •  Chef/puppet/その他のモジュールをサポート

– オペレーション指向のコマンドがrabbitmqctlに n 3.7.0リリース – 2016年4 or 5月 – Pluggable logging バックエンド – Pluggable クラスタリングメカニズム

13


Burning Issues Keystone 1/2

n  主に権限について議論 –  VMがどのHVにいるのかはadminのみが知る

•  仕様 –  AdminAはフルアクセスできるが、AdminBはそうではないネットワークが

欲しい –  ホワイトリストのユーザだけがCRUD可能 –  A,Cユーザはフルアクセスできるが、BユーザはRead Onｌｙ –  VMに特定の権限

•  別テナントのswiRコンテナにアクセス可能 –  Adminは何でもできる

•  様々な独自roleやポリシーを使って運用しているところもある •  Admin+extraの権限を提案。E.g. プロジェクトの削除にはAdmin+deleteの権限が

必要 •  ロールのアサインを制御できるadmin-‐nessな権限 •  V3では粒度の細かいコントロールをサポート

–  特定のロールにread-‐onlyアクセスを許可する等

–  Novaのpolicy.jsonで、別テナントへのアクセス可能に関する設定が無視 •  Libertyでは修正済み

–  Libertyのkeystoneでは試験的に中央集権されたポリシーを持つ

14


Burning Issues Keystone 2/2

n スケーリング – 並列に多くの認証リクエストが来た時に認証時間が

長くなる •  400の同時リクエスト時にはレスポンスに14秒かかる •  トークンの認証が遅ければすべてのサービスが遅くなる •  トークンの破棄についても議論していきたい

15


Burning Issues SOC / コンプライアンス

n アクセス/ログイベント – だれがいつ作ったかを知りたい –  CADF(Cloud Audi8ng Data Federa8on)

•  顧客が監査機能を維持できるようにするために、クラウドプロバイダーが提供する標準化された監査データ

•  データを格納するバックエンドが必要 –  Logstash（ELK） –  Ceilometer

n ユーザ認証に連続で失敗した場合にロックアウトしたい –  SQLドライバー以外を使えばできる（LDAP、IPA、AD） –  Keystoneチームにウイスキーを与えれば…

n Audit keystonemiddlewawre – 開発は終了

16


Burning Issues トラブルシューティング

n 以下のトラブルシューティングが困難 –  “OpenStackが遅い”

•  どうやってパフォーマンスの解析や問題点を発見するか –  Datadog(cloud monitoring as a service) –  Icinga（Open Source Enterprise Monitoring）はこの用途には使えなかった

–  “VMが作れない” –  ロードバランサ –  DNS解決 –  UDPとマルチキャスト –  “no valid host found”

n 中央でログ収集 –  Fuel-‐plugin-‐ima-‐collector –  ELK

n  Correla8on engine –  既知のイベントに関しては自動的にトラブルシューティング

17


Burning Issues testing/validation

n APIテスト、interoperabilityテスト – RefStack

n パフォーマンステスト – Rally

n HAテスト – Cloud99

18


Hypervisor Tuning*1 1/5

²  概要 –  ハイパーバイザーのチューニングに関するベストプラクティスの共有・議

論 –  Moderators: Joe Topjian

n  チューニングテスト –  DaCapoは良いツール –  Disk IOテスト

•  FIO –  70/30 tes8ng at 8k –  レイテンシを見ている（スループットではない） –  Ansibleを使って複数VMで同時に実行

•  Iometer –  シングル/クラスタ用のIO計測ツール

–  共通のテスト環境のリセット方法が欲しい •  キャッシュなどが再テストを邪魔する

–  CBTOOL (hUps://github.com/ibmcb/cbtool) –  PHORONIX TEST SUITE (hUp://www.phoronix-‐test-‐suite.com/) –  PerfKitBenchmarker (hUps://github.com/GoogleCloudPlarorm/

PerfKitBenchmarker)

*1：hUps://etherpad.openstack.org/p/PAO-‐ops-‐hypervisor-‐tuning

19


Hypervisor Tuning 2/5

n  どのカーネルスケジューラを使っているか –  Deadline –  Noopはホストスケジューラと競合しない

n  Network –  MTU

•  1550 •  8000 (いくつかのレガシーネットワークのため) •  Kiloではneutronのconfigに書いたmtuが反映されない場合あり

–  プロバイダーネットのMTUをより大きな値にするといいかもしれない

–  Nic bonding •  LACPがデファクトスタンダード •  再起動時、50回に１回、LACPではなくラウンドロビンとして上がってくる

n  cpu_mode –  Passthrough

•  Upgrade時にいくつかの問題が発生 –  Apparmor のバグ –  レジュームできない

–  Host-‐model •  HVノードをスワップするときに、スワップ先のHVにCPU extesionsがなければvmが立ち上

がらない

20



n  Intel KVM EPT –  6%スループットが改善 –  hUp://openstack-‐in-‐produc8on.blogspot.fr/2015/08/ept-‐and-‐ksm-‐for-‐

high-‐throughput.html –  バグでホストクラッシュを起こすときもある

n  KSM –  各コンピュートノードで20%メモリ節約 –  hUp://openstack-‐in-‐produc8on.blogspot.fr/2015/08/ept-‐and-‐ksm-‐for-‐

high-‐throughput.html –  Javaを重くする –  0.94%スループットが改善

n  NUMA –  より効率UP –  hUp://openstack-‐in-‐produc8on.blogspot.fr/2015/08/numa-‐and-‐cpu-‐

pinning-‐in-‐high-‐throughput.html –  Random numa cell selec8onの時すべてのnuma cellが使われない場合が

ある •  修正済み

21



n  Iptablesの設定 –  conntrack_max

•  512k •  256k with hash table size of 16k •  256k with hash table size of 64k •  Ubuntuのデフォの64kでは足りなくなった

n  CPU overcommit (デフォルトは16:1) –  1.2:1 –  2:1 –  4:1 –  16:1(ramのほうが先に限界がきて実際は3.5:1程度)

n  Memory overcommit –  10%は良くない場合も

•  OOM killerが目覚める！真っ先にVMをkill •  RAM Hardwareの問題でOOM killerが走ることも •  VMマイグレーションが失敗する

–  15%で問題なしのところも

22


n ローカルストレージ –  メモリーのオーバーコミットにSSD使用 –  キャッシュにZoL –  bcache

n VM Swappinessは頻度をすくなるするかoffに n ひとつのHVでホストするVMの数はだいたい20-‐25 n HV一つに割り当てるRAM –  2-‐8G –  テナントに合計いくつ、とかで割り当てる場合も

n ライブマイグレーション –  Post-‐copy migra8on : 10人程度が注目 –  XenServerではマイグレーション中にVMがかなり遅く –  Cut overの時に数秒ネットワークが途切れる


23


Logging WG*1

²  概要 •  ロギングに関する情報やベストプラクティスを共有

n  LoggingはELK（elas8csearch + Logstash + Kibana）が主流 –  ELK stackを使ったモニタリングが現在のベストプラクティスと言われていた –  ログコレクタとしてSpark, Splunk, Fluentd, Rsｙslog, Beaverの利用者も存在 –  Infraチームのダッシュボードはgarafyamlを使ってGrafanaに出力してる

n  Opsのツールに関するレポジトリの紹介 –  OSOｐｓ：hUps://github.com/osops/ –  Infraチーム：hUp://git.openstack.org/cgit/openstack-‐infra –  RackspaceはOSAD（OpenStack Ansible Deployment）にコントリビュート

n  Metricsはstatsd, collectdとダッシュボードを組み合わせている n  Oslo.logのバグ紹介 n  Blueprintについての議論

–  return-‐request-‐id for API calls •  リクエストを追いかける際に役立つが、考慮しなければいけないケースがあるので、

Blueprintで引き続き議論を行う –  Error Code Spec

•  エラー原因の特定に効果的ではあるが導入が非常に難しいとの声が多数

*1：hUps://etherpad.openstack.org/p/PAO-‐ops-‐logging

24


Large Deployment WG*1

²  概要 –  大規模環境構築に関連した議論

n  Mul8 node / mul8 region –  Ceilometerclientがregion-‐nameを無視(

hUps://bugs.launchpad.net/python-‐ceilometerclient/+bug/1439553) –  Horizon, keystone, swiRはregion共通 –  Nova,neutron,glance,cinder,etc..はregion毎に

n  共通の定義が必要 regions/availability zones/cells/etc. –  hUps://wiki.openstack.org/wiki/OpenStackTaxonomy

n  Cells –  インターフェイスと外部イベントのアタッチ/デタッチをサポートする

review(hUps://review.openstack.org/#/c/215459/) –  Compatは異なるバージョンのcellの動作をサポート

•  公式ではサポートしていないが、Icehouse (API) <-‐> Juno (Compute)が動く •  Kill(api) <-‐> juno(compute)はバグで動かない

n  Novaclientはpaginateに未対応、vmが一定数を超えたらnova listに表示されない –  Neutronも同じ

*1：hUps://etherpad.openstack.org/p/PAO-‐ops-‐logging

25


Upgrades WG*1

² 概要 –  OpenStackのバージョンアップに関するWG –  Moderator: Will Auld(intel), Clayton O'Neill(TWC) –  参加者: 約15人

n  Linux bridgeはneutronダウン時も動くが、OVSは動かない n 使用バージョン

•  Juno: 5, kilo:3, それ以前:2 n 多くの人は同じアプローチでupgradeを行っている

–  ツールはそれぞれで作成 n 不要なconfigファイルを探すツールが欲しい n  Rabbitの変更がkiloへのアップグレードの主な理由 n  Kollaやコンテナがupgradeを簡単にしてくれないか興味津々 n  Lazy DB マイグレーションやリリース間のRPCについても議論

*1：hUps://etherpad.openstack.org/p/PAO-‐ops-‐upgrades

26


Ops-‐‑‒guide-‐‑‒fixing WG*1

² 概要 –  Ops Guide(hUp://docs.openstack.org/ops/) の修正 – Moderators: JJ, Joe Topjian –  参加者: 約10

n Ops GuideをRSTに変換中(Mitakaリリースまでには終わる…?) •  Guideが古いので、みんなで修正しよう！

n ニュートロンのトラブルシューティングガイドが紹介 –  hUp://docs.openstack.org/openstack-‐ops/content/network_troubleshoo8ng.html

–  hUp://docs.openstack.org/kilo/install-‐guide/install/apt/content/figures/1/a/common/figures/installguidearch-‐neutron-‐networks.png

*1：hUps://etherpad.openstack.org/p/PAO-‐ops-‐ops-‐guide-‐fixing

27


Using Containers for Deployment*1

²  概要 –  コンテナを使ったデプロイに関するアイディアやベストプラクティスの共有

n  約25人がコンテナを使用 –  baremetal :24人 –  vms : 16人

n  使用ツール –  LXC: 15, Docker: 10, Mesos : 0, k8s: 0

n  管理ツール –  Juju, vagrant, OSAD

n  設定ファイル –  コンテナの数だけ設定ファイルが必要 –  Bind mountで/etcにある –  Vmより管理が簡単

n  Iscsiに問題あり –  Rackspaceはbaremetalで –  Kollaだと正常に動く

n  コンテナのメモリサイズがホストのメモリサイズと同じ –  rabbitMQがホストのメモリサイズを使ってメモリ確保をしてしまう –  rabbitMQの設定で制限する必要あり

n  Magnumを使っている人はまだいない

*1：hUps://etherpad.openstack.org/p/PAO-‐ops-‐containers-‐for-‐deployment

28


Lightning Talks1.  Ryan Moats, IBM, instrumen8on of neutron,

hUps://etherpad.openstack.org/p/neutron-‐instrumenta8on 2.  Steve Pearson, CMDBの紹介 3.  Clayton O’Neill, Time Warner Cable, kilo upgradeのissue,

hUps://docs.google.com/presenta8on/d/1y7xfol4IyoM4irvSapF2rXkxijzSOyjHohMBTIWiBB4/edit?usp=sharing

4.  市川俊一, NTT SIC, ユースケースとVMHAプロジェクト(MASAKARI)の紹介, hUp://www.slideshare.net/toshikazu_org/openstack-‐ops-‐meetup-‐palo-‐alto-‐lt

5.  室井雅仁, NTT SIC, Matchaの紹介 6.  MaUhew Thode, Gentoo, OpenStackにおけるgenUo package 7.  Tim Cuddy, HP, データアグリゲーション,

hUps://www.youtube.com/watch?v=EWqRMyCptDo&list=PL2rC-‐8e38bUURV8gCzH7NvBY0hj1FoFFe&index=54

8.  Piet Kruithof, PTL OpenStack UX, UX Projectの紹介, hUps://docs.google.com/presenta8on/d/1FbTQI-‐FfEkj-‐9x2tRpt11Sef1-‐E-‐HUfv3_0CywKnfxg/edit?usp=sharing

9.  JJ Asghar, Chefの人, chefを動かす話 10.  James Blair, Shadeというシンプルなopenstackクライアントのライブラリ,

hUp://docs.openstack.org/infra/shade/ 11.  John Dickinson, プロジェクトのコントリビュートの様子を可視化, hUps://

github.com/notmyname/git-‐stats

29


OpenStack Ops Mid-‐Cycle Meetup@PAO 2日目


30


スケジュール（2⽇日⽬目）*1

8/19 Wed Med II Med III Salon A Bacchus

9:00 -‐ 09:45 CMDB: use cases

9:45 -‐ 10:30 Deployment Tips

10:30 -‐ 11:15 What network model are you using? Are you happy?

11:15 -‐ 11:30 Coffee

11:30 -‐ 12:15 User CommiUee Discussion

12:15 -‐ 12:20 Breakout Explain

12:20 -‐ 13:30 Lunch

13:30 -‐ 15:00 Tools and Monitoring Product WG Packaging Ops Tags Team

15:00 -‐ 15:30 Coffee

15:30 -‐ 16:00 Breakout Reports

16:00 -‐ 17:00 Feedback Session, Tokyo Planning

*1：hUps://goo.gl/qOQfFs

31


CMDB*1 1/2n  背景：

バンクーバーのOpsサミットでHPとeBayがCMDBに関する初のBlueprintの取り組みを開始

n  会場内のアンケートでは自前のCMDBを使っているユーザは１０名程度

n  何の目的でCMDBを使っているのか

–  既存環境の関係性の記録（server, cloud, networks, topology, security zone. etc）

–  構成情報の管理

–  レポート（キャパシティプランニング、設定が一致しているか、部門への投資）の作成

–  OpenStackクラスタ構築・復旧・スケールアウトの自動化のため

–  監査対応・歴史の管理（ホストOSを入れなおしなどを行った場合に監査対応で過去のホスト名が必要になったりするため、過去のホスト名なども追いたい）

*1：hUps://etherpad.openstack.org/p/PAO-‐ops-‐cmdb

32


CMDB 2/2n  実装のアイデア

–  RDF(Resource Descrip8on Framework)での実装（REST APIや専用のクエリの実装がすでに存在してる

n  今回の成果

– 実装の参考となるベストプラクティスの収集

– 実装方法のアイデア

•  既存ソフトウェアを使う方法と

•  新しいPJを立ち上げるための議論

–  CMDBを実装するにあたり既存のPJに与える影響の影響

•  Ironicはすでに同様の機能を持っており、追加機能も開発中

n  FeedBackではGeneralセッションじゃなくてよかったのではという声が多数

33


Deployment Tips*1 1/5

n Database Setup •  Galera/replica8onが半数（他MySQL？） •  GaleraをDC跨ぎで使っているのは３名

–  Arbitratorを使ってSplit brain対策をしている – パフォーマンスはDC間のラインに依存

»  300kmを10g接続でKeystoneオンリーなら問題なし

•  Galeraに入れてるデータ –  Keystone –  Designate –  Horizonのセッションデータ –  Glance（NovaとCinderはリージョンごとに構築）

*1：hUps://etherpad.openstack.org/p/PAO-‐ops-‐deployment-‐8ps

34


Deployment Tips 2/5

n Deployment tools •  Ansible / juju / chef/ cfengine / puppet / bcfg2

•  Ansibleオンリーは数名でAnsible + 別ツールが多い •  Puppet、Chefともにコミュニティへの参加を募っている

n RabbitMQ •  サイレント故障が起きたりする •  LB経由のアクセスはやめた方がいい？

•  大丈夫派 –  Kiloだと直ってるっぽいがそれ以外はおすすめしない –  OpenStack以外のサービスで使っているが問題なく動いている

•  問題あり派 –  Kiloでも問題は直ってないと思っているが確認はしていない –  library(Konbu)が原因みたいだがbugではなく仕様の可能性がある –  rabbitのmul8-‐nodeを使っているがhaproxyは使わずにnova.confでrabbit

hostを直接設定してる

35


Deployment Tips 3/5

n OVS? LinuxBridge •  OVSの代わりにLinux bridgeを使ってるとの意見が多数

•  理由 –  OVSのデバッグが難しい/OVSが複雑 –  Linux Bridgeに対して以前の経験や知見があるから –  “first class ci8zen in linux network stack” –  OVSのupstreamのリリースがLinux kernelのリリースとラグがある –  OVSのクラッシュでFlowsが消えて、Compute Nodeの再起動が必要になった

•  Libertyに向けてOVSやテナントNWのように動くシンプルなLinux Bridgeの使い方のガイドを計画中 –  OVSからのマイグレーション方法を含めてドキュメントが足りてないので充実

させる予定

•  ARP spoofing protec8on for Linux Bridge agent –  hUps://review.openstack.org/#/c/209705/

–  使っているOVSのバージョン •  2.3.0, 2.0.*は問題ない •  2.1.xは問題があるので今すぐUpgradeしたほうがいい

36


Deployment Tips 4/5

n  Package •  ソースコードから直接構築 •  pipかOSごとに用意されているパッケージ •  giRwrap/anvil/Omnibus

n  Load Balancer

•  haproxyが50％（便利、稼働中、コストが安く済む） •  HW製品が50%（） •  負荷分散目的 12名 •  HAを利用してる 13名

•  Pacemaker/Corosync keepalived •  VIPで運用しているとX-‐Forwarded-‐Forに対応していないサービ

ス（e.g Heat）がうまく動かなかったりする問題がある

•  SSL offloadを使うとjuno以降のclientが失敗する

37


Deployment Tips 5/5

n  Object Storage •  SwiRはOpenStackのデプロイの中でも安定している +2 •  SwiR-‐proxyへのアクセス方法を複数設けている

•  開発者管理のクラウドからのアクセス •  Apacheのmod_proxy経由（ユーザ用） •  エンドポイントへの直接アクセス（Cloud内部からのアクセス限定）

•  新しいサイトをSwiR global clusterに追加するときは、初回はfull weightになるまで追加してはいけない

•  swfit-‐proxyのためにPublic VIPを分けている（Junoで実現？） •  Time werner cableではIcehouseから問題なく動いている •  havanaから動いていたがjunoで壊れたという意見も

–  今のところ原因不明で調査中とのこと •  利用しているClient

•  apiを直接 / python-‐swiRclient / openstack-‐client / pkgcloud

n  その他 •  人気のTipsについてはOperators docに記載をする予定 •  nginxとmod_wsgiのドキュメントがイケてない •  Admin用のAPIサーバやRead only APIサーバ

•  CERNではCeilometer用にRead onlyサーバを建てている

38


User Committee Discussion*1 1/2

n  現在のUser Surveyについてどう思うか •  生データがないのでよくわからない •  統計データがほしい（e.g. KVMを使ってる割合） •  長くて退屈なアンケートはやめるべき

•  hUps://www.openstack.org/user-‐survey/AboutYou

n  デプロイに関する情報をどう共有するか •  会社ごとにユーザグループを作りAdminを決める

•  CTL(“Company team lead”)？ •  各社のクラウドについて話す際はCTLが起点になる •  ATCのように問題解決に協力することが期待される

•  nova.confをmd5付きで公開する

n  Ceph-‐brag style tool •  Refstack( hUp://refstack.net) •  DefCoreのmid-‐cycleでRefStackの実行結果のリンクが公開できるか話

し合われたことがある *1：hUps://etherpad.openstack.org/p/PAO-‐ops-‐user-‐commiUtee

39


User Committee Discussion 2/2

n  Product WG/feedback loop –  WGにどのように働いて欲しいか？

•  REF-‐bugスタイルの機能要求 –  hUps://github.com/openstack/openstack-‐user-‐stories/blob/master/user-‐story-‐

template.rst •  Ops meetupの際に情報を提供してもらいたい

n  Tags Team –  プロジェクトのページに何を載せるべきか

•  テストの総計とその結果 •  adop8on vs maturity

n  コミュニティ内のOpsの認知度向上について –  Superuser awardみたいにSuperops awardを作る？ –  ATCのような仕組みを作る？（CTLのような）

•  ATCになるにあたりCommit以外の方法があってもよいのでは？ •  DocsのBugやChefやPuppetみたいなところにコントリビュートする方法もある

–  Opsを示すTシャツ、ステッカー、バッグを作る

40


Tools and Monitoring*1 1/7

n Capacity planning tool –  Schedule simulatorを利用

•  異なるVMサイズやオーダー、フレバーで実行可能 •  キャパシティに何が起きるかをシミュレート可能

n Rolling reboot / Live migra8on / defrag – QEUMの脆弱性対策はglibcとqeumへのパッチ

•  テナントへの通知は行う •  コントロールプレーン上のサービスはリブートするが、

データプレーンはテナントのハンドリングに任せている –  Live migra8onは運用上必須 –  CVEはHypervisorのUpgradeに使ってる –  KspliceはKernel upgrade時にもrebootしなくてよい

*1：hUps://etherpad.openstack.org/p/PAO-‐ops-‐tools-‐mon

41


Tools & Monitoring 2/7

n Network monitoring tool –  Network node manager (NNM) –  OpenStack標準の機能

•  モニタリングに加えてデバッグ機能が欲しいとの意見 – MonascaはNetworkingモニタの機能を幾つか持っている

n Object Storage の監視 –  Recon

•  hUp://docs.openstack.org/developer/swiR/admin_guide.html#cluster-‐telemetry-‐and-‐monitoring

–  CephをNagiosで見ているが割り当てができていない •  結果、ユーザ側からのモニタリングができていないと気づいた

–  Ichinga, MicroStrategy

42



n Ops Ques8ons (Stackoverflow for OpenStack) –  ask.openstack.org

•  現在管理者がいないがボランティアメンバがいる •  Founda8onが主体となって管理者を雇ってもらいたい •  情報が足りなかったり古い回答が来るとの意見も

–  リポジトリベースのナレッジ（Wiki等）を拡充させる –  Ops MLへの参加の呼びかけ –  役に立たなくなった情報をどう管理するか

•  投票や回答への評価などの制度を設けてはとの意見も –  モチベーションとしてATCのようなサミット参加への優遇や旅費の補助な

どを検討してはどうかとの意見

n Tenant clean up / evacua8on tool –  ospurge (hUps://github.com/stackforge/ospurge) –  Scrubber (HP)

43



n Metering and billing –  Talligent (hUp://talligent.com/) –  CloudkiUyが将来有望？ (hUps://github.com/stackforge/cloudkiUy)

–  Pushback, chargeback, showback

n Valida8on following update or install –  Tempest?

•  Refstackはsetup+外部からTempest動かす機能がある –  Jenkinsと自作のテストツールでAPI試験をしてる参加者も

n SLA –  99.5% ~ 99.95%ぐらいの可用性が求められている

44



n Workflows – Mistral (hUps://wiki.openstack.org/wiki/Mistral) –  Reparo

•  タスクフローベースで壊れたマシンのHWの修復を自動化する

n Repository for ops tools in github –  hUps://github.com/osops

n Backup –  Truku (hUps://insights.ubuntu.com/2015/08/04/introducing-‐turku-‐cloud-‐friendly-‐backups-‐for-‐your-‐infrastructure/)

–  Freezer (hUps://github.com/stackforge/freezer)

45



n Log & Event aggrega8on – Monasca

•  hUps://wiki.openstack.org/wiki/Monasca/Logging •  hUps://wiki.openstack.org/wiki/Monasca/Events

–  Elas8csearch & Kibana •  Kiabanaではイベントが起きる前に検知ができない

–  Incident.MOOGを使ってるとの意見も •  hUp://pages.moogsoR.com/06-‐03-‐15-‐Webinar-‐OpenStack-‐Cloud-‐on-‐demand.html

n What’s your “Cloud watch” alterna8ve for OpenStack –  Ichinga, Monasca, Nagios

46



n  Scale/ load tes8ng –  Rally

n  Anybody doing API throUling / user limits? –  Apigee (hUps://apigee.com/about/) –  Repose (hUp://www.openrepose.org/)

n  Anomaly detec8on –  Skyline (hUps://github.com/etsy/skyline)

n Ops Tools & MonitoringのIRC Mee8ngはWed at 10:00 AM –  日本時間で木曜 0:00 –  参加者が少ないので時間調整中

47


Prodoct WG*1 1/2

n  User Story –  hUps://drive.google.com/drive/u/0/folders/0BxtM4AiszlEyfm9UTW5LMEQ5cUhHbmFsSkd5WFNfdTMwVFIwRUM1TVFXSHhhWHl6VHlpRzg

n  Rolling upgradeの状況 –  hUps://docs.google.com/spreadsheets/d/1iT0XraW8ORGk2�1bJMigE6wWdKK6YgrNB4ishPOc1M/edit#gid=1668081475

–  RPC互換のTracker/Planning追加が必要

n  Cross-‐projectのmeta-‐dataを置く場所が必要 –  Grafi�をGlanceの外に出す提案が必要 –  やるときはOsloのPTLやCPLたちにフォローアップしてもらうとよ

い *1：hUps://etherpad.openstack.org/p/PAO-‐ops-‐product-‐wg

48


Product WG 2/2

n Versioned object –  CinderはLibertyでできそうだが、Oslo library側がMitakaに

なりそう

n Encrypted Storage –  Data Security Standard(DSS)のためにcinderの機能や暗号

化を矯正させるためにgalnceのイメージのメタデータ、novaのenforcementの仕組みを入れることに取り組んでいる

n User Storyのtemplateがある –  hUp://github.com/openstack/openstack-‐user-‐stories –  上記の配下に分類もつくろうとしている

49


Feedback Session, Tokyo Planning*1 1/2

n 改善点 – 建設的な会議にするための改善案 •  OpsやDevでもないヒトを呼ばないためにはどうする？

– 呼ばない（Ops Mid-‐cycle Working Sessionの開催？） –  UnconferenceやOpenSpacesを行う

– セッションの重複をなくす – 日程をもっと早く決めて周知する – 開催場所を北アメリカ以外でも検討する – モデレータのタスクの改善 •  議論の中で出たアクションやワークを明記する •  情報共有の際には重要なポイントに絞って報告する

*1：hUps://etherpad.openstack.org/p/PAO-‐ops-‐feedback

50


参考：Unconferenceとは

n  Unconference（OpenSpace Conference） –  参加者主導のミーティング –  従来のConferenceで行われていた参加料やスポンサープレゼ

ン、トップダウンで決められた内容を避ける目的がある –  会議のはじめに参加者でアジェンダを作成する –  １人のスピーカーがしゃべるよりもオープンディスカッションをメ

インに進める –  高度な知識や経験を持った参加者を加えるとよりよい議論にな

る

n 参考： –  hUps://en.wikipedia.org/wiki/Unconference –  hUp://blogs.itmedia.co.jp/zenkishimoto/2009/10/unconference-‐c0.html

51


Feedback Session, Tokyo Planning 2/2

n 次回に向けて – War stories •  〜20分プレゼン + Breakoutのディスカッション

– Lightning Talk を２日する –  初のセッションをで話す内容をみんなで選ぶ •  今回の初にBurning issuesはよかったとの意見も •  話した内容をスケジュールにFBする

– 聞きたいセッション •  ベストプラクティス、Large deployment, Networking •  Upgrade, CMDB, Hypervisor, Infra Container, Logging, etc…

52

openstack ops mid-cycle meetup 参加報告

Technology