webサーバー監視tips 吉澤和香奈
TRANSCRIPT
Webサーバー監視Tips株式会社CAMON.TOKYO 吉澤和香奈
自己紹介
✦吉澤和香奈です
✦ dots.女子部LT4回目です
✦ dots.女子部の全LT出ています
✦ベトナムが好きです
✦ベトナム人向けサービス作っています
ウェブ経由でどこからでも
日本語講師とマッチングし会話、
オンライン教材で学習できる
日系企業に就職、または日本で暮らしたい
ベトナム人女性向けの、
オンライン日本語学習サービスです。
監視ツール使っていますか?
監視ツールのメリット
• サーバーでトラブルが起こる前に気づけます
• トラブルが起きても問題発見が早くなります
• いざというとき慌てずにすみます
OpenSource
WebApp
とりあえず抑えるべき項目
1. LoadAverage
2. CPU使用率
3. メモリ使用量
4. TCPコネクション数
5. ディスク使用量
LoadAverage
プロセスの監視項目です。何かしらの負荷で上がるため、LAが上がったら、何か問題がないか他の項目を調べるようにして下さい。
閾値(例)
warningCPUコア数
×50%
criticalCPUコア数
×25%
CPU使用率
演算や情報転送量の監視項目です。CPU使用率の負荷は、だいたいプログラムなどのソース内で無限ループが発生している場合が多いので、エラーログやループ処理を見直すと良いと思います。
90% critical
80% warning
閾値(例)
メモリ使用量
メモリの監視項目です。メモリ使用量の負荷は、たとえばMySQLの場合、何万件も一括処理している場合が多いので、MySQLSlowQueryを設定しておくと発見が早いかと思います。普段から、取得件数が多い場合はLIMITとOFFSETを使って1000件づつ処理をする、配列を破棄するなど心がけると良いと思います。
90% critical
80% warning
閾値(例)
TCPコネクション数
サーバーに接続しているコネクションの数の監視項目です。エラーによるCPU使用率の上昇でもメモリ不足でもない場合は、スケールアウト(サーバー台数を増やす)、ロードバランサーなどお金で乗り切るしかありません。普段から広告打ち出しのタイミングや、ピークタイムを知っておくことが大事だと思います。
ディスク使用量
データベースや画像アップロード先をアプリケーションと同じサーバーに設定している場合、また大量のエラーログの発生などであっという間に満タンになります。スケールアップする前に、サーバー構成を見直すようにするといいと思います。
90% warning
閾値(例)
だいたいこれらで 何とかなります
最後に
Slackに連携してAlertを出そう
AlertMailより見やすく、気付きやすくなります。
ありがとうございました!