21
投げやすい椅子と 投げにくい椅子の見分けかた Monitoring Casual Talks #1 (2012/06/15) @tagomoris 12618日月曜日

投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: 投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

投げやすい椅子と投げにくい椅子の見分けかた

Monitoring Casual Talks #1 (2012/06/15)@tagomoris

12年6月18日月曜日

Page 2: 投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

@tagomorisNHN Japan Corp

Web Service Division

12年6月18日月曜日

Page 3: 投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

Fluentdの話

12年6月18日月曜日

Page 4: 投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

Fluentdの話は、しません

12年6月18日月曜日

Page 5: 投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

今日のお話

投げやすい椅子

投げにくい椅子

12年6月18日月曜日

Page 6: 投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

今日のお話

投げやすい椅子アラート?

投げにくい椅子アラート?

12年6月18日月曜日

Page 7: 投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

椅子 == アラート ?椅子

投げるべきときには投げる

アラートとは別

やばいときには投げるべき

12年6月18日月曜日

Page 8: 投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

椅子 == アラート ?椅子

投げるべきときには投げる

アラートとは別

やばいときには投げるべき

やばい == アラート ……あれ?

12年6月18日月曜日

Page 9: 投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

アラート

監視システムからの警告 (WARN/CRIT)

問題ない状況でアラートを投げてはいけない

「常にアラート出てる」状況への慣れは超危険

投げられたら対処すべきもの

毎回? すぐに? そのうち?

12年6月18日月曜日

Page 10: 投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

「投げる」がゲシュタルト崩壊してきた

12年6月18日月曜日

Page 11: 投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

アラート もうすこし

種類を考える

深刻度

可逆・不可逆性 (放っておいても戻らないものかどうか)

傾向と対策のための通知としてのアラート

サービス停止もしくはその予兆としてのアラート

12年6月18日月曜日

Page 12: 投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

深刻である 深刻でない

不可逆性(対応しないと戻らない)

プロセスダウンディスク障害ディスクFULL

ディスク使用率高

可逆性?(原因(高負荷など)が去ったら

多分戻る)戻らない場合も多い

pingドロップTCP接続失敗loadavg超上昇

swap使用率上昇キュー滞留数増加レプリケーション遅延

loadavg上昇メモリ使用率上昇

12年6月18日月曜日

Page 13: 投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

アラート対応の優先度サービス停止

サーバ停止

サーバ停止?

サーバこのままだと停止

サーバ動いてるけどなんか怪しい

サーバちょこちょこ負荷上がり気味ですね

12年6月18日月曜日

Page 14: 投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

椅子についてやってはいけないことをやってしまうのは悪

そうは言うけど、しょうがないこともある

必要が分かりきっているのにやらないのは極悪

まあみんな忙しいし……

間違ってしまっているのを握り潰すのは至上の悪

……

12年6月18日月曜日

Page 15: 投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

椅子だ、椅子をもて!

12年6月18日月曜日

Page 16: 投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

投げにくい椅子

処理増加による負荷上昇・パフォーマンス低下

CPU、メモリ、loadavg

レプリケーション遅延、キュー滞留

傾向と対策のための検出・アラート

お昼に改良(できるといいね!)、サーバ追加、等

12年6月18日月曜日

Page 17: 投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

投げやすい椅子設定不備による問題

httpdが足りないで詰まる or forkでloadavg上昇

log rotate設定されてない! 世代数大杉だ!

即座に対処すべき

disk full は即死亡 → disk usage highを見逃す担当者には椅子を

12年6月18日月曜日

Page 18: 投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

何が言いたかったか

なんだっけ……。

12年6月18日月曜日

Page 19: 投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

考えられるといいよねアラートにも優先順位がある

突発的なサービス停止は当然最優先だけど

不可逆性のものを本来は優先して対処すべき

さっさと解決するものは解決しちゃった方がいい

セクショナリズムは悪

システム面の問題なら得意でしょ

12年6月18日月曜日

Page 20: 投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

椅子は軽々に投げるべからず

いざというときに投げるから価値がある

投げないと解決しないときに投げたい

解決 ==「理解してもらって繰り返させない」

慣らしてはダメ

12年6月18日月曜日

Page 21: 投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

おわり

Thanks!

12年6月18日月曜日