26
OSS 運用管理勉強会 Zabbixのトラブル事例のあるある ミラクル・リナックス株式会社 宮下恒太郎 2013926

Zabbixのトラブル事例のあるある - oss-kanri.org · OSS運用管理勉強会 Zabbixのトラブル事例のあるある ミラクル・リナックス株式会社 宮下恒太郎

  • Upload
    doanque

  • View
    313

  • Download
    0

Embed Size (px)

Citation preview

OSS運用管理勉強会

Zabbixのトラブル事例のあるある

ミラクル・リナックス株式会社宮下恒太郎

2013年9月26日

ログ監視

ログ監視とは

ログ監視のフロー

事例

アイテムキーlog[ ]を使用してログ監視を実施していますが、アイテムのステータスが「取得不可」の状態となっています。この状態となる可能性としてどんなことが考えられますか?

「取得不可」となるパターン

・監視対象のファイルの読み込み権限がない

・監視対象のファイルが存在しない

・監視対象のファイルが開けない(他プロセスにロックされている等)・システムコールstat()の失敗 する。

・ログファイルサイズが2GB以上(2.0以降はこの制限はありません)

 

事例

ログファイル監視でログファイルの再読込が発生して、エージェントが高負荷状態となる。

監視対象ファイルの読み込み

ログの再読込が発生するパターン

・エージェントを再起動した場合

エージェント再起動時にサーバーから取得する前回のログファイルのサイズ

(lastlogsize) からの読み込みが行われます。

・監視のアイテムキーの設定を変更した場合

ログファイルの最初から読み込みが行われます。

・lastlogsize(どこまでログファイルの読み込みを行ったか情報)の値が前回より小さ

い場合

lastlogsizeの値が前回より小さい場合は、新しいファイルであると判断しログファイ

ルの最初から読み込まれます。

lastlogsize 更新のフロー

対処

改修案

・zabbix agent 側のlastlogsize を定期的にサーバー送信する

・zabbix agentの側のファイルにlastlogsizeを保存しておく。zabbix agent 起動時にサーバー側の値と比較してどちらを使うかを選択する。

事例

100行まで出力されると古い順に上書きされていくログファイル

があります。

このログファイルの監視を行うため アイテムキーを教えてほし

い。

Zabbixが監視できるログファイル

シーケンシャルに出力されないログはZabbixにはログ監視では

正しくデータは取得できません。古いログが上書きされていくよ

うなログファイルの監視を行う機能はZabbixにはありません。

事例

ログをローテートを行っているSyslog (/var/log/messages)の監視には

log[ ] キーは不向きですか?

事例

ログのローテーションに時に更新日時(mtime)が同じログファイ

ルが作成されたことにより、ログの再読み込みが発生する。

対処

改修案

ファイルの選択にmtimeを使用しない

ユーザがファイル名の遷移ルールを指定する

ディレクトリが移るようなローテーションにも対応できる。

というようなlogrt2[ ](仮)をlogrt[ ] とは別に作成

トリガー

時間ベースの関数(Time based functions)

事例

同じイベントが2度連続して記録されていました。

時間ベースの関数(Time based functions)

時間ベースの関数を使用したトリガー条件式は、アイテムのデータ取得の際の通常の評価、とタイマーによる30秒毎の評価が行われる。この評価は平行に実行される。

時間ベースの関数:

nodata()date()dayofmonth()dayofweek()time()now()

トリガー評価のフロー

補足資料

終わり