68
Zabbix 3.2 - мониторинг качественно нового уровня Алексей Владышев

Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

  • Upload
    ontico

  • View
    312

  • Download
    4

Embed Size (px)

Citation preview

Page 1: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Zabbix 3.2 - мониторинг качественно нового уровняАлексей Владышев

Page 2: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Обо мне

Алексей Владышев

Создатель и руководитель Zabbix

Twitter: @avladishev

2

Page 3: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

• Проблемы большого мониторинга

• Чем может помочь Zabbix 3.2?

3

План доклада

Page 4: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Большой мониторинг

4

Тысячи или десятки тысяч устройств

Page 5: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Шаблоны, макросы

5

Управление конфигурацией

Page 6: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Сетевое авто-обнаружение Низкоуровневое обнаружение

6

Динамическая конфигурация

Page 7: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Прокси Партиционирование Активные проверки

7

Масштабируемость

Page 8: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Master-master/slave replication Linux HA

Corosync/Pacemaker

8

Высокая доступность

Page 9: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Это убивает доверие к мониторингу

9

Ложные срабатывания

Page 10: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

{server:mysql.status[Questions].avg(5m)} > 5000

10

MySQL server is overloaded

Умные триггеры

Page 11: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

{server:mysql.status[Questions].avg(5m)} > 5000

11

Проблема: MySQL server is overloaded

Различные условия

{server:mysql.status[Questions].avg(10m)} < 1000Решение: MySQL server is back to normal

Page 12: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

12

Page 13: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Парадокс: Чем лучше работает система мониторинга, тем больше

проблем она обнаруживает.

Но что со всем этим делать?

13

Page 14: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Два пути:

(1) уменьшить количество проблем (2) правильно их визуализировать

14

Page 15: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Теги событий

15

Page 16: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

{server:mysql.status[Questions].avg(5m)} > 5000

16

MySQL server is overloaded

Tags Datacenter: AM2 Env: Production Service: DB Cluster

Page 17: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Теги дают нам возможность абстрагироваться от хостов и метрик и получить сервис-

ориентированный мониторинг

17

Service: DB Cluster

Service: Helpdesk

Service: WEB

Page 18: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Но мы не ограничены только сервисами!

18

Page 19: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Service: Oracle Service: {{ITEM.VALUE}.regsub(‘…’, ’\1 \2’)}

Datacenter: NY2 Datacenter: {$DATACENTER}

Area: Performance Area: Availability Area: Security

Environment: Staging Environment: Test

User impact: None User impact: Critical

19

Имя тега: ЗначениеZabbix 3.2.2

Различные измерения

Env: Production

Page 20: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

20

Environment: Production

Значения тега

Datacenter: {$DATACENTER}

Service: {{ITEM.VALUE}.regsub(‘…’, ’\1 \2’)}

Page 21: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

21

Так много проблем

Page 22: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

22

Environment: Production

Page 23: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

23

Datacenter: NY2

Page 24: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

24

Impact: Critical

Page 25: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

25

Impact: Critical AND in NY2

Page 26: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Отображение проблем

26

Сделано для людей

Page 27: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

27

Page 28: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

28

Page 29: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

29

Page 30: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

30

Page 31: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

31

Page 32: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

32

Page 33: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Фильтры!

33

Page 34: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

34

Page 35: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Оповещения

35

Page 36: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

36

Page 37: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Корреляция событий

37

Page 38: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Глобальная корреляция проблем

38

Page 39: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Port #33 on switch Cisco_050 is down

39

Мониторинг портов

Datacenter: AM2 Port: 33 Switch: Cisco_050

Page 40: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Port #33 on switch Cisco_050 is down

40

Мониторинг портов

Datacenter: AM2 Port: 33 Switch: Cisco_050

Port #40 on switch Cisco_050 is downDatacenter: AM2 Port: 40 Switch: Cisco_050

Нет корреляции Port 33 != Port 40

Page 41: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Port #33 on switch Cisco_050 is down

41

Мониторинг портов

Datacenter: AM2 Port: 33 Switch: Cisco_050

Port #40 on switch Cisco_050 is down

Port #33 on switch Cisco_050 is down

Datacenter: AM2 Port: 40 Switch: Cisco_050

Datacenter: AM2 Port: 33 Switch: Cisco_050

Корреляция!

Page 42: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Port #33 on switch Cisco_050 is down

42

Мониторинг портов

Datacenter: AM2 Port: 33 Switch: Cisco_050

Port #40 on switch Cisco_050 is down

Port #33 on switch Cisco_050 is down

Datacenter: AM2 Port: 40 Switch: Cisco_050

Datacenter: AM2 Port: 33 Switch: Cisco_050

Автоматически закрываем

Page 43: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Пример локальной корреляции

43

Page 44: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Мониторинг сервисов

44

… 10/Aug/2016:06:25:30 service Jira stopped 10/Aug/2016:06:25:32 service MySQL stopped 10/Aug/2016:06:26:11 service MySQL started 10/Aug/2016:06:26:22 service Redis stopped 10/Aug/2016:06:26:58 service Redis started 10/Aug/2016:06:27:31 service Jira started …

/var/log/services.log

Page 45: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Мониторинг сервисов

45

… 10/Aug/2016:06:25:30 service Jira stopped 10/Aug/2016:06:25:32 service MySQL stopped 10/Aug/2016:06:26:11 service MySQL started 10/Aug/2016:06:26:22 service Redis stopped 10/Aug/2016:06:26:58 service Redis started 10/Aug/2016:06:27:31 service Jira started

/var/log/services.log

Сколько триггеров и метрик нам необходимо для мониторинга состояния отдельно

каждого сервиса?

Page 46: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Zabbix 3.2:

Всего лишь одна метрика и один триггер!

46

Page 47: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

47

Name: Service {{ITEM.VALUE}.regsub(“^.*service ([a-zA-Z]*).*$”,”\1”)} is down

Магический триггер

10/Aug/2016:06:25:30 service Jira stopped

Page 48: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

48

Name: Service {{ITEM.VALUE}.regsub(“^.*service ([a-zA-Z]*).*$”,”\1”)} is down

Магический триггер

Tags: Datacenter: AM2 Env: Staging Service: {{ITEM.VALUE}.regsub(“^.*service ([a-zA-Z]*).*$”,”\1”)}

Tag for matching: Service

Page 49: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Как это работает?

49

10/Aug/2016:06:25:30 service Jira stopped “Jira stopped” PROBLEM

Page 50: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

10/Aug/2016:06:25:30 service Jira stopped “Jira stopped” PROBLEM 10/Aug/2016:06:27:32 service MySQL stopped “MySQL stopped” PROBLEM

50

Как это работает?

Page 51: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

10/Aug/2016:06:25:30 service Jira stopped “Jira stopped” PROBLEM 10/Aug/2016:06:27:32 service MySQL stopped “MySQL stopped” RESOLVED 10/Aug/2016:06:28:11 service MySQL started

51

Как это работает?

Page 52: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

10/Aug/2016:06:25:30 service Jira stopped “Jira stopped” PROBLEM 10/Aug/2016:06:27:32 service MySQL stopped “MySQL stopped” RESOLVED 10/Aug/2016:06:28:11 service MySQL started 10/Aug/2016:06:34:22 service Redis stopped “Redis stopped” PROBLEM

52

Как это работает?

Page 53: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

10/Aug/2016:06:25:30 service Jira stopped “Jira stopped” PROBLEM 10/Aug/2016:06:27:32 service MySQL stopped “MySQL stopped” RESOLVED 10/Aug/2016:06:28:11 service MySQL started 10/Aug/2016:06:34:22 service Redis stopped “Redis stopped” RESOLVED 10/Aug/2016:06:37:58 service Redis started

53

Как это работает?

Page 54: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

10/Aug/2016:06:25:30 service Jira stopped “Jira stopped” RESOLVED 10/Aug/2016:06:27:32 service MySQL stopped “MySQL stopped” RESOLVED 10/Aug/2016:06:28:11 service MySQL started 10/Aug/2016:06:34:22 service Redis stopped “Redis stopped” RESOLVED 10/Aug/2016:06:37:58 service Redis started 10/Aug/2016:06:55:31 service Jira started

54

Как это работает?

Page 55: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Тэги проблем и корреляция - это фундамент для будущих улучшений

55

Page 56: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Ручное закрытие проблем

56

Page 57: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

57

Page 58: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

58

Page 59: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Что ещё нового в Zabbix 3.2?

59

Page 60: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Иерархические группы

60

Servers Servers/Physical Servers/VMs

Location/Africa Location/Europe Location/Japan Location/North America

Templates Templates/Official Templates/SNMP Templates/Services Templates/Vendors Templates/Vendors/HP

Page 61: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

61

Более простое управление правами

Page 62: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

62

Фильтрация

Page 63: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Полный список улучшений в

Документации Zabbix 3.2

63

Page 64: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Как перейти на 3.2?

64

Page 65: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Zabbix 3.2 является мажорной версией, но не LTS релизом,

период поддержки 6-7 месяцев

65

Page 66: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Сроки поддержки

66

http://www.zabbix.com/life_cycle_and_release_policy

Page 67: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

Обновление. Как обычно, очень просто…

Устанавливаем новые бинарники Zabbix server и proxy

Файлы новой версии интерфейса

Всё!

67

Page 68: Zabbix 3.2 - мониторинг качественно нового уровня / Алексей Владышев (Zabbix)

The Universal Open Source Enterprise Level Monitoring Solution

Спасибо!

Twitter: @avladishev

Email: [email protected]

Подробности на нашем стенде!