ネットワークの自動化・監視の取り組みについて #netopscoding #npstudy

オペレーション自動化と監視の取り組み

ヤフー株式会社サイトオペレーション本部インフラ技術３部安藤格也

P自己紹介

安藤格也(あんどうかくや)

servak

2011年入社

決済チームで開発、運用

2015/10にNWチーム(現職)に異動

P目次

オペレーション自動化

ネットワーク監視

オペレーション自動化

P普段のオペレーション 5

利用者 NW担当者

専用ネットワークが欲しい

ネットワークを作ります

機器に応じた設定を人が投入

NW機器

P問題点について

人による作業が多いため、ヒューマンエラーが発生してしまう

日常的ではない作業ではなおさら間違えやすい

ヒューマンエラーについて再発防止が難しい

オペレーションに時間がかかってしまい、多くの依頼をこなせない

Etc...

自動化を進めていこう

P自動化の方針について

NW機器とのやりとりはCLI(SSH, TELNET), SNMP

CLIだとプログラムで扱いやすい形(JSON, XMLなど)になっていない

SNMPだと取得できる情報が不十分になってしまう

新しい機器、バージョンだとWebAPI、Netconfに対応しているもの

もあるが、古い機器でのオペレーションがまだ圧倒的に多い

極力構造化されたAPIを利用出来ないところは努力！

P自動化の方針について

マルチベンダーを利用するがゆえの問題点

NW機器ベンダーによって使いかたが大きく違う。

同じベンダーでも複数のOSがあり、情報取得方法が違う。

抽象化を進める

自動化へ

POS毎のアクセス方法を整理 9

OS API

Cisco IOS CLI

Cisco NXOS Netconf

Juniper JUNOS Netconf

Arista EOS EAPI

Brocade NetIron CLI

POS毎のアクセス方法を整理 10

Pしかし多くの問題が。。。 11

やっていくうちに出てくる問題たち(考慮漏れ)

NETCONFで取れるデータ != 構造化されたデータ

運用している機器すべてでWebAPIが利用できるわけでなかった

運用している機器すべてのバージョンを上げることが難しい

などなど ...

取得方法をCLIベースに変更

P次のステップへ 12

ログイン時にOSを意識する必要性は無くなった

コマンド、コマンド結果は未だOSを意識する必要が残った

=> 抽象化は不完全

P共通モデルの定義

取得したい内容を共通モデル化

コマンド結果の定義化

コアとなる考えのみ定義

すべてのOSで扱えるもの

P共通関数の定義 14

共通で利用する関数を用意

共通モデルを取得できる関数

コマンドでのOSの意識を消す

Pコマンド結果のパースが大変。。。 15

欲しい情報をコマンドから取得するのがとても大変。

既存のOSSを参考にすることに！

Pgoogle/textfsm 16

CLIの結果を解析するライブラリ

テンプレート(独自DSL)を記載すると簡単にCLIをパース出来る

多くのテンプレート実装が用意されている

Networktocode Orgが多くのテンプレートを用意してくれてる

https://github.com/networktocode/ntc-templates/tree/master/templates

OSSとして公開されている

https://github.com/google/textfsm

Pgoogle/textfsm利用のコード例 17

Pgoogle/textfsmコード例 18

P抽象化ひとまず完 19

IOS EOS

同じ方法で、色んなOSから情報が取得できるように！

Pオペレーション自動化へ

fabric(python)ベースでオペレーションを関数化(タスク化)

VLAN3897をTrunkする作業

既にVLAN3897は存在している

Po1 Po1

Po205Po205

Po205 Po205まだVLAN3897設定して

ない

mnx04.*****.ynwp snx04.*****.ynwp

es-c1e-b007-1 es-c1e-b007-2

Pメンテナンスの自動化

メンテナンスで行う内容

トラフィック寄せ(OSPF, VRRP)

インターフェースのダウンアップ

YAMLファイルに上記の内容を記載することでその状態にしてくれ

るコマンドを作成

設定を流すだけでなく、Before, Afterの状態を確認する

YAMLファイルも機器から情報を取得し自動生成

Pメンテナンスの自動化

行いたいことを記載することでOSを意識する必要なく、インター

フェースのup/downを実施することが出来るように！

Pまとめ

抽象化レイヤーの作成を行ったため、オペレーション自動化する

際のコーディングがとても楽に！

抽象化レイヤーのコードカバレッジが90％以上になるほどテストを

しっかりしたことも有り、バグがとても少なくなった

ベンダー毎に取り扱っている情報が違うため、すべてに置いて共

通化は出来なかったが重要概念はしっかり共通化できた

ネットワーク監視

Pネットワーク監視の見直し 25

PING監視

smokeping

リソース監視

問題点

情報が散らばってしまう

ツールがバラける(確認箇所の増加)

情報の詳細度が低い

UIがイケてない

Pネットワーク監視でやったこと

PING監視

パケットが落ちていないこと

複数拠点から

NW機器のリソース監視

トラフィック使用率

トラフィックが溢れていないこと

SFP故障によるパケットのドロップ

監視のHA化

P利用したツール Prometheus

Alertmanager

Grafana

PPrometheusとは Pull型(HTTP)のメトリクス監視ツール

Inspired by Google’s Borgmon

Alert管理機能を標準装備

Alertを発生させることが出来るし、管理ができる

多彩なService Discoveryに対応

OpenStack, Kubernetes, StaticFile ...

監視対象を自動的に見つけてくれる

公式で様々なメトリクス取得方法を提供

snmp_exporter, blackbox_exporter, node_exporter ...

PExporterについて

snmp_exporter

SNMPによる情報取得が出来る

node_exporter

*NIXのメトリクスを集めることが出来る

blackbox_exporter

外部監視をすることが出来る(pingなど)

Prometheus snmp_exporter

定期的に監視(HTTP) NW機器からトラフィック情報を取得(SNMP)

例: snmp_exporter

Prometheus

Prometheusの集約について(Federation) 30

Prometheus同士の集約・監視が可能

Prometheus

snmp_exporter

blackbox_exporter

Prometheus

Alertmanagerについて 31

• Prometheusから来たアラートをルールに応じてグループ化、通知先を変更可能• アラートの黙認など柔軟に設定が出来る

Alertmanager

Chatツール

メール送信

黙認

アラート

Pネットワーク監視でやったこと PING監視

複数拠点から

監視のHA化

PPING監視について 33

BlackboxExporterを利用

ICMP監視

Aggregateも2台構成

複数拠点(4箇所)すべてでPING失敗であったのが30s継続した場合、ア

ラートを発生させる監視設定を追加

複数拠点から

監視のHA化

Pリソース監視について 38

SnmpExporterを利用

監視・可視化のため16指標

の情報を取得

情報量が多いため、短期用

のPrometheusと長期の

Prometheusを設置

以下は定常的にアラート化していないが、いつでも確認できる状態に

トラフィック溢れによるパケットのドロップ

マイクロバーストや上限を超えるトラフィックがきたときに、

ifDiscardsが上昇するためそちらに閾値を設けアラートを実施

パケットが壊れている時など、ifErrorsが上昇するためそちらに閾値

を設けアラートを実施

複数拠点から

監視のHA化

PHA化について 44

AlertManagerをHA構成で稼働

アラートは2つのAlertManagerに連携されるが実際に通知される

のは1件のみになる。

Pアラート通知内容 45

Pまとめ情報を集約することで、適切なアラートだけ上げることが出来るようになった。

アラートに応じて、条件を細かく指定できることが良かった。

Alertmanagerによりアラートをグループ化することが出来るため、一気にア

ラートが来たときもグループでまとまりわかりやすくなった。

P今後について監視ツールとしての信頼性を高めていく

まだsmokeping, MRTGを利用して監視通知を上げている状態でもあるため、

それを完全に切り替えていきたい。

長期データの保持について考えていく

ご清聴ありがとうございました

ネットワークの自動化・監視の取り組みについて #netopscoding #npstudy

Technology

「ネットワーク」サンプルページ · のサービスやアプリケーションの開発，ネットワーク対応のゲームの制作にも役立つ． ... 6.4 ipv6

WhatsUp Gold 2017 TotalView エディション · WhatsUp® Gold 2017 TotalView エディションサーバーとアプリケーションとネットワークの高度な統合監視

Cisco SD-WAN (Viptela)...• AWS上のインスタンスの監視のほか、専用アカウントでvManageに定期的にログイン • Ciscoはコントローラーの設定管理や、ソフトウェアバージョンの管理、お客様ネットワーク自体の監視などは行わない

【ネットワーク仮想化事例セミナー 2017/2/28】ジュニパーのネットワーク自動化のビジョン

AXシリーズ監視カメラ向けネットワークソリュー …...オフィスビルにおけるセキュリティのための居室監視や、病院での患者の24 時間サポート、工場で人が容易

オープンソースでの統合監視管理について · Pandora FMS Zabbix ネットワーク ... VMware Xen,KVM VM

企業調査レポートテラスカイ · ※MSP（Management Services Provider）サービスとは、企業が保有するサーバーやネットワークの運用・監視・保守等のサービス。

PRTG v19をお選びいただきましてありがとうございます。PRTG Network Monitorはドイツ Paessler 社の強力なネットワーク監視ソフトウェア製品です。様々な監視技術を用いてネットワークの可

Google Cloud のネットワークとロードバランサ

自宅ネットワークの話 #MCCMMANCC

自治体ネットワーク監視サービス総務省「自治体システム強靭化向上事業」によるネットワーク分離後、個人番号利用事務系／ LGWAN接続系ネットワーク監視については、システム監視を行うベンダーや運用管理担当の職員様

HFC ネットワーク上のケーブルモデムの管理¬¬4 章 HFC ネットワーク上のケーブルモデムの管理 4-2 Cisco uBR10012 ユニバーサルブロードバンド

車載ネットワークのセキュリティ監視システムsei.co.jp/technology/tr/bn187/pdf/sei10850.pdfSecurity Authentication System for In-Vehicle Network 上田浩史＊

Nagios XI 製品ガイド...はNagios Core（オープンソースのITインフラ監視アプリケーション）をもとに開発された商用版の統合監視ソフトウェアアプリケーションです。ネットワーク上のホストや

ネットワークの基礎ネットワークの基礎it.open.ed.jp/text/09.pdf · 2007-06-03 · ネットワークの基礎 131 1学校で使うネットワーク校内 lan

クリニカル・イノベーション・ネットワーク（CIN）の背景と概 … · クリニカル・イノベーション・ネットワーク（CIN）の背景と概要

サーバー・ネットワーク監視ソフト PRTG Network Monitorのご紹介 … · 2017-12-24 · 監視システムの必要性＝インフラの見張り番！ 3 Lan サーバ

気候監視のための新しい高層気象観測ネットワークcps/pub/seminar/fy2011/2011-07...2011/07/27 · 気候監視のための新しい高層気象観測ネットワーク

ELK ではじめる自宅ネットワーク監視