54
2015年3月3日 VMUG年次総会 株式会社リクルートテクノロジーズ 藤田 尚樹 東條 考博 vCenter Operations Management Suite 検証支援プログラム結果報告とその後

vCenter Operations Management Suite 検証支援プログラム結果報告とその後

Embed Size (px)

Citation preview

Page 1: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

2015年3月3日

VMUG年次総会

株式会社リクルートテクノロジーズ 藤田 尚樹 東條 考博

vCenter Operations Management Suite検証支援プログラム結果報告とその後

Page 2: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

自己紹介

2005年 国内通信会社入社、通信サービス開発に従事

2009年 グループ内の研究所へ。情報検索に関する研究に従事

2013年 リクルートテクノロジーズ入社。 インフラ部門でサーバの構築・技術企画などを担当

~現在に至る

藤田 尚樹 Naoki FUJITA

株式会社リクルートテクノロジーズ

Page 3: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

1.はじめに ~リクルートとリクルートテクノロジーズのご紹介

Page 4: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

はじめに ~リクルートについて~

【企業概要】

創立 1960年3月31日「大学新聞広告社」としてスタート

グループ 従業員数

約 28,000名

連結売上高 約1兆1900億円 ※2014年3月末

連結経常利益 約1,220億円 ※2014年3月末

グループ 企業数

123社(海外含む)

目指す世界観

Page 5: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

はじめに ~リクルートのサービス~

旅行

お稽古

時事

ファッション

飲食

ライフスタイル領域 ライフイベント領域

進学

就職

結婚

転職

住宅購入

車購入

出産/育児

「選択・意思決定・行動」を支援する

情報サービスの提供

Page 6: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

はじめに ~リクルートテクノロジーズとは~

リクルートキャリア

リクルートジョブズ

リクルートスタッフィング

リクルート住まいカンパニー

リクルートライフスタイル

リクルートマーケティングパートナーズ

スタッフサービス・ホールディングス

リクルートアドミニストレーション

リクルートコミュニケーションズ

事業会社

機能会社 インフラ部門

大規模プロジェクト推進部門

UX設計/SEO部門

ビッグデータ機能部門

テクノロジーR&D部門

事業・社内IT推進部門

リクルート ホールディングス

Page 7: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

リクルートのプライベートクラウドについて

Page 8: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

リクルートのプライベートクラウドの軌跡

【インフラ統合前の状況(2006年~2007年頃)】

データセンタ1 サイト数 サーバ数 NW機器

専用1 109 65

データセンタ2 サイト数 サーバ数 NW機器

専用1 129 57

主サイト数 サーバ数 NW機器

8 526 287

データセンタ4

主サイト数 サーバ数 NW機器

32 574 298

データセンタ3

HOPE Arorua

Gemini

Kassul FROLIDA

4箇所 のデータセンター、 1400台 のサーバで構成

2009年にDCを1つに統合

億PV

年度

・NET社会基盤の充実→PVとインフラの負荷も右肩上がり ・DCごとに個別で体制を抱えることによる非効率

統合ネット インフラ

Page 9: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

リクルートのプライベートクラウドの軌跡

統合ネットインフラ

構築 自動化ツール

840台の x86サーバ

サーバ

20台のヘッド 1.3PB

ストレージ

構築自動化 ツール

ツール

421台の NWスイッチ

NW

年間800億PV以上の トラフィックを 捌くシステム基盤

【統合インフラ構築(2009年~)】

Page 10: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

リクルートのプライベートクラウドの軌跡

•9個のエリアの物理的統合 •3階層→2階層 •End to Endで10Gb化

②ネットワークの 統合、シンプル化

新技術採用により 大幅な拡張性向上、集約によるコスト削減を実現

FW LB

Fabric

③サーバ仮想化

•仮想化により台数集約 •物理サーバに依存しない柔軟なリソース割り当て

VM CPU メモリ ディスク

VM

ディスク

仮想化ソフトウェア

VM

ディスク

CPU

メモリ

物理サーバ

メモリ

CPU

①ストレージ 新技術の採用

•最新ハードウェアの採用 •ストレージOSの最新化 •大容量HDDの採用

最新スペックNASヘッド

【新統合インフラ構築(2013年~)】

Page 11: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

仮想化によりサーバ台数を840+α→400台程度に削減

新統合インフラのサーバ仮想化

ハードウェア

CPUコア×16

256GB メモリ

1.2TB (RAID1+0)

vSphere5.1u1

VM

CPU

メモリ

ディスク

OS

Hyper-Threading

VM

CPU

メモリ

ディスク

OS

VM

CPU

メモリ

ディスク

OS

VM

CPU

メモリ

ディスク

OS

vCPU×32

Page 12: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

旧インフラ

新統合インフラへの移行

• P2Vではなく新サーバ(VM)構築+ストレージのデータ同期

• 2013年夏から1年半程掛けて全サイトを移行中

新統合インフラ

VM VM VM VM VM

ストレージの同期機能によりコンテンツファイル

を移行

新たにサーバ(VM)を構築 コンフィグ等は旧環境の設定を

元に作成

Page 13: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

vCenter Operations Management Suite検証

Page 14: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

14

VMUG向け VMware製品評価サポートプログラム

概要

• 対象製品について、半年間(2014年4月からスタート)の期間、無償でご利用いただくことができます

• 評価結果をVMUGでの発表ならびにヴイエムウェアにフィードバック頂きます

• メンバーの方が製品の評価を正しく行えるようヴイエムウェアのスペシャリストSEが技術支援いたします

(1ヶ月に1回程度、技術支援およびフィードバックミーティングを実施)

対象製品

• vCenter Operations Management Suite (Enterprise Edition)

プログラム全体の参加条件

• 製品評価にお時間をとっていただける方

• 評価結果のVMUGでのご発表とヴイエムウェアへフィードバックして頂ける方

VMware製品の評価支援において、ヴイエムウェアのスペシャリストSEの直接、技術支援を行います!今回も、VMUG会員向けに特別枠を用意しました。

昨年の総会資料

バージョンは5.8

Page 15: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

弊社内のインフラに関するフロー

下記のようなフローでウェブサービスを構築している

構築・技術検討T 運用T サイト担当

・・・

インフラ・VM構築

VM提供 運用窓口

vCOps検討

藤田

東條

・TAM ・スペシャリストSE

Page 16: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

新統合インフラでのCPUキャパ管に対する課題感

– Hyper-Threading+CPUアフィニティによりキャパ管が複雑化

vCOps検証の主なモチベーション

• vCOpsの有用性が確認できたら導入を検討したい 有用性が確認できなくても・・・ • ESXi/VMのCPU関連のメトリクスを正しく理解して 既存のキャパ管理ツール(Cacti)に反映して解決

Page 17: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

vCOpsの検証環境

検証用ホストでvCOpsを構築

VM数:1491、ホスト数:328

リソース(UI/Analyticsともに)

– CPU:4vCPU

– メモリ:16GB

VCOPS

本番VC#1 ESXi

VM VM

本番VC#2 ESXi

VM VM

本番VC#3 ESXi

VM VM

本番VC#4 ESXi

VM VM

検証VC

検証用ESXi

UI VM

Analytics VM

Webブラウザで TCP/443 へアクセス

Page 18: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

vCenter Operations Management Suite検証

~評価結果

Page 19: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

わかったこと

②データ蓄積/解析

①CPUキャパ管の メトリクス

③CustomUI

Page 20: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

わかったこと

②データ蓄積/解析

①CPUキャパ管の メトリクス

③CustomUI

Page 21: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

わかったこと①:CPUキャパ管のメトリクス

• CPU関連のESXi上のメトリクス

Usage

VMのCPU使用率

Ready

CPU待ち時間

COSTOP

CPU競合

Latency

総合的なCPU遅れ

CoreUTIL

コア毎のCPU使用率 ・・・

一般的にはReadyは重要らしい

Latencyって具体的には何?

コア毎に見る必要ある?

Page 22: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

わかったこと①:CPUキャパ管のメトリクス

スペシャリストSEに相談した結果

• 弊社環境ではCPUアフィニティにより VM同士の競合なし ⇨RDY, COSTOPは発生しない

• Usage+Latencyで管理すれば良い

VM

vSphere

論理 コア

CPU CPU

物理コア

論理 コア

アフィニティ 専有

Usage Lat

100%

ESXi上でUsage+Latencyで管理

Page 23: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

わかったこと

②データ蓄積/解析

①CPUキャパ管の メトリクス

③CustomUI

Page 24: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

わかったこと②:データ蓄積/解析

検証中に運用TでCPUキャパ管に関する問題が発生

– VMのvCPU数変更時にCPU使用率が想定と異なり高騰

– OSレベルでの把握は困難

VMのCPU変更(半減)

Page 25: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

わかったこと②:データ蓄積/解析

【OS上のCPU使用率@Cacti】 【VMのCPU使用率@vCOps】

Latency

Usage 40%

80%

vCOpsでデータを解析

– VM/メトリクス/時間の任意の組み合わせて解析可能

– 過去のデータも参照可能(Cactiなどでは事前に登録が必要)

– vCenterでは長期間のデータ蓄積ができない

Usage+Latency@vCOpsで確認するとCPUの余力が無い

Page 26: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

vCOpsでデータを蓄積しておくことで問題解析に有用

7月

わかったこと②:データ蓄積/解析

4月

vCOps

サイトA

サイトB

サイトC

10月

データ蓄積

CPUキャパ管問題発生

同程度の負荷のVMや 同じ作業時のデータを解析

FoundationやStandardでデータを 蓄積しておくだけでも有用

様々なメトリクスを確認可能

Page 27: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

わかったこと

②データ蓄積/解析

①CPUキャパ管の メトリクス

③CustomUI

Page 28: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

わかったこと③:CustomUI

CPU使用率管理用のCustomUIを展開

構築・技術検討T 運用T サイト担当

・・・

・運用T用UI作成 ・サイト用UIテンプレ作成

運用T用UIで管理 サイト用UI作成・展開

サイト用UIで管理

Page 29: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

わかったこと③:CustomUI

運用T用UI: 全VMのCPU使用率を調べられる画面を作成

Page 30: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

わかったこと③:CustomUI

サイト用UI: サイト毎にVMのCPU使用率を一覧できる画面を作成

Page 31: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

わかったこと③:CustomUI 運用Tの感想

• Cactiではグラフをカスタマイズするのに手間がかかるが、

CustomUIでは簡単にグラフ化して解析できるので稼働削減になる。

• CustomUIを見る分にはスキル的なハードルは低い。

• 新たな画面を作成しても、

蓄積している過去数ヶ月分のデータを参照できて便利。

Page 32: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

わかったこと③:CustomUI

しかし、CustomUIを作成するのは少し大変

例えば動的にグラフを表示するには・・・

クリックしてグラフ表示

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>

<AdapterKinds>

<AdapterKind adapterKindId="4" adapterKindKey="VMWARE">

<ResourceKind resourceKindId="18"

resourceKindKey="VirtualMachine">

<Metric attrkeyId="303" attrkey="cpu|usage_average"

label="Usage Avg" unit="%" yellow="50.0" orange="60.0" red="80.0"/>

<Metric attrkeyId="15026" attrkey="cpu|latency_average"

label="CPU Latency" unit="%" yellow="50.0" orange="60.0"

red="80.0"/>

</ResourceKind>

</AdapterKind>

</AdapterKinds>

XMLを作成して登録する必要がある

設定値に関するマニュアルは見当たらず

Page 33: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

わかったこと

②データ蓄積/解析

①CPUキャパ管の メトリクス

③CustomUI

○最適なメトリクスを理解 ×環境に適したメトリクス選定にはコンサル(TAM)が必要!

○任意のVM/メトリクス/時間 ○事前に対象データを登録不要

○テンプレからデプロイは簡易 ○利用者もスンナリ利用 ×作成は困難 マニュアル求む!

Page 34: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

vCenter Operations Management Suite検証 結論

弊社のCPUキャパ管に必要なメトリクスが判明

⇨Cactiの収集対象として追加

検証の中で運用T・サイト担当にCustomUIを展開した結果

さらに

• 運用Tでは、トラブル解析などに便利であると判断 • 正式導入を検討することとなった

Page 35: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

vCenter Operations Management Suite検証

~正式導入の検討

Page 36: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

自己紹介

2003年 国内SIベンダ入社。金融系大規模システム更改に従事。

2010年 コンサル部門へ。自社製クラウド製品の検証・導入支援。

2012年 BigDataプロジェクト参画。性能設計と試験に従事。

2014年 リクルートテクノロジーズ入社。 インフラ部門でサーバの構築・技術企画などを担当

~現在に至る

東條 考博 Takahiro TOJOU

株式会社リクルートテクノロジーズ

Page 37: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

導入方式

・できるだけ検証環境の設定を流用したいため Storage vMotion により Analytics/UI-VM を 本番環境VCの ESXi へ移行させる

(1) LocalにあるAnalytics/UI-VMのVMDKを まるごとNFSへStorage vMotion

(2) 本番ESXiにvAppを再登録

Page 38: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

主な要件

・検証環境の設定を流用して効率よく移行 せっかく作ったものをゼロから作りたくない

・Backup運用方式の検討 静止点の取得方法など

・拡張性を考慮して外部ストレージ(NFS領域)へ配置

長期間のデータを保持したい

Page 39: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

本格導入の検討における評価観点

②データ管理

①レポート機能

③コスト

Page 40: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

本格導入の検討(1)レポート機能

運用レポートをそのまま使うのは難しい! 試行的にGUIで分析するには良いが 本格運用としてレポーティングするには辛い。

各項目の意味が不明 (表外に付記してほしい)

GUI画面のように グラフ化して欲しい

CSVファイルだと日本語が文字化けする

CSVとPDFでは データの並びが全然違う

Page 41: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

本格導入の検討(1)レポート機能

• CustomUIを用いて任意の形式のレポートが可能

– プリントアウトやPDF化して対応レポートとして管理も

基本情報をテキスト表示

一次切り分けのための グラフを表示

状況説明などを入力

Page 42: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

Analytics-VMのFSDBは柔軟性が乏しい DBのみのBackupが難しく 外部ストレージ配置も難しく

本格導入の検討(2)データ管理(FSDB)

問題: このDBだけBackupするのは無理。

問題: 対象VM数や保持期間により増加する。 将来的なサイジングが難しい。 ※FSDBのみ外部ストレージに配置するのは未サポート(管理者ガイドより)

Analytics VMを丸ごとバックアップすることに

Page 43: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

本格導入の検討(3)コスト

VM25台単位にvCOps1ライセンス必要 →システム拡張のたびに考慮/購入が必要。 →システム増減に対して柔軟に対応できないのでは? (VMが減った場合は?)

VM数に対するライセンスだとコスト見積りが煩雑に

→VM増減幅が大きくなるとコスト影響も大きくなる

→案件ベースでVM増築をしていると、 台数予測を各部署にヒアリングする必要があり大変

Page 44: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

本格導入の検討結果

②データ管理

①レポート機能

③コスト

×標準レポート機能は使いものにならない

○CustomUIを使ったレポートは使えそう

×Backup/拡張性に難あり

⇨バージョンアップによる改善を期待

×ライセンスの考え方を変えて欲しい

(VM数に依存しないライセンス体系など)

Page 45: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

まとめ

Page 46: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

• vCOpsは、導入してデータ蓄積をしておくことで いざというときに活用できる。(Foundationでも?)

• CustomUIは他部署に展開する場合などは大変便利。 しかし、Advanced以上 + 使いこなすのは難しい。

• 実際に導入する上ではデータバックアップやレポート機能など、サブ機能も充実されると嬉しい。

まとめ

マニュアル充実求む!

導入は大変オススメです。

vCOps6.0に期待

Standardでも利用できるようにして頂ければ…

Page 47: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

ここまでがvForum2014での発表内容です。

Page 48: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

で、その後・・・

Page 49: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

vCOpsのバグ発生(VC間通信が起因でVCメモリリーク発生)

vCOps導入

vCOps停止

SR:14550514211

セッションクローズ時

のログアウト処理が正常完了せずに

終了したことが原因

VCのメモリ使用率(赤がUsed)

問題解決まで 一旦導入を凍結

正式パッチ提供は2015年3月になる見込み

2013年

10月

2014年

10月

11月N日

12:00 11月N+1日

10:00

Page 50: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

vROpsへブランド変更

• 2014年11月発表

Page 51: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

vROpsへブランド変更

・機能や構造は変わらず ・GUI画面とレポートの カスタマイズを強化

Page 52: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

vROpsによりvCOpsの課題はどうなったか?

②データ管理

①レポート機能

③コスト

○カスタマイズ可能なダッシュボードと

レポート機能を強化!

(Advanced Editionより)

△拡張:規模に応じてスケールアウト可能

(但しLBは独自で用意する必要あり)

✕Backup:SysとDBは一緒のボリューム

?見積依頼中。

前回よりは安いはず(by TAM)

×標準レポート機能は使いものにならない

○CustomUIを使ったレポートは使えそう

×Backup/拡張性に難あり

⇨バージョンアップによる改善を期待

×ライセンスの考え方を変えて欲しい

(VM数に依存しないライセンス体系など)

Page 53: vCenter Operations Management Suite 検証支援プログラム結果報告とその後

最後に

今回のプログラムを企画・提供していただきましたVMware社様及び、ご支援いただいたTAM・スペシャリストSEの方に感謝を申し上げます

本日はご清聴いただきありがとうございました

Page 54: vCenter Operations Management Suite 検証支援プログラム結果報告とその後