Upload
recruit-technologies
View
240
Download
2
Embed Size (px)
Citation preview
2015年3月3日
VMUG年次総会
株式会社リクルートテクノロジーズ 藤田 尚樹 東條 考博
vCenter Operations Management Suite検証支援プログラム結果報告とその後
自己紹介
2005年 国内通信会社入社、通信サービス開発に従事
2009年 グループ内の研究所へ。情報検索に関する研究に従事
2013年 リクルートテクノロジーズ入社。 インフラ部門でサーバの構築・技術企画などを担当
~現在に至る
藤田 尚樹 Naoki FUJITA
株式会社リクルートテクノロジーズ
1.はじめに ~リクルートとリクルートテクノロジーズのご紹介
はじめに ~リクルートについて~
【企業概要】
創立 1960年3月31日「大学新聞広告社」としてスタート
グループ 従業員数
約 28,000名
連結売上高 約1兆1900億円 ※2014年3月末
連結経常利益 約1,220億円 ※2014年3月末
グループ 企業数
123社(海外含む)
目指す世界観
はじめに ~リクルートのサービス~
旅行
お稽古
時事
ファッション
飲食
ライフスタイル領域 ライフイベント領域
進学
就職
結婚
転職
住宅購入
車購入
出産/育児
「選択・意思決定・行動」を支援する
情報サービスの提供
はじめに ~リクルートテクノロジーズとは~
リクルートキャリア
リクルートジョブズ
リクルートスタッフィング
リクルート住まいカンパニー
リクルートライフスタイル
リクルートマーケティングパートナーズ
スタッフサービス・ホールディングス
リクルートアドミニストレーション
リクルートコミュニケーションズ
事業会社
機能会社 インフラ部門
大規模プロジェクト推進部門
UX設計/SEO部門
ビッグデータ機能部門
テクノロジーR&D部門
事業・社内IT推進部門
リクルート ホールディングス
リクルートのプライベートクラウドについて
リクルートのプライベートクラウドの軌跡
【インフラ統合前の状況(2006年~2007年頃)】
データセンタ1 サイト数 サーバ数 NW機器
専用1 109 65
データセンタ2 サイト数 サーバ数 NW機器
専用1 129 57
主サイト数 サーバ数 NW機器
8 526 287
データセンタ4
主サイト数 サーバ数 NW機器
32 574 298
データセンタ3
HOPE Arorua
Gemini
Kassul FROLIDA
4箇所 のデータセンター、 1400台 のサーバで構成
2009年にDCを1つに統合
億PV
年度
・NET社会基盤の充実→PVとインフラの負荷も右肩上がり ・DCごとに個別で体制を抱えることによる非効率
統合ネット インフラ
リクルートのプライベートクラウドの軌跡
統合ネットインフラ
構築 自動化ツール
840台の x86サーバ
サーバ
20台のヘッド 1.3PB
ストレージ
構築自動化 ツール
ツール
421台の NWスイッチ
NW
年間800億PV以上の トラフィックを 捌くシステム基盤
【統合インフラ構築(2009年~)】
リクルートのプライベートクラウドの軌跡
•9個のエリアの物理的統合 •3階層→2階層 •End to Endで10Gb化
②ネットワークの 統合、シンプル化
新技術採用により 大幅な拡張性向上、集約によるコスト削減を実現
FW LB
Fabric
③サーバ仮想化
•仮想化により台数集約 •物理サーバに依存しない柔軟なリソース割り当て
VM CPU メモリ ディスク
VM
ディスク
仮想化ソフトウェア
VM
ディスク
CPU
メモリ
物理サーバ
メモリ
CPU
①ストレージ 新技術の採用
•最新ハードウェアの採用 •ストレージOSの最新化 •大容量HDDの採用
…
…
…
最新スペックNASヘッド
【新統合インフラ構築(2013年~)】
仮想化によりサーバ台数を840+α→400台程度に削減
新統合インフラのサーバ仮想化
ハードウェア
CPUコア×16
256GB メモリ
1.2TB (RAID1+0)
vSphere5.1u1
VM
CPU
メモリ
ディスク
OS
Hyper-Threading
VM
CPU
メモリ
ディスク
OS
VM
CPU
メモリ
ディスク
OS
VM
CPU
メモリ
ディスク
OS
vCPU×32
旧インフラ
新統合インフラへの移行
• P2Vではなく新サーバ(VM)構築+ストレージのデータ同期
• 2013年夏から1年半程掛けて全サイトを移行中
新統合インフラ
VM VM VM VM VM
ストレージの同期機能によりコンテンツファイル
を移行
新たにサーバ(VM)を構築 コンフィグ等は旧環境の設定を
元に作成
vCenter Operations Management Suite検証
14
VMUG向け VMware製品評価サポートプログラム
概要
• 対象製品について、半年間(2014年4月からスタート)の期間、無償でご利用いただくことができます
• 評価結果をVMUGでの発表ならびにヴイエムウェアにフィードバック頂きます
• メンバーの方が製品の評価を正しく行えるようヴイエムウェアのスペシャリストSEが技術支援いたします
(1ヶ月に1回程度、技術支援およびフィードバックミーティングを実施)
対象製品
• vCenter Operations Management Suite (Enterprise Edition)
プログラム全体の参加条件
• 製品評価にお時間をとっていただける方
• 評価結果のVMUGでのご発表とヴイエムウェアへフィードバックして頂ける方
VMware製品の評価支援において、ヴイエムウェアのスペシャリストSEの直接、技術支援を行います!今回も、VMUG会員向けに特別枠を用意しました。
昨年の総会資料
バージョンは5.8
弊社内のインフラに関するフロー
下記のようなフローでウェブサービスを構築している
構築・技術検討T 運用T サイト担当
・・・
インフラ・VM構築
VM提供 運用窓口
vCOps検討
藤田
東條
・TAM ・スペシャリストSE
新統合インフラでのCPUキャパ管に対する課題感
– Hyper-Threading+CPUアフィニティによりキャパ管が複雑化
vCOps検証の主なモチベーション
• vCOpsの有用性が確認できたら導入を検討したい 有用性が確認できなくても・・・ • ESXi/VMのCPU関連のメトリクスを正しく理解して 既存のキャパ管理ツール(Cacti)に反映して解決
vCOpsの検証環境
検証用ホストでvCOpsを構築
VM数:1491、ホスト数:328
リソース(UI/Analyticsともに)
– CPU:4vCPU
– メモリ:16GB
VCOPS
本番VC#1 ESXi
VM VM
本番VC#2 ESXi
VM VM
本番VC#3 ESXi
VM VM
本番VC#4 ESXi
VM VM
検証VC
検証用ESXi
UI VM
Analytics VM
Webブラウザで TCP/443 へアクセス
vCenter Operations Management Suite検証
~評価結果
わかったこと
②データ蓄積/解析
①CPUキャパ管の メトリクス
③CustomUI
わかったこと
②データ蓄積/解析
①CPUキャパ管の メトリクス
③CustomUI
わかったこと①:CPUキャパ管のメトリクス
• CPU関連のESXi上のメトリクス
Usage
VMのCPU使用率
Ready
CPU待ち時間
COSTOP
CPU競合
Latency
総合的なCPU遅れ
CoreUTIL
コア毎のCPU使用率 ・・・
一般的にはReadyは重要らしい
Latencyって具体的には何?
コア毎に見る必要ある?
わかったこと①:CPUキャパ管のメトリクス
スペシャリストSEに相談した結果
• 弊社環境ではCPUアフィニティにより VM同士の競合なし ⇨RDY, COSTOPは発生しない
• Usage+Latencyで管理すれば良い
VM
vSphere
論理 コア
CPU CPU
物理コア
論理 コア
アフィニティ 専有
Usage Lat
100%
ESXi上でUsage+Latencyで管理
わかったこと
②データ蓄積/解析
①CPUキャパ管の メトリクス
③CustomUI
わかったこと②:データ蓄積/解析
検証中に運用TでCPUキャパ管に関する問題が発生
– VMのvCPU数変更時にCPU使用率が想定と異なり高騰
– OSレベルでの把握は困難
VMのCPU変更(半減)
わかったこと②:データ蓄積/解析
【OS上のCPU使用率@Cacti】 【VMのCPU使用率@vCOps】
Latency
Usage 40%
80%
vCOpsでデータを解析
– VM/メトリクス/時間の任意の組み合わせて解析可能
– 過去のデータも参照可能(Cactiなどでは事前に登録が必要)
– vCenterでは長期間のデータ蓄積ができない
Usage+Latency@vCOpsで確認するとCPUの余力が無い
vCOpsでデータを蓄積しておくことで問題解析に有用
7月
わかったこと②:データ蓄積/解析
4月
vCOps
サイトA
サイトB
サイトC
10月
データ蓄積
CPUキャパ管問題発生
同程度の負荷のVMや 同じ作業時のデータを解析
FoundationやStandardでデータを 蓄積しておくだけでも有用
様々なメトリクスを確認可能
わかったこと
②データ蓄積/解析
①CPUキャパ管の メトリクス
③CustomUI
わかったこと③:CustomUI
CPU使用率管理用のCustomUIを展開
構築・技術検討T 運用T サイト担当
・・・
・運用T用UI作成 ・サイト用UIテンプレ作成
運用T用UIで管理 サイト用UI作成・展開
サイト用UIで管理
わかったこと③:CustomUI
運用T用UI: 全VMのCPU使用率を調べられる画面を作成
わかったこと③:CustomUI
サイト用UI: サイト毎にVMのCPU使用率を一覧できる画面を作成
わかったこと③:CustomUI 運用Tの感想
• Cactiではグラフをカスタマイズするのに手間がかかるが、
CustomUIでは簡単にグラフ化して解析できるので稼働削減になる。
• CustomUIを見る分にはスキル的なハードルは低い。
• 新たな画面を作成しても、
蓄積している過去数ヶ月分のデータを参照できて便利。
わかったこと③:CustomUI
しかし、CustomUIを作成するのは少し大変
例えば動的にグラフを表示するには・・・
クリックしてグラフ表示
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<AdapterKinds>
<AdapterKind adapterKindId="4" adapterKindKey="VMWARE">
<ResourceKind resourceKindId="18"
resourceKindKey="VirtualMachine">
<Metric attrkeyId="303" attrkey="cpu|usage_average"
label="Usage Avg" unit="%" yellow="50.0" orange="60.0" red="80.0"/>
<Metric attrkeyId="15026" attrkey="cpu|latency_average"
label="CPU Latency" unit="%" yellow="50.0" orange="60.0"
red="80.0"/>
</ResourceKind>
</AdapterKind>
</AdapterKinds>
XMLを作成して登録する必要がある
設定値に関するマニュアルは見当たらず
わかったこと
②データ蓄積/解析
①CPUキャパ管の メトリクス
③CustomUI
○最適なメトリクスを理解 ×環境に適したメトリクス選定にはコンサル(TAM)が必要!
○任意のVM/メトリクス/時間 ○事前に対象データを登録不要
○テンプレからデプロイは簡易 ○利用者もスンナリ利用 ×作成は困難 マニュアル求む!
vCenter Operations Management Suite検証 結論
弊社のCPUキャパ管に必要なメトリクスが判明
⇨Cactiの収集対象として追加
検証の中で運用T・サイト担当にCustomUIを展開した結果
さらに
• 運用Tでは、トラブル解析などに便利であると判断 • 正式導入を検討することとなった
vCenter Operations Management Suite検証
~正式導入の検討
自己紹介
2003年 国内SIベンダ入社。金融系大規模システム更改に従事。
2010年 コンサル部門へ。自社製クラウド製品の検証・導入支援。
2012年 BigDataプロジェクト参画。性能設計と試験に従事。
2014年 リクルートテクノロジーズ入社。 インフラ部門でサーバの構築・技術企画などを担当
~現在に至る
東條 考博 Takahiro TOJOU
株式会社リクルートテクノロジーズ
導入方式
・できるだけ検証環境の設定を流用したいため Storage vMotion により Analytics/UI-VM を 本番環境VCの ESXi へ移行させる
(1) LocalにあるAnalytics/UI-VMのVMDKを まるごとNFSへStorage vMotion
(2) 本番ESXiにvAppを再登録
主な要件
・検証環境の設定を流用して効率よく移行 せっかく作ったものをゼロから作りたくない
・Backup運用方式の検討 静止点の取得方法など
・拡張性を考慮して外部ストレージ(NFS領域)へ配置
長期間のデータを保持したい
本格導入の検討における評価観点
②データ管理
①レポート機能
③コスト
本格導入の検討(1)レポート機能
運用レポートをそのまま使うのは難しい! 試行的にGUIで分析するには良いが 本格運用としてレポーティングするには辛い。
各項目の意味が不明 (表外に付記してほしい)
GUI画面のように グラフ化して欲しい
CSVファイルだと日本語が文字化けする
CSVとPDFでは データの並びが全然違う
本格導入の検討(1)レポート機能
• CustomUIを用いて任意の形式のレポートが可能
– プリントアウトやPDF化して対応レポートとして管理も
基本情報をテキスト表示
一次切り分けのための グラフを表示
状況説明などを入力
Analytics-VMのFSDBは柔軟性が乏しい DBのみのBackupが難しく 外部ストレージ配置も難しく
本格導入の検討(2)データ管理(FSDB)
問題: このDBだけBackupするのは無理。
問題: 対象VM数や保持期間により増加する。 将来的なサイジングが難しい。 ※FSDBのみ外部ストレージに配置するのは未サポート(管理者ガイドより)
Analytics VMを丸ごとバックアップすることに
本格導入の検討(3)コスト
VM25台単位にvCOps1ライセンス必要 →システム拡張のたびに考慮/購入が必要。 →システム増減に対して柔軟に対応できないのでは? (VMが減った場合は?)
VM数に対するライセンスだとコスト見積りが煩雑に
→VM増減幅が大きくなるとコスト影響も大きくなる
→案件ベースでVM増築をしていると、 台数予測を各部署にヒアリングする必要があり大変
本格導入の検討結果
②データ管理
①レポート機能
③コスト
×標準レポート機能は使いものにならない
○CustomUIを使ったレポートは使えそう
×Backup/拡張性に難あり
⇨バージョンアップによる改善を期待
×ライセンスの考え方を変えて欲しい
(VM数に依存しないライセンス体系など)
まとめ
• vCOpsは、導入してデータ蓄積をしておくことで いざというときに活用できる。(Foundationでも?)
• CustomUIは他部署に展開する場合などは大変便利。 しかし、Advanced以上 + 使いこなすのは難しい。
• 実際に導入する上ではデータバックアップやレポート機能など、サブ機能も充実されると嬉しい。
まとめ
マニュアル充実求む!
導入は大変オススメです。
vCOps6.0に期待
Standardでも利用できるようにして頂ければ…
ここまでがvForum2014での発表内容です。
で、その後・・・
vCOpsのバグ発生(VC間通信が起因でVCメモリリーク発生)
vCOps導入
vCOps停止
SR:14550514211
セッションクローズ時
のログアウト処理が正常完了せずに
終了したことが原因
VCのメモリ使用率(赤がUsed)
問題解決まで 一旦導入を凍結
正式パッチ提供は2015年3月になる見込み
2013年
10月
2014年
10月
11月N日
12:00 11月N+1日
10:00
vROpsへブランド変更
• 2014年11月発表
vROpsへブランド変更
・機能や構造は変わらず ・GUI画面とレポートの カスタマイズを強化
vROpsによりvCOpsの課題はどうなったか?
②データ管理
①レポート機能
③コスト
○カスタマイズ可能なダッシュボードと
レポート機能を強化!
(Advanced Editionより)
△拡張:規模に応じてスケールアウト可能
(但しLBは独自で用意する必要あり)
✕Backup:SysとDBは一緒のボリューム
?見積依頼中。
前回よりは安いはず(by TAM)
×標準レポート機能は使いものにならない
○CustomUIを使ったレポートは使えそう
×Backup/拡張性に難あり
⇨バージョンアップによる改善を期待
×ライセンスの考え方を変えて欲しい
(VM数に依存しないライセンス体系など)
最後に
今回のプログラムを企画・提供していただきましたVMware社様及び、ご支援いただいたTAM・スペシャリストSEの方に感謝を申し上げます
本日はご清聴いただきありがとうございました