20080402 Възстановяване след сривове и аварии

Preview:

Citation preview

ТЕХНОЛОГИИ ЗА ОПЕРИРАНЕ ПРИ КРИЗИ И АВАРИИ

5та Национална конференция

ТЕЛЕКОМУНИКАЦИОННИ ТЕХНОЛОГИИ И УСЛУГИ ЗА БИЗНЕСА 2 април 2008 г.

Николай Димитров, CIA, CCSA Старши вътрешен одитор

Петрол Холдинг АД

Понятия

Възстановяване след сривове и аварии

• Процес на възстановяване на (по възможност) пълната

функционалност на бизнес процесите и системите след

кризи, бедствия, сривове и аварии

Планиране възстановяването след сривове и аварии

• Дейност на ръководството, свързана с определянето на

необходимите действия за възстановяване на бизнеса и

системите и управление изпълнението на тези действия

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 2

Възстановяване след сривове, кризи

и аварии - цели

Опазване живота и сигурността на служителите и външните лица

Минимизиране на непосредствените щети и загуби в следствие на аварии

Обезпечаване своевременното възстановяване на работната среда и съоръженията

Обезпечаване възобновяването на критичните бизнес процеси

Обучаване на ключовите служители от екипа за действие при бедствия и аварии

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 3

Планиране за възстановяване след

сривове и аварии

Иницииране на проект за изготвяне на план

• Намерете спонсор и средства

Оценка на приложимите рискове

Оценка на въздействието им върху бизнеса

Изготвяне на стратегия за тяхното управление

Изготвяне на план за възстановяване

Обучение на служителите и периодично тестване на

плана

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 4

Неблагоприятни събития, водещи

до сривове и аварии (1/2)

Природни

– Силни снеговалежи

– Продължителни

дъждове, наводнения

– Силни ветрове

– Високи температури

– Пожари

– Земетресения

– Свличания на земни

маси

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 5

Сеизмична активност в България за периода

1 ноември 2006 – 31 октомври 2007 година

в брой събития за единица време на площ от 100 km2

Източник:

Изследване на Геофизичния институт на БАН

Неблагоприятни събития, водещи

до сривове и аварии (2/2)

Човешки фактор

– Вандалщина, тероризъм

– Експлозии, индустриални

пожари

– Кибер атаки

– Бунтове, демонстрации,

стачки

– Кражби и увреждане на

активи

– Небрежност,

некомпетентност

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 6

Инфраструктурни и технологични – Смущения в захранването

– Прекъснати комуникационни трасета

– Неподходящо охлаждане и влажност в помещенията с оборудването

– Дефектирали компоненти

– Програмни грешки

Последствия от неадекватно

управлявани рискове (1/2)

Увеличаване на щетите (вкл. човешки жертви) заради

паника на служителите и неподготвеност за действие в

случай на бедствия и аварии

Санкции за несъответствие с приложимото законодателство

(напр. мерки за противопожарна охрана)

Неспособност за бърза реакция поради неидентифицирани

и неразпределени отговорности между служителите

Загуби от престой, заради неяснота кои процеси са

критични и трябва да бъдат възстановени първи

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 7

Последствия от неадекватно

управлявани рискове (2/2)

Унищожени или загубени данни (CDR, билинг) и активи

Загуба доверието на бизнес партньорите

Загуба на клиенти и приход

Пропуснати ползи от незастраховане на активи

Продължителна неработоспособност на организацията

заради липса или късно осигуряване на резервни мощности

Неспособност за изпълнение на плана заради остарели и

неприложими процедури

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 8

Показатели за оценка на технологично

решение за възстановяване след аварии

RTO – Максимално допустимия downtime след срива, в рамките на който трябва да бъдат възстановени системите и процесите

RPO – Най-ранният момент във времето, към който трябва да бъдат възстановени системите и процесите

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 9

Време

Последен архив, или

момент, към който

данните са използваеми

Настъпва бедствие или

авария

Системите са

възстановени

Recovery Point

Objective

Recovery Time

Objective

Колко назад? Колко дълго?

Споразумения за параметрите на предоставяните

услуги (Service Level Agreements, SLA)

Кога задействаме Плана за възстановяване? • При незначителни прекъсвания – изисквания за “висока степен

на достъпност на услугите” (High Availability)

• При съществени прекъсвания – изисквания за задействане на План за възстановяване

• Обявяване на бедствие – част от процедурите за ескалация

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 10

Функционалност

Нищо не работи SLA предвижда действия

за възстановяване

Системите функционират

0% 100%

Потребителите забелязват

смущения и влошаване

качеството на услугите

“Дупката” може да е голяма

заради стремежа (целите) за

ограничаване на разходите

Сценарии за сривове и

категоризация на действията

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 11

Несъществено прекъсване

покрива “нормалните дейности”

Изисква Висока степен на достъпност

SLA параметри:

Достъпност: 99,99%

Честота: 2 инцидента за 3 месеца

Прекъсване: макс. 15 мин. на инцидент

Съществено прекъсване*, “бедствие”

Изисква Дейности по възстановяване

RTO: 1 час

RPO: 8 часа

Време за възстановяване на услугите: 2 седмици

• Сриване на сървър

• Operating System panic

• Загуба на данни вследствие на

потребителска грешка

• Софтуерна грешка води до увреждане на

данните

• Природно бедствие унищожава

сървър(ите)

• Авария уврежда сървърно помещение

• Загуба на данни вследствие на

грешка на системен администратор

•Отказ от сработване на резервно

оборудване

* Срив, водещ до неспособност да се възстанови достъпността и качеството

на осигуряваните ІТ услуги за потребителите в рамките на “изискванията

за достъпност” в SLA

Архитектури за минимизиране на

последиците от сривове и аварии (1/2)

Основни и резервни центрове за обработка

• Собствен резервен център

• “Реципрочни” споразумения за ползване на център на друга

компания

• Outsourcing

Синхронизация на системите в двата центъра

Споделени системи, Hot & Cold Sites

• Hot – напълно конфигуриран център, готов за ползване до час

• Cold – Hot Site без оборудване, готов за ползване при

инсталирането му

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 12

Архитектури за минимизиране на

последиците от сривове и аварии (2/2)

Мобилен изчислителен

център

Мобилни офиси

Други изчислителни

центрове на

организацията

(Enterprise co-location)

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 13

Disaster-tolerant архитектури

Географска отдалеченост • Campus/ Metro/ Continental клъстери

− Клъстер: Група от свързани устройства, работеща като една цяла, скалируема и високонадеждна система

Off-line & on-line репликация на данните • User-level, Software-based, Database, Disk Subsystem

Резервираност на захранването и HVAC (heating, ventilation, air-conditioning) системите

Надеждни и с достатъчен капацитет комуникационни линии

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 14

Клъстерна архитектура (1/3)

Асиметрична дву-нодова

Симетрична дву-нодова

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 15

Клъстерна архитектура (2/3)

SAN-базиран клъстер с

“any-to-any” failover

режим

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 16

Клъстерна архитектура (2/3)

Географски отдалечени

клъстери

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 17

Благодаря за вниманието!

18 5та Национална конференция Телекомуникационни технологии и услуги за бизнеса

Recommended