18
ТЕХНОЛОГИИ ЗА ОПЕРИРАНЕ ПРИ КРИЗИ И АВАРИИ 5 та Национална конференция ТЕЛЕКОМУНИКАЦИОННИ ТЕХНОЛОГИИ И УСЛУГИ ЗА БИЗНЕСА 2 април 2008 г. Николай Димитров, CIA, CCSA Старши вътрешен одитор Петрол Холдинг АД

20080402 Възстановяване след сривове и аварии

Embed Size (px)

Citation preview

Page 1: 20080402 Възстановяване след сривове и аварии

ТЕХНОЛОГИИ ЗА ОПЕРИРАНЕ ПРИ КРИЗИ И АВАРИИ

5та Национална конференция

ТЕЛЕКОМУНИКАЦИОННИ ТЕХНОЛОГИИ И УСЛУГИ ЗА БИЗНЕСА 2 април 2008 г.

Николай Димитров, CIA, CCSA Старши вътрешен одитор

Петрол Холдинг АД

Page 2: 20080402 Възстановяване след сривове и аварии

Понятия

Възстановяване след сривове и аварии

• Процес на възстановяване на (по възможност) пълната

функционалност на бизнес процесите и системите след

кризи, бедствия, сривове и аварии

Планиране възстановяването след сривове и аварии

• Дейност на ръководството, свързана с определянето на

необходимите действия за възстановяване на бизнеса и

системите и управление изпълнението на тези действия

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 2

Page 3: 20080402 Възстановяване след сривове и аварии

Възстановяване след сривове, кризи

и аварии - цели

Опазване живота и сигурността на служителите и външните лица

Минимизиране на непосредствените щети и загуби в следствие на аварии

Обезпечаване своевременното възстановяване на работната среда и съоръженията

Обезпечаване възобновяването на критичните бизнес процеси

Обучаване на ключовите служители от екипа за действие при бедствия и аварии

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 3

Page 4: 20080402 Възстановяване след сривове и аварии

Планиране за възстановяване след

сривове и аварии

Иницииране на проект за изготвяне на план

• Намерете спонсор и средства

Оценка на приложимите рискове

Оценка на въздействието им върху бизнеса

Изготвяне на стратегия за тяхното управление

Изготвяне на план за възстановяване

Обучение на служителите и периодично тестване на

плана

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 4

Page 5: 20080402 Възстановяване след сривове и аварии

Неблагоприятни събития, водещи

до сривове и аварии (1/2)

Природни

– Силни снеговалежи

– Продължителни

дъждове, наводнения

– Силни ветрове

– Високи температури

– Пожари

– Земетресения

– Свличания на земни

маси

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 5

Сеизмична активност в България за периода

1 ноември 2006 – 31 октомври 2007 година

в брой събития за единица време на площ от 100 km2

Източник:

Изследване на Геофизичния институт на БАН

Page 6: 20080402 Възстановяване след сривове и аварии

Неблагоприятни събития, водещи

до сривове и аварии (2/2)

Човешки фактор

– Вандалщина, тероризъм

– Експлозии, индустриални

пожари

– Кибер атаки

– Бунтове, демонстрации,

стачки

– Кражби и увреждане на

активи

– Небрежност,

некомпетентност

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 6

Инфраструктурни и технологични – Смущения в захранването

– Прекъснати комуникационни трасета

– Неподходящо охлаждане и влажност в помещенията с оборудването

– Дефектирали компоненти

– Програмни грешки

Page 7: 20080402 Възстановяване след сривове и аварии

Последствия от неадекватно

управлявани рискове (1/2)

Увеличаване на щетите (вкл. човешки жертви) заради

паника на служителите и неподготвеност за действие в

случай на бедствия и аварии

Санкции за несъответствие с приложимото законодателство

(напр. мерки за противопожарна охрана)

Неспособност за бърза реакция поради неидентифицирани

и неразпределени отговорности между служителите

Загуби от престой, заради неяснота кои процеси са

критични и трябва да бъдат възстановени първи

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 7

Page 8: 20080402 Възстановяване след сривове и аварии

Последствия от неадекватно

управлявани рискове (2/2)

Унищожени или загубени данни (CDR, билинг) и активи

Загуба доверието на бизнес партньорите

Загуба на клиенти и приход

Пропуснати ползи от незастраховане на активи

Продължителна неработоспособност на организацията

заради липса или късно осигуряване на резервни мощности

Неспособност за изпълнение на плана заради остарели и

неприложими процедури

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 8

Page 9: 20080402 Възстановяване след сривове и аварии

Показатели за оценка на технологично

решение за възстановяване след аварии

RTO – Максимално допустимия downtime след срива, в рамките на който трябва да бъдат възстановени системите и процесите

RPO – Най-ранният момент във времето, към който трябва да бъдат възстановени системите и процесите

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 9

Време

Последен архив, или

момент, към който

данните са използваеми

Настъпва бедствие или

авария

Системите са

възстановени

Recovery Point

Objective

Recovery Time

Objective

Колко назад? Колко дълго?

Page 10: 20080402 Възстановяване след сривове и аварии

Споразумения за параметрите на предоставяните

услуги (Service Level Agreements, SLA)

Кога задействаме Плана за възстановяване? • При незначителни прекъсвания – изисквания за “висока степен

на достъпност на услугите” (High Availability)

• При съществени прекъсвания – изисквания за задействане на План за възстановяване

• Обявяване на бедствие – част от процедурите за ескалация

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 10

Функционалност

Нищо не работи SLA предвижда действия

за възстановяване

Системите функционират

0% 100%

Потребителите забелязват

смущения и влошаване

качеството на услугите

“Дупката” може да е голяма

заради стремежа (целите) за

ограничаване на разходите

Page 11: 20080402 Възстановяване след сривове и аварии

Сценарии за сривове и

категоризация на действията

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 11

Несъществено прекъсване

покрива “нормалните дейности”

Изисква Висока степен на достъпност

SLA параметри:

Достъпност: 99,99%

Честота: 2 инцидента за 3 месеца

Прекъсване: макс. 15 мин. на инцидент

Съществено прекъсване*, “бедствие”

Изисква Дейности по възстановяване

RTO: 1 час

RPO: 8 часа

Време за възстановяване на услугите: 2 седмици

• Сриване на сървър

• Operating System panic

• Загуба на данни вследствие на

потребителска грешка

• Софтуерна грешка води до увреждане на

данните

• Природно бедствие унищожава

сървър(ите)

• Авария уврежда сървърно помещение

• Загуба на данни вследствие на

грешка на системен администратор

•Отказ от сработване на резервно

оборудване

* Срив, водещ до неспособност да се възстанови достъпността и качеството

на осигуряваните ІТ услуги за потребителите в рамките на “изискванията

за достъпност” в SLA

Page 12: 20080402 Възстановяване след сривове и аварии

Архитектури за минимизиране на

последиците от сривове и аварии (1/2)

Основни и резервни центрове за обработка

• Собствен резервен център

• “Реципрочни” споразумения за ползване на център на друга

компания

• Outsourcing

Синхронизация на системите в двата центъра

Споделени системи, Hot & Cold Sites

• Hot – напълно конфигуриран център, готов за ползване до час

• Cold – Hot Site без оборудване, готов за ползване при

инсталирането му

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 12

Page 13: 20080402 Възстановяване след сривове и аварии

Архитектури за минимизиране на

последиците от сривове и аварии (2/2)

Мобилен изчислителен

център

Мобилни офиси

Други изчислителни

центрове на

организацията

(Enterprise co-location)

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 13

Page 14: 20080402 Възстановяване след сривове и аварии

Disaster-tolerant архитектури

Географска отдалеченост • Campus/ Metro/ Continental клъстери

− Клъстер: Група от свързани устройства, работеща като една цяла, скалируема и високонадеждна система

Off-line & on-line репликация на данните • User-level, Software-based, Database, Disk Subsystem

Резервираност на захранването и HVAC (heating, ventilation, air-conditioning) системите

Надеждни и с достатъчен капацитет комуникационни линии

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 14

Page 15: 20080402 Възстановяване след сривове и аварии

Клъстерна архитектура (1/3)

Асиметрична дву-нодова

Симетрична дву-нодова

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 15

Page 16: 20080402 Възстановяване след сривове и аварии

Клъстерна архитектура (2/3)

SAN-базиран клъстер с

“any-to-any” failover

режим

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 16

Page 17: 20080402 Възстановяване след сривове и аварии

Клъстерна архитектура (2/3)

Географски отдалечени

клъстери

5та Национална конференция Телекомуникационни технологии и услуги за бизнеса 17

Page 18: 20080402 Възстановяване след сривове и аварии

Благодаря за вниманието!

18 5та Национална конференция Телекомуникационни технологии и услуги за бизнеса