37
Kilka mniej oczywistych zagrożeń dla ciągłości operacyjnej centrum przetwarzania danych Paweł Wawrzyniak Warszawa, 23 kwietnia 2015 http://www.nordea.pl/

Kilka mniej oczywistych zagrożeń dla ciągłości operacyjnej centrum przetwarzania danych

Embed Size (px)

Citation preview

Kilka mniej oczywistych zagrożeń

dla ciągłości operacyjnej

centrum przetwarzania danych

Paweł Wawrzyniak

Warszawa, 23 kwietnia 2015

http://www.nordea.pl/

• O Nordea IT Polska sp. z o.o. (NITPL)

• Bezpieczeństwo CPD...

• Warstwa fizyczna

• Warstwa infrastrukturalna

• Warstwa organizacyjna

• Podsumowanie

O Nordea IT Polska sp. z o.o. (NITPL)

Nordea IT Polska sp. z o.o. została powołana do życia przez Nordea Bank AB, by wykorzystując

wiedzę i wieloletnie doświadczenie ekspertów nabyte w Nordea Bank Polska S.A., wspierać Grupę

Nordea w działaniach z obszaru IT

Z sukcesem realizujemy wiele dużych międzynarodowych projektów informatycznych, wspieramy

bank w Polsce, krajach bałtyckich i Skandynawii

Posiadamy 2 nowoczesne CPD, w których prowadzimy działalność m.in. w zakresie kolokacji i

usług powiązanych

Działamy w ramach pięciu departamentów

O Nordea IT Polska sp. z o.o. (NITPL)

Data Centre Services, zespół 6-7 osób:

– Wsparcie dla Nordea Operation Centre w Polsce, Łódź 700 osób (2 lokalizacje)

– Floor Management, Service Management i nadzór nad jakością usługi Primary Data Centre

– Floor Management, Service Management i nadzór nad jakością usługi Disaster Recovery Centre

– Wsparcie projektów (przedsięwzięć) realizowanych w powyższych obszarach odnośnie definicji wymagań,

definicji standardów i zgodności projektów oraz ich wykonania z wymaganiami Nordea AB (w tym projektu

migracji Nordea Bank Polska S.A. do PKO BP S.A)

• O Nordea IT Polska sp. z o.o. (NITPL)

• Bezpieczeństwo CPD...

• Warstwa fizyczna

• Warstwa infrastrukturalna

• Warstwa organizacyjna

• Podsumowanie

Bezpieczeństwo CPD… Podstawowe założenia

• Bezpieczeństwo CPD musi być zapewnione na kilku warstwach:

• Fizycznej (lokalizacja, otoczenie, budynek, pomieszczenia, itp.)

• Infrastrukturalnej (zasilanie, chłodzenie, wyposażenie, łącza telekomunikacyjne, sieć,

serwery, sprzęt IT, oprogramowanie, itd.)

• Organizacyjnej (polityka; procesy: ITILv3; procedury; standardy: ISO 27001, ISO

27002, ISO 31000; kadry)

Bezpieczeństwo CPD… Podstawowe założenia

Źródło: Protect Data - Data Backup Services

44%

32%

14%

7%

3% Awarie sprzętowe lubsystemów

Błąd ludzki

Uszkodzenieoprogramowania

Wirusy komputerowe

Klęski żywiołowe

• O Nordea IT Polska sp. z o.o. (NITPL)

• Bezpieczeństwo CPD...

• Warstwa fizyczna

• Warstwa infrastrukturalna

• Warstwa organizacyjna

• Podsumowanie

• Analiza ryzyka

• Dostępność stabilnego zasilania, łączy

telekomunikacyjnych

• Drogi dojazdowe

• Bezpośrednie sąsiedztwo i charakter

prowadzonej tam działalności

• Plan zagospodarowania przestrzennego

• Klęski żywiołowe

• Dodatkowe zalety lub wady otoczenia (lotnisko

vs stadion)

• Pamiętajmy, że cykl życia CPD to zwykle 10

do 20 lat (i więcej)

Warstwa fizyczna Temat 1: Bezpieczna lokalizacja

źródło: http://www.kzgw.gov.pl/

• Zagrożenia:

• Prace ziemnie w bezpośrednim

sąsiedztwie mogą uszkodzić trasy kablowe

łącz telekomunikacyjnych, podziemne

kable zasilające, instalację gazową itp. (z

drugiej strony to samo może wydarzyć się

poza zasięgiem naszego wzroku)

• Prace budowlane z użyciem ciężkiego

sprzętu budowlanego mogą generować

niebezpieczne wstrząsy (np. palowanie)

• Ruch na drodze dojazdowej może się

zwiększyć (dalsze sąsiedztwo) – co może

oznaczać np. wstrząsy, ryzyko związane z

wypadkiem lub przewozem

niebezpiecznych substancji

• W otoczeniu może pojawić się mniej

bezpieczne sąsiedztwo

Warstwa fizyczna Temat 1: Bezpieczna lokalizacja

PDC, 2010-2012

• Standardy korporacyjne dla CPD

• Drugie CPD?

• Przy planowaniu drugiego ośrodka, który ma

być synchronizowany z ośrodkiem

podstawowym w konfiguracji: aktywny <->

aktywny celem zapewnienia ciągłej lub prawie

ciągłej dostępności, przy ograniczeniach

obecnej technologii światłowodowej, zaleca się

dystans 5 do 15 km

• Warto rozważyć posiadanie trzeciego ośrodka

(disaster recovery) w odległości np. ponad 200

km (cold site)

• Tylko zapasowy ośrodek przetwarzania może

nas efektywnie ochronić przed skutkami klęski

żywiołowej

Warstwa fizyczna Temat 1: Bezpieczna lokalizacja

• Pytania:

• Czy przetestowano plany DRP?

• Czy wszystkie warstwy infrastruktury

świadczenia usług przełączą się

automatycznie?

• W jakim czasie nastąpi przełączenie

usług?

• Czy w organizacji mamy „osoby kluczowe”

dla działania danej usługi?

• Krytyczne jest wczesne wykrywanie awarii

(monitoring infrastruktury i usług)

Warstwa fizyczna Temat 1: Bezpieczna lokalizacja

• Pytania:

• Załóżmy brak zasilania na obszarze

województwa przez okres dłuższy niż np.

72h. Czy ktokolwiek dostarczy nam paliwo

do agregatów – pomimo tego, że mamy

kontrakt na dostawę paliwa?

• A jak będzie wyglądała sprawa

dostępności łączy operatorskich? (centrala

operatora na pewno jest podtrzymywana,

ale jak wygląda to w odległych

lokalizacjach?)

• Rozważamy sytuacje klęsk żywiołowych,

wszelkie czarne scenariusze („W”), a czy

nie lepiej być gotowym na niedostępność

CPD z powodu braku… Bieżącej wody,

faktu zastosowania rakotwórczego kleju do

wykładzin na powierzchni biurowej lub

blokady drogi dojazdowej w związku z

wypadkiem?

Warstwa fizyczna Temat 1: Bezpieczna lokalizacja

Primary Data Centre

• Od początku października do początku listopada

2014 roku stwierdzono 18 lotów nad francuskimi

elektrowniami atomowymi lub w ich pobliżu

• Atak dronem? W przypadku celowego ataku

różne warianty, np. rozpoznanie obiektu i

zabezpieczeń technicznych, ciecze wylewane na

wymienniki ciepła, małe ładunki wybuchowe itp.

Niezamierzony atak - utrata kontroli nad dronem,

uszkodzenia obiektu CPD

• Kolega z Zespołu DCS złożył własnego drona w

tydzień. Potrzebne części zakupił przez Internet

• Obecnie eksperci twierdzą, że drony nie są w

stanie przenosić ładunków o odpowiedniej

mocy, aby być zagrożeniem

• A w niedalekiej przyszłości? Czy będziemy

umieszczać takie ryzyko w analizach?

Warstwa fizyczna Temat 2: Bezpieczeństwo fizyczne

© Nevit Dilmen, źródło: Wikipedia

• Wniesienie na ośrodek ładunku wybuchowego,

podsłuchu lub rozpylenie gazu to zdarzenia możliwe

• Procedury ochrony osób i mienia muszą być regularnie

przeglądane i aktualizowane

• Listy osób uprawnionych do dostępu i mogących

autoryzować gości muszą być zawsze aktualne

• Firmy zewnętrzne (np. serwis systemów CPD,

budynkowych lub IT) muszą pracować pod nadzorem

autoryzowanego personelu (ryzyko sabotażu)

• Dokładna kontrola ruchów osobowo-materiałowych

• Największym wrogiem ochrony i najlepszych procedur

jest - rutyna. Warto przeprowadzać okresowe testy

czujności

• Charakter CPD – być może obiekt powinien podlegać

obowiązkowej ochronie i posiadać plan ochrony?

• Audyty bezpieczeństwa są koniecznością

• EPO na stanowisku ochrony – SPOF, z którym

musimy żyć (ryzyko konieczne do zaakceptowania)

Warstwa fizyczna Temat 2: Bezpieczeństwo fizyczne

Primary Data Centre

• O Nordea IT Polska sp. z o.o. (NITPL)

• Bezpieczeństwo CPD...

• Warstwa fizyczna

• Warstwa infrastrukturalna

• Warstwa organizacyjna

• Podsumowanie

• Budynek może być jednocześnie np.

centralą firmy i CPD – tzw. budynek

mieszanego przeznaczenia

• Decyzja może wynikać z:

• konieczności dostarczenia rozwiązania

tymczasowego

• mylnie rozumianego prestiżu lub wygody

• braku innej możliwości

• Taki budynek może znajdować się w centrum

miasta, co oznacza dodatkowe utrudnienia

(poza łatwym dojazdem dla personelu, służb

miejskich i patroli/grup interwencyjnych

ochrony) – np. działalność sąsiednich firm,

bliskość ulic, torów kolejowych, częste zaniki

zasilania etc.

• Najgorszy scenariusz dla CPD

Warstwa infrastrukturalna Temat 3: Charakterystyka budynku. 2 w 1

„Stare” Primary Data Centre, 2008

Warstwa infrastrukturalna Temat 3: Charakterystyka budynku. 2 w 1

Problem Rozwiązanie

Nakładanie się dwóch różnych standardów bezpieczeństwa

fizycznego osób i mienia, współdzielone systemy

zabezpieczeń technicznych (SKD, SSWiN, CCTV, kamery IP)

Należy wyraźnie określić zasady dostępu do pomieszczeń,

odpowiedzialności, wydać stosowne instrukcję ochronie oraz

personelowi (centrali i CPD), umożliwić przepływ informacji

Nakładanie się i zacieranie odpowiedzialności Za bezpieczeństwo osób i mienia w obiekcie CPD odpowiada

kierownik obiektu. W budynku mieszanego przeznaczenia

jest kierownik obiektu, który nie musi być kierownikiem CPD

– taka sytuacja powinna być wyjaśniona za pomocą

odpowiednich regulacji

Problemy z wykonywaniem napraw po awariach i

przeglądów prewencyjnych

Wzajemna komunikacja o konieczności wykonania

przeglądów lub napraw, które mogą wzajemnie zakłócać

działalność centrali i CPD, o ile to możliwe – komunikacja z

wyprzedzeniem (plan przeglądów), uzyskiwanie zgody

biznesu na prace serwisowe infrastruktury CPD, dobrze

zdefiniowane procesy zarządzania zdarzeniami, incydentami,

problemami i zmianami

Zagrożenie dla ciągłości działania CPD w przypadku

współdzielenia infrastruktury np. zasilania (trafostacja,

agregat, UPS budynkowy)

Możliwie maksymalne odseparowanie infrastruktury

krytycznej CPD od powierzchni biurowych. Trafostacja i

agregat (o odpowiedniej mocy) mogą być współdzielone,

UPS budynkowy musi być osobno dedykowany dla

powierzchni biurowych i odbiorów w CPD

Warstwa infrastrukturalna Temat 3: Charakterystyka budynku. 2 w 1

Problem Rozwiązanie

Możliwy dyskomfort pracowników biura (hałas, transport

urządzeń)

Pomieszczenie UPS i serwerownie powinny zostać

wygłuszone tak, aby nie zakłócać pracy w sąsiednich biurach.

Trasy transportowe powinny być tak wyznaczone, aby nie

blokować korytarzy w przestrzeni biurowej (w miarę

możliwości), ewentualnie dostawy sprzętu po godzinach

pracy biura

Awarie infrastruktury budynkowej mogą wpływać na

obszar CPD (instalacja wodociągowa, kanalizacja)

System BMS w CPD powinien korzystać z czujek zalania,

które zainstalowane powinny być w miejscach potencjalnego

pojawienia się wody (nie tylko przy klimatyzatorach, także

np. pod sufitem)

Ograniczenia infrastruktury budynku biurowego Konieczność wymiany trafostacji, agregatu, wzmocnienia

stropu w pomieszczeniach serwerowni i UPS, instalacja

dodatkowych systemów ppoż. (system gaszenia gazem +

butlownia), duże ilości okablowania w szachtach itp..

„Stare” Primary Data Centre. Komora

• Przestrzeń CPD może być dedykowana

wyłącznie jednemu użytkownikowi

• Brak współdzielonej infrastruktury krytycznej,

systemów zabezpieczenia technicznego,

dedykowana ochrona i własne standardy

bezpieczeństwa fizycznego

• Taki budynek może znajdować się poza

centrum miasta, ale w jego bliskości (łatwy

dojazd dla personelu, służb miejskich,

patroli/grup interwencyjnych ochrony)

• Jest to scenariusz lepszy od budynku

mieszanego przeznaczenia z przestrzenią

współdzieloną

Warstwa infrastrukturalna Temat 4: Charakterystyka budynku. Przestrzeń dedykowana

Disaster Recovery Data Centre. Komora

Warstwa infrastrukturalna Temat 4: Charakterystyka budynku. Przestrzeń dedykowana

Problem Rozwiązanie

Mogą występować ryzyka związane z działalnością

prowadzoną przez sąsiadów

Należy upewnić się i zagwarantować sobie (poprzez

porozumienie z Administratorem Budynku), że w budynku

nie będzie prowadzona działalność, która może nieść

zagrożenie dla CPD (np. hurtownia farb i lakierów,

gotówkowa placówka bankowa)

Awarie infrastruktury budynkowej mogą wpływać na

obszar CPD (instalacja wodociągowa, kanalizacja)

System BMS w CPD powinien korzystać z czujek zalania,

które zainstalowane powinny być w miejscach potencjalnego

pojawienia się wody (nie tylko przy klimatyzatorach, także

np. pod sufitem)

Disaster Recovery Data Centre – komora i MDF

• CPD zaprojektowane i zbudowane od

podstaw

• Lokalizacja poza centrum miasta, ale

umożliwiająca łatwy dojazd dla personelu służb

miejskich, patroli/grup interwencyjnych ochrony

• Brak ograniczeń strukturalnych i

infrastrukturalnych istniejących budynku

(projekt uwzględniający wszystkie potrzeby

CPD)

• Ułatwione zarządzanie obszarem

bezpieczeństwa fizycznego osób i mienia

• Ułatwione zarządzanie dostawami i usuwaniem

sprzętu, przeglądami i naprawami po awariach

• Szansa na zapewnienie bardzo wysokiego

poziomu bezpieczeństwa w warstwie fizycznej,

infrastrukturalnej i organizacyjnej

Warstwa infrastrukturalna Temat 5: Charakterystyka budynku. Dedykowany obiekt

Primary Data Centre. Komora AST

Warstwa infrastrukturalna Temat 5: Charakterystyka budynku. Dedykowany obiekt

Primary Data Centre. Wewnątrz komory AST

• Korozja urządzeń IT w serwerowni o kontrolowanych warunkach środowiskowych jest możliwa!

• Miejscowe i ciągłe pomiary temperatury oraz wilgotności (BMS) nie dadzą nam 100% pewności,

że sytuacja korozji nie wystąpi (np. pomiar w 3 miejscach zimnego korytarza na wysokości 2/3

szaf IT)

• Tego typu pomiary pozwalają, co najwyżej, udowodnić, że w obrębie komory serwerowni

spełnione są parametry określone w SLA odnośnie oczekiwanej temperatury i wilgotności

Warstwa infrastrukturalna Temat 6: Monitoring środowiska

• Dobrą praktyką są okresowe pomiary przy

użyciu kamery termowizyjnej, dokonywane w

różnych miejscach komory, nieobjętych

bezpośrednio pomiarem temperatury i

wilgotności – np. na wlocie zimnego powietrza

do urządzeń wolnostojących

• Zdalny monitoring nie jest panaceum na

wszelkie dolegliwości – nic nie zastępuje

regularnych wizualnych inspekcji

• Konieczne jest rozwiązanie problemu poprzez

zmniejszenie wilgotności i zwiększenie

temperatury nawiewu

Warstwa infrastrukturalna Temat 6: Monitoring środowiska

źródło: http://dpcalc.org/

• Nie ma szczurów, bo są myszy. A szczury

jedzą myszy, więc gdyby były szczury, to by

nie było myszy – cytat z życia!

• Gryzonie uwielbiają izolacje kabli, a także

światłowody

• Ilość zakamarków CPD komplikuje

zidentyfikowanie obecności intruzów

• Znalezienie przegryzionego światłowodu może

nie być łatwe

• Na tak specyficzne zagrożenie także trzeba być

gotowym

Warstwa infrastrukturalna Temat 7: Atak gryzoni!

źródło: Internet

• O Nordea IT Polska sp. z o.o. (NITPL)

• Bezpieczeństwo CPD...

• Warstwa fizyczna

• Warstwa infrastrukturalna

• Warstwa organizacyjna

• Podsumowanie

• Zarządzanie zmianą – musi być dobrze

udokumentowane i zaimplementowane

(ANSI/TIA-942)

• Zarządzanie konfiguracją – aktualna

dokumentacja

• Zarządzanie pojemnością – kontrola i

planowanie zużycia zasobów

• Zarządzanie zdarzeniami, incydentami,

problemami

• Procedura dostawy i instalacji (z testami i

weryfikacją poprawności)

• Procedura wizualnych inspekcji i badań kamerą

termowizyjną

• Procedura usuwania sprzętu

Warstwa organizacyjna Temat 8: Najważniejsze procesy

• Urządzenie nieprawidłowo podłączone do

dwutorowego systemu zasilania

• Dodatkowo, wizualna inspekcja pozwalała

potwierdzić, że zasilanie doprowadzone jest z

dwóch torów

• Konfiguracja nie jest jednak zgodna z

wymaganiami producenta, które określono w

dokumentacji instalatora

• Dziurawa procedura dostawy i instalacji sprzętu

– nie uwzględniono konieczności wykonania

testu, który pozwoliłby ustalić, że zasilanie

rozprowadzone jest do modułów urządzenia w

sposób zapewniający utrzymanie ciągłości

działania

• Brak testu może sprawić, że źle podłączone

urządzenie pozostanie niewykryte przez wiele

miesięcy

• Utrata zasilania na jednym torze oznacza

całkowite wyłączenie urządzenia… Zasilanego

dwutorowo, ale niewłaściwie

Warstwa organizacyjna Temat 9: Brak weryfikacji poprawności instalacji urządzenia

Nieprawidłowo rozprowadzone

zasilanie

• Tego typu awarii można uniknąć – należy

posiadać procedurę dostawy i instalacji

sprzętu, która wymaga testu i sprawdzenia

poprawności konfiguracji (część procesu

Zarządzania zmianą)

• Wymagania instalacyjne powinny być

konfrontowane z dokumentacją producenta

• Dokumentacja konfiguracji serwerowni powinna

być aktualizowana od razu po instalacji

• Autoryzowany personel powinien bezpośrednio

nadzorować firmy zewnętrzne, odpowiedzialne

za instalację urządzeń

• Tego typu błędy można naprawić wyłącznie w

czasie bezpiecznego okna serwisowego –

wyłączenie urządzenia może nie być możliwe

(sic!). Wówczas konieczne jest posiłkowanie

się dodatkowym źródłem (tymczasowym)

zasilania

Warstwa organizacyjna Temat 9: Brak weryfikacji poprawności instalacji urządzenia

Prawidłowo rozprowadzone

zasilanie

• Montaż tzw. „nieprodukcyjnego” urządzenia bez

przejścia procesu zarządzania zmianą (CR-a) –

sam CR nie zagwarantuje ciągłości

operacyjnej, ale…

• Dla CPD nie ma rozróżnienia na sprzęt

produkcyjny i nieprodukcyjny.

• Każda instalacja niesie za sobą ryzyko, każdy

sprzęt konsumujący zasoby staje się

produkcyjny, ma wpływ na zarządzanie

konfiguracją i pojemnością, może stać się

przyczyną incydentu (staje się częścią żywej

infrastruktury)

• Oby infrastruktura nie zaczęła żyć własnym

życiem!

Warstwa organizacyjna Temat 10: Zmiany produkcyjne i „nieprodukcyjne”

Okablowanie a’la spaghetti

źródło: Internet

• Instalacja urządzenia w szafie, która jest na

granicy zapasu mocy. W najbardziej

korzystnym scenariuszu może oznaczać to

zadziałanie zabezpieczenia w listwie PDU dla

kilku gniazd (1 pole), zasilanych z jednego toru.

W najgorszym wariancie wyłączeniu ulegną

urządzenia w całej szafie. Jeżeli istnieje

problem z selektywnością zabezpieczeń, to

wpływ może być jeszcze większy (cała

serwerownia?) – przy przeciążeniu lub zwarciu

• Nierównomierne obciążenie torów zasilania –

błahe, ale wciąż popularne. Ma negatywny

wpływ na zarządzanie pojemnością

• Mnożenie urządzeń jednozasilaczowych, które

stają się „krytyczne” i zabezpieczanie ich coraz

większą ilością STS-ów. Dodatkowo,

komplikuje proces zarządzania pojemnością

Warstwa organizacyjna Temat 11: Inne wciąż popularne błędy

Problem z selektywnością

zabezpieczeń. Przykładowy wpływ

awarii (zwarcie) lub przeciążenia

zasilacza

• Zaniki zasilania to zwykle serie – często mają związek ze złymi warunkami atmosferycznymi

• Przy zanikach częstszych niż 3 na godzinę, układ automatyki klimatyzacji zostaje zablokowany,

sprężarki chillerów przestają pracować (jest to mechanizm ochronny) - konieczny jest fizyczny restart

sterownika (na dachu?)

• W serwerowni zaczyna rosnąć temperatura

• Najlepiej wyciągnąć sygnał do pomieszczenia kontroli i nadzoru CPD (BMS)

• Uruchomienie agregatu na okres 1h po pierwszym zaniku zasilania lub praca do zatrzymania

• Każde przełączenie źródła zasilania przez SZR to dodatkowe ryzyko

• Problem z restartem sterownika klimatyzacji lub startem agregatu – w czasie burzy z piorunami?

• Tier I i Tier II – szczególne ryzyko

• SMS?

• Obsługa 24/7 (Tier III, Tier IV)

Warstwa organizacyjna Temat 12: Procesy, procedury a rzeczywistość

• O Nordea IT Polska sp. z o.o. (NITPL)

• Bezpieczeństwo CPD...

• Warstwa fizyczna

• Warstwa infrastrukturalna

• Warstwa organizacyjna

• Podsumowanie

Podsumowanie

• Obowiązuje reguła najsłabszego ogniwa

• Wszystkie warstwy infrastruktury są ze sobą powiązane

• Testy integracyjne i obciążeniowe przed uruchomieniem

• Regularne audyty i oceny ryzyka

• Aktualna dokumentacja

• Zdefiniowane, udokumentowane i wdrożone procesy

• Zdefiniowane i ciągle aktualizowane procedury

• Gotowość do ciągłych zmian

• Optymizm w stosunku do wyzwań codzienności

Podsumowanie

W prezentacji wykorzystano pomysły i spostrzeżenia członków Zespołu DCS

Nordea IT Polska sp. z o.o.:

Zenon Ruta, Sebastian Jary, Filip Jeziorski, Piotr Trzciński, Krzysztof Kęsicki,

Bartosz Kwiatek, Paweł Wawrzyniak

Dziękuję