12
Come i sistemi di monitoraggio consentono di ridurre l'errore umano nelle sale server distribuite e negli armadi di cablaggio remoti Revisione 0 di Dennis Bouley Introduzione 2 Semplice o complesso? 2 Natura dell'inattività legata all'errore umano 4 Storie di imprevisti 5 Monitoraggio dei componenti di sistema 5 Altre storie difficili 10 Conclusione 11 Risorse 12 White Paper 103 L'interruzione imprevista dell'attività nelle sale server e negli armadi di cablaggio remoti obbliga molti manager IT a trascorrere notti insonni. La maggior parte di loro può raccontare storie orribili su come la sfortuna, l'errore umano o semplicemente l'incompetenza abbiano causato l'interruzione dell'attività delle sale server. Questo documento analizza diversi incidenti di questo tipo e fornisce consigli su come un sistema di monitoraggio di base possa aiutare a ridurre il verificarsi di questi imprevisti. > I White Paper by Schneider Electric fanno parte del più ampio catalogo di white paper realizzati dal Data Center Science Center di Schneider Electric [email protected] Contenuti Cliccate su una sezione per accedervi In sintesi

Come i sistemi di monitoraggio consentono di ridurre l'errore … · monitoraggio sono in grado di eseguire configurazioni di massa, che consentono di inviare le modifiche tramite

  • Upload
    hatu

  • View
    220

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Come i sistemi di monitoraggio consentono di ridurre l'errore … · monitoraggio sono in grado di eseguire configurazioni di massa, che consentono di inviare le modifiche tramite

Come i sistemi di monitoraggio

consentono di ridurre l'errore umano nelle sale server distribuite e negli armadi di cablaggio remoti

Revisione 0

di Dennis Bouley

Introduzione 2

Semplice o complesso? 2

Natura dell'inattività legata all'errore umano

4

Storie di imprevisti 5

Monitoraggio dei componenti di sistema

5

Altre storie difficili 10

Conclusione 11

Risorse 12

White Paper 103

L'interruzione imprevista dell'attività nelle sale server e negli armadi di cablaggio remoti obbliga molti manager IT a trascorrere notti insonni. La maggior parte di loro può raccontare storie orribili su come la sfortuna, l'errore umano o semplicemente l'incompetenza abbiano causato l'interruzione dell'attività delle sale server. Questo documento analizza diversi incidenti di questo tipo e fornisce consigli su come un sistema di monitoraggio di base possa aiutare a ridurre il verificarsi di questi imprevisti.

>

I White Paper by Schneider Electric fanno parte del più ampio catalogo di white paper realizzati dal Data Center Science Center di Schneider Electric [email protected]

Contenuti Cliccate su una sezione per accederviIn sintesi

Page 2: Come i sistemi di monitoraggio consentono di ridurre l'errore … · monitoraggio sono in grado di eseguire configurazioni di massa, che consentono di inviare le modifiche tramite

Come le soluzioni di monitoraggio consentono di ridurre l'errore umano nelle sale server distribuite e negli armadi di cablaggio remoti

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 2

Molti manager IT raccontano storie d'interruzione imprevista dell'attività accadute nelle sale server e negli armadi di cablaggio remoti. Quando si analizzano queste storie, emerge un punto in comune tra loro: la mancanza di informazioni. Questa mancanza di informazioni induce a commettere errori che provocano l'interruzione dell'attività. I livelli di stress sono elevati perché gli operatori e gli amministratori non dispongono di dati in tempo reale e pertanto non riescono a evitare l'errore umano. Esaminiamo le seguenti due statistiche:

• Secondo le statistiche, solo negli Stati Uniti, ci sono 2,9 milioni di sale server e armadi di cablaggio1

• Oltre il 70% delle interruzioni di attività segnalate per i datacenter è direttamente imputabile all'errore umano2

In questo documento vengono descritti in dettaglio casi comuni di interruzione dell'attività nelle sale server distribuite e negli armadi di cablaggio remoti. In seguito vengono forniti consigli su come un software di monitoraggio e automazione integrato con videosorveglianza e sensori possa ridurre il verificarsi di problemi legati all'interruzione di attività causata dall'errore umano in questi piccoli ambienti distribuiti (vedere Figura 1). Quando vengono utilizzati sistemi di monitoraggio per piccoli ambienti informatici remoti come gli armadi di cablaggio e le sale server, sorgono due problemi. Il primo riguarda l'installazione. Quanto è complesso installare un sistema di monitoraggio? In altri termini, quanto tempo è necessario per acquisire informazioni sulle caratteristiche dei dispositivi

1 IDC, Building, Planning, and Operating the Next-Generation datacenter, Michelle Bailey, 2008 2 Uptime Institute, datacenter Site Infrastructure Tier Standard: Operational Sustainability, 2010

Introduzione

Semplice o complesso?

Figura 1 L'errore umano può essere ridotto con un monitoraggio intelligente a più livelli

Rilavatoredi perdite

liquidi

Telecameraa circuito

chiuso

Telecamera

Contattopulito

Telecamera

Sensoreumidità

Sentoreporta/accesso

Management appliance

Management applianceConsole per

monitoraggioremoto

Sensoretemperatura

Telecamera

UPS Sensore diparticelle

Page 3: Come i sistemi di monitoraggio consentono di ridurre l'errore … · monitoraggio sono in grado di eseguire configurazioni di massa, che consentono di inviare le modifiche tramite

Come le soluzioni di monitoraggio consentono di ridurre l'errore umano nelle sale server distribuite e negli armadi di cablaggio remoti

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 3

da monitorare e quanto tempo viene impiegato per inserire queste informazioni (si tratta di centinaia di dispositivi in più siti)? Come fa il sistema per sapere quali dispositivi sono telecamere, condizionatori d'aria, UPS, sensori termici e così via e come vengono generati gli indirizzi IP per consentire ai dispositivi di segnalare il loro stato? Il secondo problema riguarda la quantità di lavoro sconosciuta necessaria per modificare le apparecchiature di alimentazione, raffreddamento e monitoraggio ambientale collocate nel sito remoto. Ad esempio, come viene eseguito un nuovo aggiornamento del firmware e come viene modificata la soglia di una temperatura? Negli ultimi anni, i software di monitoraggio si sono talmente evoluti che gli utenti possono scegliere di eseguire l'installazione da soli o di fare appello a un servizio esterno che li aiuti con l'installazione. Di solito il servizio esterno è in grado di rendere l'utente operativo nell'intervallo di 1 o 2 giorni. I software di monitoraggio possono essere consegnati sotto forma di codice distribuibile/ scaricabile o come server montato su rack con software precaricato. Il sistema può essere installato in modalità remota o in un datacenter centrale (ad esempio, se è necessario gestire dozzine o centinaia di armadi di cablaggio). Dopo aver collegato il server di gestione, è possibile scaricare il client sul laptop per consentire all'operatore di avviare il processo di identificazione delle apparecchiature di alimentazione, raffreddamento e ambientali, nonché dell'attività umana da monitorare. La maggior parte degli UPS, dei sistemi di raffreddamento e delle telecamere di sicurezza viene fornita di solito con le schede di interfaccia di rete (NIC, network interface cards) necessarie per la comunicazione. L'operatore definisce uno o più indirizzi IP che verranno utilizzati dai dispositivi da monitorare. La Figura 2 ne riporta un esempio. Alcuni sistemi possono a questo punto cercare automaticamente in rete e individuare tutti i dispositivi di alimentazione, raffreddamento e sicurezza da monitorare. Questa capacità di "scoprire automaticamente" i dispositivi, semplifica di molto il difficile compito di installare e avviare il sistema. Dopo aver "scoperto" i dispositivi remoti, il sistema inizia a monitorarli.

Figura 2 Impostare gli indirizzi IP per più dispositivi può essere facile quanto digitare una serie di numeri (schermata di esempio estratta dall'applicazione InfraStruxure Central di Schneider Electric)

Page 4: Come i sistemi di monitoraggio consentono di ridurre l'errore … · monitoraggio sono in grado di eseguire configurazioni di massa, che consentono di inviare le modifiche tramite

Come le soluzioni di monitoraggio consentono di ridurre l'errore umano nelle sale server distribuite e negli armadi di cablaggio remoti

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 4

Alcuni sistemi di monitoraggio e automazione consentono anche di raggruppare i dispositivi per posizione, fila all'interno della posizione o tipo di dispositivo (ad esempio, raggruppare tutti i dispositivi di raffreddamento, le PDU, i metri, le telecamere e così via). Questo esercizio di raggruppamento consente agli utenti di impostare i criteri e le soglie per il gruppo selezionato. Tra i parametri soglia più utilizzati possiamo includere la temperatura, l'umidità e la designazione di uno stato aperto o chiuso (ad esempio, gli sportelli dei rack). Il superamento di una soglia dovrebbe attivare un allarme che viene segnalato all'amministratore dei sistemi via email o messaggio di testo. Attenzione a fare in modo che un allarme venga attivato solo in caso di modifiche di maggiore entità all'ambiente remoto. In caso contrario, l'amministratore si ritroverebbe ad affrontare l'eventualità di più allarmi più volte in un'ora. In questo caso, l'amministratore potrebbe diventare "indifferente" agli allarmi e ignorarli. Per questo motivo, è necessario mantenere un equilibrio tale da rendere importanti e significativi tutti gli allarmi che dai sistemi giungono all'amministratore. Anche gli aggiornamenti alla sala server o all'armadio di cablaggio, ad esempio un aggiornamento del firmware, vengono semplificati se si dispone di un moderno sistema di monitoraggio. In questo modo, il manager del datacenter non ha più bisogno di mandare il personale in sedi remote per installare gli aggiornamenti del firmware. Molti sistemi di monitoraggio sono in grado di eseguire configurazioni di massa, che consentono di inviare le modifiche tramite la rete dalla sede centrale. Le sale server distribuite e gli armadi di cablaggio remoti non richiedono lo stesso investimento o la stessa attenzione dei grandi datacenter di importanza critica. Le grandi sedi centrali sono dotate di esperti e spesso di apparecchiature di sicurezza d'avanguardia, nonché di un'enorme quantità di ridondanze integrate. Il controllo delle sale server distribuite e degli armadi di cablaggio remoti è invece affidato a personale con più responsabilità, tra cui quella a volte di sorvegliare l'armadio di cablaggio o la sala server. Questi spazi spesso presentano meno misure di sicurezza e sono soggetti a più interruzioni di attività indesiderate rispetto agli spazi più ampi e più sofisticati. Non è importante come sia stata pianificata una sala server o un armadio di cablaggio, il rischio di inattività imprevista è sempre presente. Alcuni manager IT pensano di avere tutto sotto controllo. Sono fieri di come hanno progettato la loro sala server. Poi arriva uno sguardo poco attento, un tecnico non informato o un custode che rovina l'intero progetto in meno di cinque secondi.

Agenticontaminantinell'aria

Perditeliquidi

Persone TemperaturaUmidità

Fumo

Disturbidell'alimentazione Perdite

energetiche

Natura dell'inattività legata all'errore umano

Figura 3 La frase "un incidente che sta solo ad aspettare di accadere" si applica perfettamente alle sale piccole e remote

Page 5: Come i sistemi di monitoraggio consentono di ridurre l'errore … · monitoraggio sono in grado di eseguire configurazioni di massa, che consentono di inviare le modifiche tramite

Come le soluzioni di monitoraggio consentono di ridurre l'errore umano nelle sale server distribuite e negli armadi di cablaggio remoti

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 5

L'elenco degli incidenti riportato di seguito illustra come la mancanza di un semplice sistema di monitoraggio e automazione possa interrompere l'attività negli armadi di cablaggio e nelle sale server. In questi ambienti, non c'è nessuno sul posto o la persona presente non è sempre in grado di segnalare l'interruzione agli amministratori dei sistemi. Un'ora di ritardo nello scoprire un problema al sistema di raffreddamento può fare la differenza nell'evitare un'interruzione totale. Allarmi rapidi e in tempo reale consentono agli amministratori di controllare un'operazione che può evitare l'interruzione del servizio. Esaminiamo il seguente riepilogo di incidenti dovuti a errori umani:

• Un amministratore di sistemi responsabile della sala server remota di una filiale entra nella sala server per scoprire il motivo per cui i server della sala hanno smesso di funzionare. Scopre che gli operai incaricati della ristrutturazione, durante i lavori, hanno avvolto i rack con del nastro trasparente per tenere i server lontani dalla polvere. Gli operai non hanno pensato a informare il reparto IT delle loro intenzioni e hanno avvolto i server mentre erano tutti accesi. I server si sono surriscaldati e hanno smesso di funzionare.

• Un manager aziendale decide di occuparsi da solo di un problema di accesso a Internet. Entra nella sala server, estrae i cavi dal router e collega il suo laptop direttamente a Internet ignorando tutti i servizi di firewall e crittografia ed esponendo l'intero sistema a virus esterni e altro malware.

• Durante una riparazione, un idraulico fa un buco nel soffitto direttamente al di sopra del server Exchange e poi ripara male la guarnizione del tubo sulla quale stava lavorando. Nel mezzo della notte, inizia a gocciolare acqua dal tubo. La natura fa il suo corso e l'acqua passa attraverso il buco nel soffitto e si riversa sul server Exchange sottostante, causando danni permanenti al server.

• Alcuni addetti alle pulizie ricevono l'incarico di pulire la sala server. Questi vedono mucchi di polvere non solo intorno ai rack del server, ma anche al loro interno. Gli sportelli dei rack sono parzialmente aperti. Gli addetti alle pulizie fanno il loro dovere e puliscono l'interno dei rack e dei server con il prodotto per pulire le finestre. Nessuno ha dato loro chiare istruzioni sulla procedura da seguire per le pulizie.

• Mentre un fornitore di servizi sta lavorando in un'area protetta da halon, accende una torcia al propano senza notificare nessuno e senza chiudere il sistema halon.

• Un fornitore di servizi spegne una PDU per aggiungervi un interruttore. La PDU alimenta il server di una filiale importante. Molti visitatori di sale server possono non sapere che cosa questa azione può o non può fare in quella particolare sede.

Se si progetta una sistema di monitoraggio che ha come ruolo principale quello di limitare l'errore umano nelle sale server remote, è necessario considerare quattro componenti chiave: videosorveglianza, sensori, uscite rack intelligenti e software di monitoraggio e automazione. La Tabella 1 fornisce una sintesi delle soluzioni descritte in questa sezione. Videosorveglianza e sensori Che cosa si può fare in queste situazioni? Sul mercato sono disponibili sistemi di monitoraggio e automazione scalabili in grado di raccogliere, organizzare e distribuire avvisi critici e video di sorveglianza. La Figura 4 ne riporta un esempio. Con il monitoraggio dell'alimentazione, del raffreddamento, dell'ambiente e della parte posteriore e anteriore dei rack, questi sistemi possono notificare immediatamente i problemi, consentire una valutazione rapida della situazione e risolvere gli incidenti critici all'infrastruttura che possono influire negativamente sulla disponibilità del sistema IT.

Storie di imprevisti

Componenti dei sistemi di monitoraggio

Page 6: Come i sistemi di monitoraggio consentono di ridurre l'errore … · monitoraggio sono in grado di eseguire configurazioni di massa, che consentono di inviare le modifiche tramite

Come le soluzioni di monitoraggio consentono di ridurre l'errore umano nelle sale server distribuite e negli armadi di cablaggio remoti

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 6

Nel caso degli esempi di mancata comunicazione tra le persone riportati sopra, un sistema di monitoraggio e automazione di questo tipo avrebbe potuto aiutare molto:

• Un sistema di monitoraggio e automazione per infrastrutture fisiche, coadiuvato da un sistema di sicurezza dotato di videocamera in grado di eseguire una panoramica dell'attività umana nelle file, avrebbe registrato tutte le eventuali attivazioni dei sistemi di rilevamento dei movimenti. In questo modo, anche senza nessun esperto di IT sul posto, l'attività degli operai che avvolgono i server, ad esempio, sarebbe stata registrata e sarebbe stato inviato un avviso all'amministratore autorizzato. Assistendo a ciò che stava accadendo, l'amministratore avrebbe potuto emettere un ordine di "cessare tutte le attività" e l'interruzione sarebbe stata evitata.

• Un sistema di monitoraggio e automazione può anche attivare o disattivare i dispositivi utilizzando le chiusure degli interruttori di uscita dei contatti a secco a corrente ridotta. Questo sistema può essere utilizzato per controllare le serrature dei rack (vedere Figura 5). Le azioni inerenti ai relè di uscita possono essere eseguite manualmente o configurate come misure di avviso automatiche in risposta a un evento soglia o ad altri allarmi. Nel caso degli addetti alle pulizie, sapendo che stanno arrivando per pulire durante le ore non lavorative, si potrebbe programmare il sistema in modo da chiudere tutti i rack dopo le 18.00. Una persona autorizzata potrebbe aprirli manualmente o in modalità remota, ma rimarrebbero bloccati per tutti gli altri fino alla mattina successiva.

I sistemi dotati di telecamera sono utili soprattutto se la sala server supporta applicazioni in grado di eseguire transazioni con carte di credito. La conformità alle norme Payment Card Industry (PCI) sta assumendo molta importanza. Alcuni governi chiedono alle aziende di comunicare ai clienti tutte le eventuali violazioni di dati. Con il passare del tempo, la definizione di dati personali includerà anche i numeri di carta di credito. Il giorno in cui le informazioni sulla carta di credito verranno classificate come personali, le società che non applicano o non prevedono norme di sicurezza saranno soggette a sanzioni. In futuro, potrebbero essere concessi incentivi finanziari diretti alle società con elevati livelli di sicurezza e certificato di conformità alle norme PCI. La videosorveglianza è uno dei requisiti previsti dalle norme di conformità PCI. Un sistema di gestione delle telecamere di solito consente di monitorare il personale, i fornitori, il personale della sicurezza, i custodi e altri visitatori della struttura che entrano nella sala server o nell'armadio di cablaggio remoto. Il sistema è in grado di determinare chi era nella

Figura 4 Un esempio di monitoraggio video attivato dal rilevamento di un movimento può aiutare a limitare i casi di errore umano (schermata di esempio estratta dall'applicazione APC by Schneider Electric InfraStruxure Central)

Page 7: Come i sistemi di monitoraggio consentono di ridurre l'errore … · monitoraggio sono in grado di eseguire configurazioni di massa, che consentono di inviare le modifiche tramite

Come le soluzioni di monitoraggio consentono di ridurre l'errore umano nelle sale server distribuite e negli armadi di cablaggio remoti

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 7

sala, a che ora e può rilevare se il visitatore ha scollegato la presa di un elemento esistente dell'apparecchiatura o ha collegato un nuovo elemento. Un sistema di gestione delle telecamere può essere programmato affinché registri i dati nel momento in cui viene rilevato un movimento. D'altra parte, un amministratore può voler accedere in modalità remota al sistema, attivare la telecamera più vicina al visitatore e osservare le azioni di quest'ultimo. Infatti, alcuni di questi sistemi possono essere dotati di altoparlanti che consentono all'amministratore di parlare attraverso il microfono del laptop per dare istruzioni o avvisare il visitatore (ad esempio, "Qualsiasi cosa tu stia facendo, non toccare il pulsante rosso per nessun motivo").

Uscite rack intelligenti Le uscite rack intelligenti sono lunghe strisce sottili montate nella parte posteriore interna del rack (vedere Tabella 1). Questi dispositivi, noti anche come "PDU montate su rack", possono essere gestiti in modo tale da consentire agli utenti di riattivare in modalità remota l'alimentazione delle apparecchiature bloccate. Questo riduce al minimo il periodo di inattività riavviando rapidamente le apparecchiature ed evita di effettuare viaggi al sito remoto per il riavvio. Questi dispositivi consentono anche agli utenti di configurare la sequenza in cui l'alimentazione viene attivata o disattivata per ciascuna uscita. La funzione di sequenza, a sua volta, consente agli utenti di predeterminare l'elemento dell'apparecchiatura che verrà attivato per primo per fare in modo che le apparecchiature dipendenti da questo elemento funzionino correttamente. Quando si avviano le apparecchiature, la distribuzione intelligente dell'alimentazione al rack aiuta a evitare un rapido sovraccarico iniziale di alimentazione che può causare circuiti sovraccarichi e successive riduzioni di carico. Nel caso di circuiti sovraccarichi, il sistema di monitoraggio evita questa situazione proiettando visualizzazioni grafiche di consumo energetico medio e massimo e misurando l'effettivo consumo mediante PDU in rack con contatore (uscite rack intelligenti). In questo modo, l'amministratore dei sistemi visualizza chiaramente il consumo energetico di ciascun rack e può prendere decisioni intelligenti relative alla posizione in cui collocare e installare le apparecchiature aggiuntive.

Figura 5 La sicurezza del rack può essere monitorata in modalità remota per tenere lontani i visitatori indesiderati

Page 8: Come i sistemi di monitoraggio consentono di ridurre l'errore … · monitoraggio sono in grado di eseguire configurazioni di massa, che consentono di inviare le modifiche tramite

Come le soluzioni di monitoraggio consentono di ridurre l'errore umano nelle sale server distribuite e negli armadi di cablaggio remoti

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 8

Componente soluzione Ruolo Vantaggio Illustrazioni esempio

Monitoraggio e automazione

Attivazione allarmi Stato apparecchiature Generazione rapporti Configurazione Controllo

Le soglie impostate dall'utente generano allarmi tramite messaggi di testo, email o posting del sistema quando elementi come la temperatura e l'umidità superano i livelli accettati Genera più livelli di rapporti di dati storici allo scopo di individuare anticipatamente le tendenze problematiche Capacità di configurare in massa caratteristiche di sistema simili (ad esempio, serrature dei rack, soglie della temperatura) con dispositivi simili contemporaneamente Capacità di riavviare le apparecchiature bloccate da un laptop remoto

Apparecchiature per videosorveglianza

Osservare l'attività umana

Memorizzazione di filmati attivata da movimenti o avvisi

Rileva e registra i movimenti consentendo di abbinare una registrazione visiva a un avviso di accesso o ambientale. Questo consente di analizzare più velocemente la causa originale di un problema

La memorizzazione dei dati relativi al rilevamento di errori o alla violazione della sicurezza evita il ripetersi di questi incidenti

Uscite rack intelligenti

Avvio e arresto dei server in modalità remota Misurazione del consumo energetico

Assicura che l'integrità dei dati venga conservata per un periodo di inattività estesa Gestisce le uscite in modalità remota per consentire agli utenti di disattivare le uscite non utilizzate (evita i sovraccarichi) o di riattivare l'alimentazione delle apparecchiature bloccate (minimizza i costi elevati dell'interruzione di attività ed evita di impiegare tempo supplementare per recarsi alle apparecchiature) Consente agli utenti di configurare la sequenza in cui l'alimentazione viene attivata o disattivata per ciascuna uscita. Questo consente di evitare picchi di entrata durante le operazioni di avvio che possono causare circuiti sovraccarichi e diminuzioni di carico

Sensori

Serrature degli sportelli, serrature dei rack, rilevamento dei fluidi, monitoraggio della temperatura, monitoraggio della qualità dell'aria

Rileva l’accesso da parte di personale non autorizzato mediante un interruttore di sportello Rileva la presenza di acqua o umidità elevata Rileva fumo e particelle Monitora la temperatura nelle posizioni chiave

Tabella 1 Sintesi della soluzione

Page 9: Come i sistemi di monitoraggio consentono di ridurre l'errore … · monitoraggio sono in grado di eseguire configurazioni di massa, che consentono di inviare le modifiche tramite

Come le soluzioni di monitoraggio consentono di ridurre l'errore umano nelle sale server distribuite e negli armadi di cablaggio remoti

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 9

Software di monitoraggio e automazione Un sistema di gestione e automazione fornisce all'amministratore un'enorme quantità di dati che consente di ridurre l'interruzione di attività imputabile all'errore umano. Di seguito vengono riportati alcuni esempi delle capacità dei sistemi di monitoraggio e automazione disponibili sul mercato per le sale server e gli armadi di cablaggio dati remoti: Attivazione di allarmi e notifiche: gli allarmi impostati in un sistema segnalano la presenza di un problema. Se, ad esempio, una soglia di temperatura è impostata su 16° C per la parte inferiore di un rack, quando la temperatura supera questa soglia, viene attivato un allarme. L'allarme poi invia gli avvisi in diversi modi definiti dall'utente. Un avviso può giungere sotto forma di email, messaggio di testo, posting su un sito web o squillo di telefono. Questi avvisi possono essere tanto sofisticati quanto un'email su un blackberry contenente un grafico delle ultime quattro ore di temperatura nella sala server oppure tanto semplici quanto un'email che segnala uno sportello di rack aperto da più di due minuti che in realtà non dovrebbe essere aperto. Stato delle apparecchiature: la configurazione di base di un sistema di monitoraggio comprende software e server fisico dedicato. Il server agisce da unità centrale che registra le informazioni su tutte le apparecchiature configurate della sala server. Le informazioni provenienti dai sensori e dalle telecamere vengono raccolte e catalogate come avviene per tutti i profili e le soglie del sistema. Il livello di monitoraggio può essere abbastanza dettagliato. Ad esempio, ogni rack può contenere tre sensori di temperatura, uno per la parte inferiore, uno per la parte centrale e uno per la parte superiore del rack, poiché queste temperature sono spesso diverse le une dalle altre. Gli avvisi relativi allo stato sono utili anche per monitorare le batterie. L'interruzione dell'attività di una singola batteria può provocare la perdita del carico critico. Le batterie guaste dovrebbero essere sostituite il più velocemente possibile, ma spesso nessuno monitora l'età delle batterie UPS nei siti remoti. Il costo per sostituire una o due batterie è minimo rispetto a un'interruzione di attività che causa l'arresto anomale dell'armadio o del server. Un monitoraggio di base consente di evitare queste situazioni.

Analisi dei rapporti: i dati raccolti da un sistema di monitoraggio possono essere convertiti in rapporti personalizzati da sottoporre alla revisione dell'amministratore IT. In passato, per determinare le temperature in orari anomali nelle sale server remote, gli amministratori si affidavano al personale della sicurezza o ad altri fornitori esterni perché leggessero e registrassero manualmente le informazioni dai termometri sui muri. Ora, l'amministratore può esaminare i dati storici e notare che durante la notte la temperatura ha fluttuato di 12° C. Esaminando i rapporti relativi a un intervallo di 48 ore, di una settimana o più lungo, l'amministratore può riconoscere il problema e segnalare il caso al reparto che si occupa degli edifici perché il problema venga risolto (se il sistema di comfort dell'edificio è utilizzato per raffreddare parzialmente o completamente la sala server). I dati raccolti dal sistema di monitoraggio della sala IT possono segnalare la presenza di un problema che potrebbe preannunciare una difficoltà più seria. Dal punto di vista della sicurezza, i rapporti generati da un sistema possono anche aiutare l'amministratore IT a determinare rapidamente chi è stato in quale particolare rack per quanto tempo. Ad esempio, nel caso delle stazioni dei punti vendita al dettaglio, un sistema di monitoraggio può esaminare gli UPS sul campo e generare un rapporto relativo alla quantità di carico supportata da ciascun UPS. Se l'amministratore IT ritiene necessario che tutti gli UPS debbano supportare un carico massimo del 50%, è facile identificare quelli che superano questo limite. L'amministratore può quindi immediatamente identificare gli UPS che supportano i carichi "non autorizzati" e può emettere l'ordine di "cessare tutte le attività" prima dell'arresto di uno dei sistemi dei punti vendita al dettaglio.

L'amministratore può quindi immediatamente identificare gli UPS che supportano i carichi "non autorizzati" e può emettere l'ordine di "cessare tutte le attività" prima dell'arresto di uno dei sistemi dei punti vendita al dettaglio.

Page 10: Come i sistemi di monitoraggio consentono di ridurre l'errore … · monitoraggio sono in grado di eseguire configurazioni di massa, che consentono di inviare le modifiche tramite

Come le soluzioni di monitoraggio consentono di ridurre l'errore umano nelle sale server distribuite e negli armadi di cablaggio remoti

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 10

Configurazione di massa: durante l'installazione iniziale, tutti i dispositivi collegati al sistema di monitoraggio e automazione centrale vengono registrati nel sistema con un profilo. Questo consente all'amministratore di configurare o avviare più tardi una modifica di massa (una modifica che riguarda più dispositivi). Esaminiamo l'esempio delle serrature degli sportelli dei rack delle sale server. Non è necessario configurare singolarmente ciascuna serratura degli sportelli dei rack. È sufficiente estendere un'unica configurazione di sicurezza a tutti i 50 sportelli dei rack (anteriori e posteriori) se la decisione viene presa dall'amministratore. Controllo: gli amministratori avvertono meno stress se hanno accesso ai dati dettagliati del sistema di monitoraggio e automazione. Ad esempio, un sistema può mappare le relazioni e le dipendenze tra il percorso di alimentazione e il sistema fisico. Questo evita di fare confusione quando si verifica un problema ed è necessario scoprirne l'origine. Alcuni sistemi possono anche consigliare la migliore collocazione per le nuove apparecchiature in base all'alimentazione disponibile e alle porte della rete consentendo di evitare un'imprevista diminuzione dell'alimentazione in un determinato rack. Un sistema può anche illustrare le conseguenze di un guasto al sistema sulle apparecchiature montate su rack per identificare immediatamente gli impatti critici sulle applicazioni aziendali. Questo consente all'amministratore di formulare un piano anticipato per far fronte a eventuali problemi e ridurre al minimo il verificarsi delle interruzioni di attività.

Un maggiore controllo sull'ambiente, più avvisi e un maggior numero di dati storici possono aiutare a creare un ambiente meno stressante. Se l'azienda sta già investendo in un sistema di videosorveglianza e di monitoraggio e automazione centralizzato, l'aggiunta del controllo della temperatura, del controllo dell'umidità, dei dati relativi al punto di rugiada e di altri allarmi ambientali rappresenta un costo aggiuntivo minimo. L'esame delle tendenze ambientali e dei dati di videosorveglianza aiuta l'amministratore a risolvere i problemi sul nascere e a ridurre così l'errore umano al minimo. I sistemi di alimentazione e di raffreddamento sono particolarmente esposti all'errore umano a causa di una scarsa conoscenza di questi sistemi. Gli incidenti riportati di seguito illustrano i possibili rischi.

• In un caso, l'UPS si è surriscaldato perché sull'unità erano stati impilati pacchi di carta igienica impedendo la circolazione dell'aria.

• In una zona al piano superiore di un edificio di uffici, era stata collocata una sala server per un progetto provvisorio. Il team che aveva attrezzato la sala si era assicurato che tutto fosse economico ma conforme alle regole. Per il raffreddamento, fu utilizzato un condizionatore d'aria per uso domestico, poiché presentava il giusto tasso termico per bilanciare la dispersione di calore richiesta per le apparecchiature della sala. Non passò molto tempo prima che il team fosse costretto a chiamare l'assistenza per un guasto all'hardware. L'assistenza inviò un ingegnere sul posto e questi scoprì che la temperatura nella sala computer era di circa 43° C. Purtroppo, il gruppo aveva installato la presa e la ripresa d'aria del condizionatore nella stessa stanzetta.

• Una presa di convenienza non utilizzata attira l'attenzione di chiunque si trovi in una sala server o in un armadio di cablaggio. Molte sale server hanno subito interruzioni di attività per problemi causati da apparecchiature non autorizzate collegate alle prese di convenienza. Aspirapolvere e trapani sono esempi perfetti di cosa NON dovrebbe essere collegato a un'uscita UPS. In un caso, si è verificato un corto circuito nel trapano che ha causato la disattivazione di un interruttore di circuito per guasto di terra e di conseguenza la disattivazione di una buona parte della sala server.

• Un grosso rivenditore al dettaglio non aveva nessuno in sede che conoscesse il funzionamento della sala server o dell'armadio di cablaggio. I cassieri arrivarono al lavoro e videro che le casse non funzionavano. La sede centrale consigliò loro di ignorare l'UPS e di collegare il sistema all'alimentazione stradale fino a quando non avrebbero spedito una batteria. . Arrivata la batteria, un esperto fu mandato sul posto

Altre storie difficili

Page 11: Come i sistemi di monitoraggio consentono di ridurre l'errore … · monitoraggio sono in grado di eseguire configurazioni di massa, che consentono di inviare le modifiche tramite

Come le soluzioni di monitoraggio consentono di ridurre l'errore umano nelle sale server distribuite e negli armadi di cablaggio remoti

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 11

per installare la batteria. Quel giorno furono spesi migliaia di dollari in transazioni con la possibilità di spenderne molti di più se si fosse verificata un'interruzione di corrente.

• Un altro rivenditore al dettaglio stava avendo problemi nel cercare di mantenere operative le stazioni dei punti vendita. Il problema diventò serio perché ogni volta che i sistemi si interrompevano, le bilance utilizzate per pesare la merce da spedire dovevano essere ricalibrate e questo allungava il periodo di inattività. Dopo aver esaminato il problema, il manager IT scoprì che i dipendenti dei siti di vendita al dettaglio collegavano "senza autorizzazione" dispositivi come radiatori trasportabili e ventilatori agli UPS che supportavano il punto vendita. Poiché i sistemi erano stati progettati per gestire i normali carichi elettrici delle stazioni del punto vendita, il sovraccarico causato da un imprevisto carico extra causava l'interruzione dei sistemi.

• Un rack di server è andato perso perché l'amministratore IT ha sovraccaricato senza volere una multipresa già sovraccarica.

Chiunque abbia trascorso del tempo a gestire le sale server remote, può molto probabilmente aggiungere storie di errori umani all'elenco presentato in questo documento. Per fortuna, sono disponibili diversi strumenti di monitoraggio che consentono di alleggerire i problemi degli operatori preoccupati per le interruzioni di attività impreviste in questi ambienti remoti. Le sale server e i piccoli armadi remoti sono molto numerosi e spesso soggetti a interruzioni di attività causate dall'errore umano. La gestione di questi piccoli datacenter è problematica e richiede tempo. Molte di queste strutture sono sale IT non frequentate e poco controllate. Un approccio quadruplo costituito da sistema software di monitoraggio e automazione, video tecnologia, prese rack intelligenti e sensori può notevolmente ridurre gli incidenti causati dall'errore umano in questi piccoli ambienti. Questi sistemi affidano i dati critici ad amministratori esperti in grado di gestire in modalità remota e identificare i problemi prima che si trasformino in un'interruzione dell'attività.

Conclusione

Dennis Bouley è Senior Strategic Research Analyst presso il datacenter Science Center di Schneider Electric. È laureato in giornalismo e lingua francese presso la University of Rhode Island e ha conseguito un "Certificat Annuel" alla Sorbona di Parigi. Ha pubblicato diversi articoli per riviste internazionali sugli ambienti IT dei datacenter e di infrastrutture fisiche ed è stato l'autore di numerosi white paper per il consorzio The Green Grid.

Note sull'autore

Page 12: Come i sistemi di monitoraggio consentono di ridurre l'errore … · monitoraggio sono in grado di eseguire configurazioni di massa, che consentono di inviare le modifiche tramite

Come le soluzioni di monitoraggio consentono di ridurre l'errore umano nelle sale server distribuite e negli armadi di cablaggio remoti

Schneider Electric – Data Center Science Center White Paper 103 Rev 0 12

Visualizza tutti i White Paper whitepapers.apc.com

tools.apc.com

Ricerca con tutte le applicazioniTradeOff Tools™

Resources Cliccare sull'icona per visualizzare le Risorse

Per feedback e commenti relativi a questo white paper: Data Center Science Center [email protected] Se avete richieste specifiche sulla progettazione del vostro data center: Contattate il vostro referente commerciale Schneider Electric www.apc.com/support/contact/index.cfm

Contattateci