Zkouška, jakou nikdo nechce: Datacentrum s technikou HPE přežilo tornádo. Jak? - Enters

Zkouška, jakou nikdo nechce: Datacentrum s technikou HPE přežilo tornádo. Jak?

Zátěžovou zkouškou, kterou nechce nikdo zažít a vlastně s ní nikdo ani moc nepočítá, prošlo před pár dny datové centrum společnosti DataSpring v Lužicích na Moravě. Sály vybavené mimo jiné technikou HPE se stejně jako jiné okolní domy staly obětí historicky nejsilnějšího zaznamenaného tornáda na českém území. Dobrá zpráva je, že zákazníků datového centra se to dotklo jen minimálně. Technologie stavěné na maximální zátěž obstály. Zaměstnancům to ale přineslo perné chvíle, jak ostatně dokazují i následující řádky, jejichž autory jsou z většiny právě oni sami.

DataSpring provozuje lužické datacentrum sedmým rokem a za dobu už bylo podle infrastrukturního architekta Ondřeje Krause nutné řešit nejeden operační problém. Vždy se to ale obešlo bez výpadku datového centra. Zásluhu na tom podle všeho má pečlivý počáteční návrh a realizace s certifikací designu Tier III a také důsledná údržba, dodržování doporučených postupů a testovacích harmonogramů pro všechny provozní technologie. „V tomto směru rozhodně nešetříme,“ ubezpečuje Kraus. Co se tedy ve čtvrtek 24. června po sedmé večer na místě, které využívají desítky zákazníků, všechno seběhlo?

Jako z filmu

Tomáš, vedoucí provozu datacentra Lužice, tráví poklidný čtvrteční večer doma nedaleko Prahy, kde mu v 19:34 blikne na telefonu obrazovka s výstrahou bezpečnostního systému o rozbití okna. Volá do datacentra, telefon ale nikdo nezvedá.

Petr, infrastrukturní architekt, bydlí pár kilometrů od Lužic v nedalekém Hodoníně. Když zpozoruje blížící se pohromu, také se pokouší dovolat, ale ani on nemá úspěch. Do Hodonína se totiž tornádo vydalo právě přes Lužice, takže vzápětí vypadává proud.

Na recepci datacentra sedí tou dobou Michal, pracovník dohledu. Všude je zatím klid, venku je sice větrno, ale nic zvláštního. V 19:29 přichází informace o výpadku napájení jedné větve, to už si tornádo zřejmě někde pohrává se sloupy vysokého napětí. Protože takové výpadky nejsou v lokalitě úplně neobvyklé, má centrum poměrně velkoryse dimenzované UPS a motorgenerátory díky tomu můžou startovat se zpožděním. Tentokrát ale nastartovat nestihnou, v 19:34 přichází hlavní úder. Michal bere okamžitě nohy na ramena a utíká se schovat do strojovny. Jenže pozdě. Poryv větru mu přivírá nohu ve dveřích, a on tak jen bezmocně sleduje okénkem ve dveřích strojovny, jak se živel zakusuje do budovy. Trvá to nekonečné dvě minuty. A potom ticho.

Michalovi se naštěstí nic nestalo a po odchodu nezvaného hosta se vydává na opatrnou obhlídku budovy. Datové centrum je místy ohlodané až na základní stavbu. Motorgenerátory, které stojí v kontejnerech vedle budovy, jsou zahrabané v hromadě šestimetrových plechů a dalších cizích předmětů a jsou zticha. Nenaběhly. S obavami otevírá dveře hlavního sálu. Ten ale běží!

Závěry z obhlídky: diesel off, elektrické přípojky off, klimatizace off, sál běží z UPS, konektivita funguje. Tomáš se tyto informace od Michala dozvídá chvíli po události, předává je vedení společnosti a na service desk a začíná koordinovat záchranné práce. V průběhu pár minut je již na cestě do Lužic. Asi půl hodiny po tornádu přijíždějí na místo David s Martinem, operační a systémoví specialisté.

Při příchodu k budově se specialisté vyhýbají troskám, kdo ví odkud, pod nohama se jim hýbe zámková dlažba. Vítr měl takovou sílu, že zpod ní vymlel písek, místy kostky dokonce vytrhal. Kromě datového sálu a dalších technologických místností, které nemají okna, je zbytek budovy děravý jak ementál. Úkol číslo jedna zní udržet sál co nejdéle „naživu“, a dát tak lužickému týmu maximum času na záchranu.

 

Trocha backgroundu: Vysoká dostupnost s certifikací Tier III

Pro bezvýpadkový provoz má datacentrum veškeré kritické komponenty plně redundantní, napájení má dvě nezávislé trasy. Pro případ výpadku dodávky energie ze sítě jsou k dispozici dva záložní motorgenerátory se zásobou paliva na 48 hodin provozu a možností požadovanou dobu prodloužit dle potřeb. To umožňuje nepřetržitý chod i bez externího zdroje elektrického napájení. Pro přechod na motorgenerátory jsou obě napájecí větve zálohovány také modulárními UPS, které provoz podrží minimálně hodinu. Stejná úroveň zabezpečení se týká i způsobu chlazení, kdy jsou k dispozici tři turbokompresorové jednotky v režimu N+1.

Pro bezvýpadkový provoz je samozřejmě nutné zajistit i datovou konektivitu, proto jsou datová propojení s národními a nadnárodními sítěmi také plně zálohována. Díky tomu datové centrum splňuje stupeň certifikace TIER III, a má garantovanou dostupnost 99,981 %, to znamená pouze 1,6 hodin výpadku ročně.

Pro minimalizaci rizik je k dispozici další geograficky oddělené datové centrum v Praze, a to pro řešení služeb s GEO redundancí nebo pro disaster recovery scénáře.  Obě datová centra disponují také vzájemným redundantním propojením i externí konektivitou. Zároveň mají všechny systémy kritické infrastruktury, které zajišťují bezpečný a bezvýpadkový chod celého datového centra, vlastní autonomní systém monitoringu přímo napojený na dohledové centrum. V datacentru je také pro kontrolu těchto kritických technologií nepřetržitě přítomna kvalifikovaná obsluha.

Krizové plány mají svoji cenu

Co se ale děje v prvních momentech po pohromě? Datacentrum spouští aktivaci krizového plánu, se zákazníky se domlouvá vypínání nekritických systémů, na místo se stahují specialisté. Oblast je složitě přístupná, v areálu je obrovské množství trosek. Přímý zásah tornáda zřejmě poškodil motorgenerátory a datové centrum se v první hodině musí spolehnout jen na UPS. Motorgenerátory se podařilo včas zprovoznit, problémy ale pokračovaly i s turbokompresory pro chlazení. Útok tornáda byl opravdu silný.

Jak dál? Omezené zdroje umožňují datacentrum v základu chladit, nic dalšího není možné spouštět. Na místo musí vyrazit k opravám další technici a náhradní díly. Pro případ kolapsu je aktivován možný přechod na provoz v záložním centru v Praze pro zákazníky, jejichž služby jsou na to připravené. Nakonec vše ale zůstává primárně na Lužicích. O půlnoci uzavírá policie obce v oblasti, což je další komplikace. Na příjezdu je třeba se prokazovat složkám integrovaného záchranného systému dokumenty potvrzenými vedením společnosti. V noci se přesto podaří zprovoznit turbokompresor chlazení a provoz datacentra ožívá, nad ránem zákazníci dostávají informaci, že mohou začít spouštět i nekritické systémy.

Od rána se též pracuje na dalších opravách chlazení. Situaci zkomplikuje výpadek jednoho motorgenerátoru a přichází hlášení o dalším incidentu, možném pádu datové linky – jede na UPS a diesel agregát se dodavateli kvůli situaci v lokalitě asi nepodaří zprovoznit. Ke klidu ale přispívá, že pro datovou konektivitu jsou k dispozici linky dvě, každá s dostatečnou kapacitou. Dopoledne je opraven další turbokompresor a chlazení, během zbytku dne se daří opravit poškozený motorgenerátor a převést provoz na něj. To už běží naprosto všechny, i nekritické, systémy.

Další den došlo na očekávané: nad ránem vypadla jedna z linek datové konektivity. Naštěstí to není problém, provoz běžel díky přípravě na druhé lince. Opraveno bylo během dvou hodin. Neděle už je v poklidu, probíhá rutinní monitoring, opětovný přechod na jiný motorgenerátor a plánování dojezdu cisterny s naftou.

Poučení i ovace

Takové jsou vzpomínky zaměstnanců na asi nejtěžší pracovní chvíle, jaké kdy zažili. Elektrické napájení v oblasti asi jen tak stabilní nebude – všude pořád probíhají opravy, které se týkají i budovy lužického datového centra, kterou tornádo notně „okousalo“. Není to ale nic, co by bránilo chodu IT infrastruktury. Co prý potěšilo nejvíc, jsou reakce zákazníků, kteří zde mají svoje data uložená – situace si vyžádala vysoce profesionální přístup mnoha specialistů, kteří se museli vypořádat jak se složitým fyzickým přístupem v lokalitě plné trosek i logicky otřesenou psychikou. Reakce zákazníků tedy byly velkou odměnou.

„V tomto datacentru má naše firma své páteřní systémy. Když vše ve čtvrtek 22:00 spadlo a viděli jsme tu spoušť v TV, nevěřili jsme, že v pátek pojedeme. Ale ve 4:00 ráno se vše rozběhlo a všechny zásilky jsme v pátek doručili a svezli bez jakéhokoliv vlivu na zákazníky,“ přišlo v jedné z nich.

„Můžu potvrdit, že kdyby to nebylo ve zprávách, tak jsme to ani nepoznali. Skvělá práce i v těchto nepředvídatelných podmínkách,“ popisoval zástupce další společnosti.

Mimo dokončení oprav a vyztužení systému (rozšíření služeb o geo redundantní vlastnosti) teď zdejší zaměstnance čeká i hodně debat v odborné komunitě. Protože s něčím takovým se setkal jen málokdo, je to pro všechny dodavatele, spolupracovníky i zákazníky příležitost zamyslet se nad tím, jak systémy a technologie ještě vylepšit. Nikdo teď totiž nemá lepší informace a zkušenosti než právě zaměstnanci DataSpringu.