01.08.2016

V první řadě přijměte prosím naši omluvu za sobotní výpadek první napájecí větve v pražském datacentru. Během včerejška jsme analyzovali situaci a souběh všech událostí, abychom vám nyní mohli předložit detailnější vyjádření.

Sobotní odpolední směna na podpoře v pražském datacentru aktivně řešila problém s napájením v sále s tower servery. Při přepínání technologií na záložní napájecí větev však došlo k lidské chybě, jejíž příčinou byl právě zmíněný výpadek zákaznických technologií napájených z této první větve. Zákazníci s napájením ze dvou větví, stejně tak jako zákazníci se službou cloud hostingu, výpadek v drtivé většině případů nezaznamenali. Celý systém zálohovaného napájení, tedy dvou oddělených napájecích větví, UPS jednotek a diesel agregátů je designován na standardní typ výpadku elektrické sítě. V sobotu bohužel vlivem lidského zásahu došlo k nestandardnímu výpadku první větve, což je důvod, proč ani diesel agregáty nemohly nastartovat. Jak jsme všechny pražské zákazníky informovali, napájení bylo úspěšně obnoveno po zhruba 30 minutách. Neprodleně poté začali naši technici asistovat zákazníkům a znovu spouštět jejich servery. Monitorovací systém bezprostředně po výpadku vyhodnotil i nestandardní chování našich síťových prvků, konkrétně switchů, u kterých v důsledku nestandardního přerušení napájení nenaběhla část portů. Technici v Praze a administrátoři v Brně se postarali o přepojení na funkční porty a celou noc i během neděle aktivně řešili zákaznické požadavky a asistovali při spouštění vašich technologií.

Máme informace o jednotkách případů, kdy i zákazníci s napájením ze dvou větví zaznamenali výpadky napájení. Jako jednu z možných příčin jsme vyhodnotili špatné zapojení zákaznických technologií v racku, proto pokud máte zájem, kontaktujte nás prosím na support@master.cz, rádi vám poradíme nebo provedeme kontrolu síťového zapojení.

Na základě sobotního výpadku jsme se rozhodli o vylepšení procesu krizového zásahu pomocí následujících opatření:

  • 1) Urychlení procesu nasazení informačních zpráv do telefonní ústředny – tato funkcionalita byla již v provozu, ale všechny kompetentní osoby se musely koncentrovat na prioritnější práce spojené s technickým zásahem. Rozšířením kompetence na více zaměstnanců by měla být lepší a rychlejší informovanost, kterou při rozsáhlejším výpadku není možné odbavit telefonicky.
  • 2) Komunikace na sociálních sítích – výpadek jsme se snažili během sobotního odpoledne a večera komunikovat na sociálních sítích, ty však dosud nespravovali zaměstnanci s 24hodinovou pohotovostí, proto se první tweet objevil v čase 17:31. I tento proces nyní urychlíme a pokusíme se v maximální možné míře automatizovat, aby sociální sítě v případě výpadku mohly fungovat jako spolehlivý informační kanál. Naše profily najdete pod adresami: www.twitter.com/MasterDC a www.facebook.com/MasterDC.
  • 3) Zvažujeme také další rozšíření technických příslužeb, abychom byli schopni rychleji řešit nestandardní situace v minimálním možném čase.

Ještě jednou se omlouváme za nesnáze a nečekaně perný víkend. S případnými dalšími dotazy prosím kontaktujte pražského obchodního ředitele Petra Štěpánka na stepanek@master.cz, 777 919 300. Pokud chcete sdělit něco přímo mně, jsem vám – byť z dovolené – k dispozici na spacek@master.cz.

Děkujeme za podporu, které se nám od mnohých z vás dostalo, a díky, že jste s námi.

Za Master Internet

Filip Špaček, provozní ředitel

Správné místo pro vaše data

NAŠE DATACENTRA NALEZNETE V PRAZE I V BRNĚ