10. 3. 2021

Datacentrum OVH čelí požáru

Rubrika: Aktuality

Dnes v ranních hodinách došlo k obřímu požaru v jednom z největších evropských datacenter v OVH ve Strasbourgu. Na místě jsou hasičí, kteří v tuto chvíli mají požár pod kontrolou.

Všechny služby OVH jsou v tuto chvili nedostupné. Tento incident se přímo dotýká čtyřech našich serverů CS7, CS8, CS9, CS10. Sledujeme aktuální situaci a čekáme na informaci zda se požár dotknul přímo našich strojů. Zálohy všech aplikací máme, ale samotné rozjetí serverů z jiného datacentra a obnovení záloh není otázka hodin. Jedná se katastrofu, kterou v tomto smyslu asi svět nepamatuje. Vždy myslíme dopředu na možnost výpadku jednoho serveru, ale požár celé budovy je bohužel nad rámec všech standardních katastrofických scénářů.

Image 0

Aktualizace informací:

12/3/2021 18:25 h -  Všechny aplikace jsou v provozu
Servery jsou úspěšně obnoveny z nového datacentra. U všech domén, které máme v technické správě jsme nastavili A záznamy na novou IP adresu serveru automaticky. Především na serveru CS9 ale běží mnoho aplikací klientů, kteří mají domény ve vlastní správě. Weby pro jistotu projíždíme a postupně řešíme individuálně. Pokud víte, že je to Váš případ můžete nastavit novou adresu takto:

Pokud nejsme technickým správcem Vaši domény:

A záznamy vaši domény nastavte na IP adresu nového serveru: 135.125.167.190

Pokud provozujete platební bránu Comgate

Bude nutné kontaktovat podporu platební brány nebo nastavit v administraci IP adresu serveru: 135.125.167.190

12/3/2021 12:16 h -  Administrace serverů dokončena
Servery jsou nainstalované, nakonfigurované, začínáme s obnovou aplikací a podle aktuáního vyjádření administrátorů by se mělo dnes podařit vše spustit. Připouštíme, že se kompletní obnovení potáhne do večerních hodin. Je toho opravdu hodně, ale vidíme světlo na konci tunelu....

12/3/2021 10:55 h - Jsme ve finální fázi obnovy
Servery jsou nainstalované, zálohy stažené a obnovené, kromě jedné, která je v 80%. Bojujeme v OVH s administrátory, kteří jsou zřejmě přetížení, máme trable s finálním nastavením gateway v nové serverovně. Věříme, že se nám podáří obnovit zbytek služeb během pátku.

11/3/2021 14:40 h - Nové servery v Limburgu jsou nainstalovány - stahujeme zálohu
Oba nové servery jsou živé a v současné době stahují oba zálohu z původních serverů ve Strasbourgu. Jsou to obří data takže to nebude úplně hned. Následně obnovíme ze zálohy a začneme rozjíždět postupně jednotlivé weby.

11/3/2021 14:00 h - První zakázky přesunuté do Prahy se postupně rozjíždějí
První část obnovy - část webů přesouvaných do pražského datacentra Casablanca už jedou, ostatní brzy začneme přesouvat na nově připravované servery v Německu.

11/3/2021 10:25 h - Instalujeme nové servery v datacentru OVH v Limburgu
Nakonec se nepodařila Varšava, ale v procesu již je instalace nových dvou serverů v datacentru OVH Limburg blízko Frankfurtu. Po dokončení instalace a konfigurace zahájíme přenos dat ze zálohy, následovat bude její obnovení, rekonfigurace importů, změna A záznamů všech inkriminovaných domén. Vypadá to na dlouhý den. Zatím to není v řádech hodin, jedná se o ohromný objem dat, ale našim cílem je, aby k obnovení všech služeb došlo do pátku 12.3. Velice se omlouváme všem klientům. Bohužel taková situace je jen těžko předvídatelná a děláme naprosté maximum pro co nejrychlejší obnovení všech aplikací.

11/3/2021 9:00 h - OVH zatím v kolapsu
Shrnutí situace: ze čtyř serverů ve Strasbourgu byl v budově zasažené požárem pouze jeden z nich. Bohužel ostatní budovy jsou stále bez proudu. Obnova podle oficiálních zdrojů je reálná v příštím týdnu. OVH zároveň prohlásilo, že je v pohotovosti obchodní tým, který kontaktuje všechny klienty a snaží se sjednávat náhradní řešení v jiných datacentrech Evropy. Bohužel není možné se s nimi spojit... Nemůžeme úplně čekat, proto část zakázek pokryjí naše kapacity v Praze v datacentru Casablanca. Pro druhou část rozjíždíme server ve Varšavě pod OVH. Po rozjetí Varšavského serveru budeme schopni odhadnout čas zprovoznění.

Pár odpovědí na časté dotazy:

Máte zálohy?
Ano, zálohované máme vše...

To nejste na takovou situaci připravení?
Vždy máme připravené záložní servery a vždy musíme očekávat výpadek harwaru. Jednotlivé servery ani nejsou v jedné budově pro případ katastrofy. Teď bohužel nejde o výpadek serveru, ale výpadek celé infrastruktury v OVH Strasbourg. Přenést celé řešení mimo OVH je v tuto chvíli otázkou několika dnů. Pokud nám OVH rozjede server kdekoliv v Evropě, budeme schopni přenést komplet konfigurace a obnovit virtuální servery.

Dá se tomu předejít do budoucna?
V rámci zakázky je možné sjednat replikaci. Některé velké zakázky to tak mají. Jde o to, že aplikace jede paralelně na dvou serverech nezávisle na sobě, kde sekundární nahradí ten primární v případě výpadku. Jsou s tím samozřejmě spojené vyšší náklady na provoz.

Proč se přesun nezačal řešit již včera?
Včera bylo relativně málo informací. Kolem 11 h jsme obdrželi informace, že našim serverům v budově SBG3 se nic nestalo a že plánuí jejich restart. To nás do jisté míry uklidnilo, protože práve v SBG3 máme největší rezervy na výkon i kapacitu aplikací a dokázali bychom okamžitě spustit vše z tohoto umístění. Bohužel v odpoledních hodinách vyplynulo, že SBG3 je sice nepoškozena, ale bez proudu. Od toho momentu to intenzivně řešíme.

10/3/2021 14:00 h - OVH představilo plán - zatím žádné dobré zprávy
Podle informací dostupných na Twitteru je hlavní problém přívod vysokého napětí, který požár zničil. Čekáme na nějakou oficiální informaci pro nás jako klienta. Taková zatím nepřišla. Paralelně přesouváme část postižených aplikací na server v Praze a pracujeme na obnovení služeb našich klientů.

10/3/2021 11:20 - Máme potvrzeno, že pro nás stěžejní server je v budově SBG3
Budova SBG3 je v pořádku a požárem nebyla zasažena. V OVH se připravuje plán restartu zatím bez časového odhadu.

10/3/2021 11:00 h - Požár se dotknul jen jednoho ze čtyř našich serverů v OVH
Ostatní jsou v jiných budovách. Bohužel podle aktuálních informací není možné očekávat, že by obnovili provoz nedotčených budov během dne. Pro server, který víme, že byl požárem zasažen připravujeme nové železo a obnovíme ze zálohy. Budeme doufat, že ostatní servery zprovozní OVH až bude situace pod kontrolou.

Image 1