2.10.2011 Post-Mortem: voolukatkestuse lugu

Ardi Jürgens
RSS: Jaga:

Sissejuhatus

Et kõik ausalt ära rääkida, pean ma alustama tõdemusest, et kõik kes kunagi mõne suurema IT süsteemi eest hoolt kandnud on, vihkavad seda hetke, mil tuhandete ventilaatorite meelinüristav undamine seadmesaalis mõne sekundi jooksul kurdistava vaikusega asendub ja ainsa valgusallikana väljapääsude rohelised plafoonid helendama löövad.

Kahjuks oleme oma 11 aastase ajaloo jooksul sellist hetke mitu korda kogenud, viimati juhtus see pühapäeval 2. oktoobril.

Kuna paljud on selle viimase intsidendi asjaolude vastu huvi tundnud, siis teen kokkuvõtte meiepoolsest arusaamast, mis toimus.

Sündmused

Pühapäeval kella 12.45 ja 12.50 vahel toimus kõrgepingerike, mis jättis Sõle tänava piirkonnas võrgutoiteta mitmed alajaamad. Üks nendest alajaamadest teenindas Linxtelecomi hoonet, kus teiste seas rendib seadmemajutuspinda ka Zone.

Nii nagu ette nähtud, töötasid seadmed esialgu edasi katkematu voolu allikatelt (UPS’idelt) ja käivitus generaator, mis peaks tõsisemate probleemide korral hoonet elektriga varustama.

Esimene elektrikatkestus toimus hetkel, mil mõned UPS’id üritasid seadmete elektriga varustamise generaatorile üle anda. UPS’itud seadmete ja maja konditsioneeride summaarne voolutarve ületas generaatori väljundkaitsme võimsuse ja vooluahel katkes. (Täiendus: Linxtelecom väidab, et väljundkaitsme võimsus ületati, kuna kaitse oli vigane.)

UPS’id rakendusid taas ja seadmed varustati uuesti elektriga, mille tagajärjel need esialgu taaskäivitusid.

Kuna UPS’id on dimensioneeritud seadmeid elektriga varustama vaid lühiajaliselt (reeglina generaatori käivitumiseni), siis tühjenesid nende akud kiiresti ja algas teine (pikem) elektrikatkestus.

Hoone elektrivarustus taastus peale võrgutoite taastumist alajaamast, misjärel saime meie asuda oma teenuseid taastama.

Erandina ei toimunud voolukatkestust seadmetele, mida teenindas viimati lisatud UPS, kuna see oli märkimisväärselt alakoormatud ja omas seetõttu piisavat reservi ka pikemaajalise katkestuse üle elamiseks.

Tagantjärgi targutamine

Intsidendi tagajärgede likvideerimisele järgnenud arutelul kaardistasime toimunut ja arutlesime selle üle, mida oleksime saanud teha selleks, et sellist laadi probleeme ennetada ja mida võiksime tulevikus teha teisiti.

Leidsime, et omalt poolt olime teinud kõik selleks, et oma teenuseid korrektselt kaitsta ja vastutus intsidendi eest lasub täielikult hoone haldajal.

Meie ostsime Linxtelecomilt veakindlusega elektrit (UPS’i ja generaatoriga kaitstud), kriitilisematele serveritele erinevatest allikatest (erinevatest UPS’dest) ja võrgu tuumikule täiendavalt veel 48V akudelt. Viimased peaks elektrivarustuse probleemide korral vastu pidama päevi ja päevi.

Miks jäid võrgutoite katkestuse korral ka meie võrguseadmed sellegipoolest ilma elektrivarustuseta, peab välja selgitama Linxtelecomi uurimine. Kuna alakoormatud UPS’i taga olnud seadmed jäid katkestuseta, oleksid võrguseadmete korrektse elekrivarustuse korral võinud edasi töötada paljud teenused, sh IMAP, POP3, SMTP, VPS-id ja vähemalt meie enda veebid.

Samuti peab Linxtelecom veel konkreetselt vastama meile, milline on nende võimekus lähitulevikus seda laadi elektrivarustuse katkestusega toime tulla.

Jõudsime järeldusele, et oleme teinud õigesti, algatades kevadel protsessid oma seadmemajutuspindade laiendamiseks ja riskide hajutamiseks.

Koostöös Elioniga on meil tänaseks valminud täiendav majutuspind, mille ettevalmistamine algas juba selle aasta kevadel.

Viimaseid lihve on saamas meie andmeside uus “tuumikvõrk”, mille ehitus algas samuti kevadel ja mis ulatub kolme andmesidekeskusesse.

Kui see valmis, saame valminud uue majutuspinna aktiivsemasse kasutusse võtta, alustades teenuste täiendavat hajutamist andmesidekeskuste vahel (täna on geograafiliselt distributeeritud DNS ja sisenev SMTP) ning pakkudes oma klientidele ka uusi teenuseid, mille kättesaadavus ei sõltu enam ühest saidist.

Palume veelkord oma klientidelt siiralt vabandust pühapäeval toimunu eest.

 

Populaarsed postitused

Kuidas Helikuju.ee esimene koduleht sai valmis vähem kui tööpäevaga

Helikuju.ee koduleht valmis välgukiirusel

Lemme Suve
Kui oled ettevõtja või loomeinimene, kes on kodulehe tegemist pikalt edasi lükanud, siis see lugu on just sulle. Oma kogemust jagab helidisaini agentuur...
Produktize.eu:  kuidas ehitada rahvusvahelist usaldusväärsust ja kasvatada turgu .EU domeeniga

Produktize.eu: kuidas ehitada rahvusvahelist usaldusväärsust ja kasvatada turgu .EU domeeniga

Nikita Tikhomirov
Eesti ärimaastikul tõusevad esile ettevõtted, kes ei piirdu vaid kohaliku turu teenindamisega, vaid mõtlevad suuremalt – sihtturgudele, brändi kuvandile...
Partner soovitab: Kuidas luua koduleht, mis kõnetab ideaalset klienti

Partner soovitab: Kuidas luua koduleht, mis kõnetab ideaalset klienti

Cathy Kask, Celeht.ee
Kas oled vahel tundnud, et su koduleht ei peegelda sind ega sinu ettevõtet? Nii palju on öelda, nii palju võimalusi – kuid lõpuks jääd siiski omaenda...
Xdebug seadistamine Zone veebimajutuses: PhpStorm

Xdebug seadistamine Zone veebimajutuses: PhpStorm

Arne Meier
Varasemalt on Zone blogis olnud juttu Xdebug kasutamisest nii Sublime Texti kui ka Visual Studio Code baasil. Kui eelmised näited käsitlevad seadistamist...