2.10.2011 Post-Mortem: voolukatkestuse lugu

Ardi Jürgens
RSS: Jaga:

Sissejuhatus

Et kõik ausalt ära rääkida, pean ma alustama tõdemusest, et kõik kes kunagi mõne suurema IT süsteemi eest hoolt kandnud on, vihkavad seda hetke, mil tuhandete ventilaatorite meelinüristav undamine seadmesaalis mõne sekundi jooksul kurdistava vaikusega asendub ja ainsa valgusallikana väljapääsude rohelised plafoonid helendama löövad.

Kahjuks oleme oma 11 aastase ajaloo jooksul sellist hetke mitu korda kogenud, viimati juhtus see pühapäeval 2. oktoobril.

Kuna paljud on selle viimase intsidendi asjaolude vastu huvi tundnud, siis teen kokkuvõtte meiepoolsest arusaamast, mis toimus.

Sündmused

Pühapäeval kella 12.45 ja 12.50 vahel toimus kõrgepingerike, mis jättis Sõle tänava piirkonnas võrgutoiteta mitmed alajaamad. Üks nendest alajaamadest teenindas Linxtelecomi hoonet, kus teiste seas rendib seadmemajutuspinda ka Zone.

Nii nagu ette nähtud, töötasid seadmed esialgu edasi katkematu voolu allikatelt (UPS’idelt) ja käivitus generaator, mis peaks tõsisemate probleemide korral hoonet elektriga varustama.

Esimene elektrikatkestus toimus hetkel, mil mõned UPS’id üritasid seadmete elektriga varustamise generaatorile üle anda. UPS’itud seadmete ja maja konditsioneeride summaarne voolutarve ületas generaatori väljundkaitsme võimsuse ja vooluahel katkes. (Täiendus: Linxtelecom väidab, et väljundkaitsme võimsus ületati, kuna kaitse oli vigane.)

UPS’id rakendusid taas ja seadmed varustati uuesti elektriga, mille tagajärjel need esialgu taaskäivitusid.

Kuna UPS’id on dimensioneeritud seadmeid elektriga varustama vaid lühiajaliselt (reeglina generaatori käivitumiseni), siis tühjenesid nende akud kiiresti ja algas teine (pikem) elektrikatkestus.

Hoone elektrivarustus taastus peale võrgutoite taastumist alajaamast, misjärel saime meie asuda oma teenuseid taastama.

Erandina ei toimunud voolukatkestust seadmetele, mida teenindas viimati lisatud UPS, kuna see oli märkimisväärselt alakoormatud ja omas seetõttu piisavat reservi ka pikemaajalise katkestuse üle elamiseks.

Tagantjärgi targutamine

Intsidendi tagajärgede likvideerimisele järgnenud arutelul kaardistasime toimunut ja arutlesime selle üle, mida oleksime saanud teha selleks, et sellist laadi probleeme ennetada ja mida võiksime tulevikus teha teisiti.

Leidsime, et omalt poolt olime teinud kõik selleks, et oma teenuseid korrektselt kaitsta ja vastutus intsidendi eest lasub täielikult hoone haldajal.

Meie ostsime Linxtelecomilt veakindlusega elektrit (UPS’i ja generaatoriga kaitstud), kriitilisematele serveritele erinevatest allikatest (erinevatest UPS’dest) ja võrgu tuumikule täiendavalt veel 48V akudelt. Viimased peaks elektrivarustuse probleemide korral vastu pidama päevi ja päevi.

Miks jäid võrgutoite katkestuse korral ka meie võrguseadmed sellegipoolest ilma elektrivarustuseta, peab välja selgitama Linxtelecomi uurimine. Kuna alakoormatud UPS’i taga olnud seadmed jäid katkestuseta, oleksid võrguseadmete korrektse elekrivarustuse korral võinud edasi töötada paljud teenused, sh IMAP, POP3, SMTP, VPS-id ja vähemalt meie enda veebid.

Samuti peab Linxtelecom veel konkreetselt vastama meile, milline on nende võimekus lähitulevikus seda laadi elektrivarustuse katkestusega toime tulla.

Jõudsime järeldusele, et oleme teinud õigesti, algatades kevadel protsessid oma seadmemajutuspindade laiendamiseks ja riskide hajutamiseks.

Koostöös Elioniga on meil tänaseks valminud täiendav majutuspind, mille ettevalmistamine algas juba selle aasta kevadel.

Viimaseid lihve on saamas meie andmeside uus “tuumikvõrk”, mille ehitus algas samuti kevadel ja mis ulatub kolme andmesidekeskusesse.

Kui see valmis, saame valminud uue majutuspinna aktiivsemasse kasutusse võtta, alustades teenuste täiendavat hajutamist andmesidekeskuste vahel (täna on geograafiliselt distributeeritud DNS ja sisenev SMTP) ning pakkudes oma klientidele ka uusi teenuseid, mille kättesaadavus ei sõltu enam ühest saidist.

Palume veelkord oma klientidelt siiralt vabandust pühapäeval toimunu eest.

 

Populaarsed postitused

Kliendi edulugu: kuidas muster.ee tõstis e-poe müüki, kui leidis Nutika Pilveserveri

Katrin Sulg
E-kaubandus on viimastel aastatel muutunud järjest olulisemaks. Konkurentsitihedas keskkonnas saavad veebilehe kiirus ja töökindlus määravaks. Muster.ee...

Kas domeen kuulub ikka sulle? ICANNi uus reegel sunnib vigaseid andmeid parandama

Jaanus Putting
Alates mai lõpust jõustub ICANNi uus poliitika, mis mõjutab geneeriliste domeenide omanikke. Kes on domeeni seaduslik omanik, määratakse nüüdsest...

Partner soovitab: Kuidas targalt integreerida ja hallata infosüsteeme

Acty
Tänapäeva digitaalses maailmas ei toimi ükski arvestatav organisatsioon enam iseseisvate tarkvaratükkide najal. Infosüsteemide integratsioon on muutunud...

Miks valida .EU domeen nüüd ja täna?

Jaanus Putting
Me elame ajastul, mil globaalsed jõujooned muutuvad kiiremini kui kunagi varem. Kui Euroopa on astunud ühisturuna üha tugevama ja sidusama tegutsemise...