“Pilve pole olemas. On lihtsalt kellegi teise arvuti.”

Ardi Jürgens
Jaga:

Mul puudub ülevaade, kui palju kleepekaid selle ikoonilise tsitaadi erinevate variatsioonidega olen aastate jooksul omanud. See absurdsusega flirtiv lihtsustus on minu jaoks alati omanud koomilist võlu. Praegu on üks, kolleeg Taavi lahkelt annetatud kleebis mu sülearvutil fsfe.org-ist.

Pilve pole olemas. On lihtsalt kellegi teise arvuti.

Pilv, vaatamata oma näiliselt lihtsale määratlusele, on tegelikult keeruline süsteem. Keerukas omavahel ühendatud komponentide võrk, mis sisaldab andmekeskuste rajatisi, energia- ja jahutussüsteeme, füüsilisi turvakontrolle ja võrke. Oma infrastruktuuri loomisel püüame luua deterministliku süsteemi, mis käitub ettenähtud tingimustes ennustatavalt ja reprodutseeritavalt. Kuid tsiteerides mu lemmikute hulka kuuluvat fiktiivset kaoseteoreetikut dr. Ian Malcolmi:

„Nii algab see alati, aga pärast tulevad paaniline tormamine ja kisa.”

Hiljuti kogesime seda reaalsust kaunis „lõbusalt” ühes meie saitidest.

Kõik IT-spetsialistid mõistavad, et teenuste käideldavus on pidevalt ohustatud ja sel põhjusel püüavad nad ehitada oma hallatavatesse süsteemidesse liiasust. Näiteks andmekeskuste elektrisüsteemid sisaldavad tavaliselt mitut teineteisest sõltumatut sisendit üldkasutatavast elektrivõrgust, katkematuid toiteallikaid ja kohapealseid elektritootmisvõimalusi, et pakkuda serveritele ja võrguseadmetele toidet mitmest sõltumatust toiteallikast. Pideva testimise ja täiustuste kaudu tagavad näiteks Zone andmekeskuste partnerid, et iga süsteemi osa töötab ettenähtud viisil. Samuti on meie serveritel kaks paralleelselt töötavat toiteplokki, ühe rikke korral jätkab teine katkestuseta arvuti toitega varustamist.

„Aga kaos leiab alati võimaluse.”

Paar nädalat tagasi toimus meie Amsterdami andmekeskuses planeeritud elektrisüsteemi hooldus, mille käigus leidis aset üks märkimist väärt Zone infosüsteemi käideldavust mõjutanud vahejuhtum. Hoolduse käigus ühendati ootuspäraselt lahti üks meie elektritoite sisenditest. Serverid, mis on loodud selliseid olukordi rahulikult taluma, jätkasid sujuvalt töötamist.

Kuna sellised hooldused on osa meie rutiinist, siis jälgisid meie insenerid hooldusakna alguses hoolikalt kõiki süsteeme. Kõik tundus korras ja kulgevat tavapäraselt. Ka meie seiresüsteemid ei märganud kogu kõnealuse hooldustsükli jooksul midagi tavatut. Meile teadmata märkasid aga mõned meie kliendid, et nende virtuaalmasinate protsessorite (CPU) jõudlus meie pilves langes järsult.

CPU jõudlus on midagi, mille üle oleme üsna uhked ja millesse oleme tublisti investeerinud, sest kasutame oma hüperviisorites uusimaid ja parimaid AMD Epyc 4. põlvkonna 9-seeria protsessoreid. Järsku oli nende arvutusvõimsus osades virtuaalmasinates langenud 2000ndate alguse AMD Athlon K7 tasemele…

Kui toitesisend graafikujärgselt taastus , siis normaliseerusid ka jõudlusnäitajad ning meie tehnikud asusid tööle, et selgitada välja toimunu põhjus. Nad seadsid kiirelt üles nö “labori” meie Tallinna andmekeskuses ja reprodutseerisid samad tingimused. Selle käigus tegime olulise avastuse, sest selgus, et üksikud meie kasutatavad uusima põlvkonna SuperMicro serverid piiravad spetsiifilistel tingimustel ootamatult oma CPU võimsust. See juhtus näiteks siis, kui dubleeritud toiteplokkidedega serveril üks toitejuhe käigult eemaldati, aga aga seda ei juhtunud, kui toiteplokk üldse serverist välja tõmmati.

Täiendava uurimise käigus sai selgeks, et kolmel sellest anomaaliast mõjutatud serveril oli teistest veidi erinev püsivara konfiguratsioon. Serveri CPLD kiibi püsivara versioon oli meie jaoks hariliku F5.0F.19 asemel F5.0F.1C. CPLD-d ehk komplekssed programmeeritavad loogikaseadmed mängivad serverite haldamises olulist rolli. Nad jälgivad erinevaid riistvarakomponente nagu mälumoodulid, protsessorid ja toiteallikad, tagades nende sujuva toimimise. Lisaks on nad olulised vigade tuvastamise ja parandamise mehhanismide rakendamisel serverites.

Tulenevalt SuperMicro poliitikast mitte pakkuda kasutajatele vaikimisi CPLD püsivara uuendusi ja meie võimetusest seda teistelt emaplaatidelt välja koukida, oli uuema versiooni hankimine veidi raskendatud. Lõpuks õnnestus meil siiski nende tugitiimi kaasabil uuem versioon hankida ja pärast selle rakendamist tarbetut CPU piiramist enam ei esine.

Meie kliendid, kelle jaoks „pilv” on lihtsalt Zone arvuti, võivad nüüd kindlad olla, et praegu töötavad neid teenindavad arvutid taas ootuspäraselt.

Parafraseerides üht teist fiktiivset „kaose agenti”, sai meie kompleksset süsteemi mõjutanud „tundmatu tundmatu” nüüd „tuntud tundmatuks”, mida saame edaspidi jälgida ja sellele vajadusel kiirelt reageerida.

Meie inseneride võitlus kaose taltsutamisel jätkub.

Populaarsed postitused

Zone teenused teel rohelusse

Ardi Jürgens
Tänavu suvel alutasime oma taristu ülekolimist Baltikumi kaasaegseimasse ja turvalisimasse andmekeskusesse. Koostöö Greenergy Data Centers’iga kasvatab...
Paketiuuendus: automaatsed tõmmised ja pikem varukoopia säilimine

Paketiuuendus: automaatsed tõmmised ja varukoopia pikem säilimine

Ingmar Aasoja
Meil on hea meel teatada, et Zone veebimajutusteenuse Pro paketi kasutajatele on nüüd saadaval automaatsed igaöised Zone+ tõmmised ning varukoopia...
Zone+ Turvamonitooring tagab rahuliku ööune

Zone+ Turvamonitooring tagab rahuliku ööune

Kaarel Urva
Veebilehe turvalisuse tagamise olulisuses ei kahtle tänapäeval enam mitte keegi. Sellegipoolest tuleme põhitõdede juurde käesolevas blogipostituses...

Toores jõud ja nutikus - võitmatu kooslus

Ardi Jürgens
Saame taaskord kinnitada, et just Zone klientide käsutuses on parim võimalik veebimajutuse platvorm. Juba täna teenindavad osasid meie klientide serverid,...