“Pilve pole olemas. On lihtsalt kellegi teise arvuti.”

Ardi Jürgens
Jaga:

Mul puudub ülevaade, kui palju kleepekaid selle ikoonilise tsitaadi erinevate variatsioonidega olen aastate jooksul omanud. See absurdsusega flirtiv lihtsustus on minu jaoks alati omanud koomilist võlu. Praegu on üks, kolleeg Taavi lahkelt annetatud kleebis mu sülearvutil fsfe.org-ist.

Pilve pole olemas. On lihtsalt kellegi teise arvuti.

Pilv, vaatamata oma näiliselt lihtsale määratlusele, on tegelikult keeruline süsteem. Keerukas omavahel ühendatud komponentide võrk, mis sisaldab andmekeskuste rajatisi, energia- ja jahutussüsteeme, füüsilisi turvakontrolle ja võrke. Oma infrastruktuuri loomisel püüame luua deterministliku süsteemi, mis käitub ettenähtud tingimustes ennustatavalt ja reprodutseeritavalt. Kuid tsiteerides mu lemmikute hulka kuuluvat fiktiivset kaoseteoreetikut dr. Ian Malcolmi:

„Nii algab see alati, aga pärast tulevad paaniline tormamine ja kisa.”

Hiljuti kogesime seda reaalsust kaunis „lõbusalt” ühes meie saitidest.

Kõik IT-spetsialistid mõistavad, et teenuste käideldavus on pidevalt ohustatud ja sel põhjusel püüavad nad ehitada oma hallatavatesse süsteemidesse liiasust. Näiteks andmekeskuste elektrisüsteemid sisaldavad tavaliselt mitut teineteisest sõltumatut sisendit üldkasutatavast elektrivõrgust, katkematuid toiteallikaid ja kohapealseid elektritootmisvõimalusi, et pakkuda serveritele ja võrguseadmetele toidet mitmest sõltumatust toiteallikast. Pideva testimise ja täiustuste kaudu tagavad näiteks Zone andmekeskuste partnerid, et iga süsteemi osa töötab ettenähtud viisil. Samuti on meie serveritel kaks paralleelselt töötavat toiteplokki, ühe rikke korral jätkab teine katkestuseta arvuti toitega varustamist.

„Aga kaos leiab alati võimaluse.”

Paar nädalat tagasi toimus meie Amsterdami andmekeskuses planeeritud elektrisüsteemi hooldus, mille käigus leidis aset üks märkimist väärt Zone infosüsteemi käideldavust mõjutanud vahejuhtum. Hoolduse käigus ühendati ootuspäraselt lahti üks meie elektritoite sisenditest. Serverid, mis on loodud selliseid olukordi rahulikult taluma, jätkasid sujuvalt töötamist.

Kuna sellised hooldused on osa meie rutiinist, siis jälgisid meie insenerid hooldusakna alguses hoolikalt kõiki süsteeme. Kõik tundus korras ja kulgevat tavapäraselt. Ka meie seiresüsteemid ei märganud kogu kõnealuse hooldustsükli jooksul midagi tavatut. Meile teadmata märkasid aga mõned meie kliendid, et nende virtuaalmasinate protsessorite (CPU) jõudlus meie pilves langes järsult.

CPU jõudlus on midagi, mille üle oleme üsna uhked ja millesse oleme tublisti investeerinud, sest kasutame oma hüperviisorites uusimaid ja parimaid AMD Epyc 4. põlvkonna 9-seeria protsessoreid. Järsku oli nende arvutusvõimsus osades virtuaalmasinates langenud 2000ndate alguse AMD Athlon K7 tasemele…

Kui toitesisend graafikujärgselt taastus , siis normaliseerusid ka jõudlusnäitajad ning meie tehnikud asusid tööle, et selgitada välja toimunu põhjus. Nad seadsid kiirelt üles nö “labori” meie Tallinna andmekeskuses ja reprodutseerisid samad tingimused. Selle käigus tegime olulise avastuse, sest selgus, et üksikud meie kasutatavad uusima põlvkonna SuperMicro serverid piiravad spetsiifilistel tingimustel ootamatult oma CPU võimsust. See juhtus näiteks siis, kui dubleeritud toiteplokkidedega serveril üks toitejuhe käigult eemaldati, aga aga seda ei juhtunud, kui toiteplokk üldse serverist välja tõmmati.

Täiendava uurimise käigus sai selgeks, et kolmel sellest anomaaliast mõjutatud serveril oli teistest veidi erinev püsivara konfiguratsioon. Serveri CPLD kiibi püsivara versioon oli meie jaoks hariliku F5.0F.19 asemel F5.0F.1C. CPLD-d ehk komplekssed programmeeritavad loogikaseadmed mängivad serverite haldamises olulist rolli. Nad jälgivad erinevaid riistvarakomponente nagu mälumoodulid, protsessorid ja toiteallikad, tagades nende sujuva toimimise. Lisaks on nad olulised vigade tuvastamise ja parandamise mehhanismide rakendamisel serverites.

Tulenevalt SuperMicro poliitikast mitte pakkuda kasutajatele vaikimisi CPLD püsivara uuendusi ja meie võimetusest seda teistelt emaplaatidelt välja koukida, oli uuema versiooni hankimine veidi raskendatud. Lõpuks õnnestus meil siiski nende tugitiimi kaasabil uuem versioon hankida ja pärast selle rakendamist tarbetut CPU piiramist enam ei esine.

Meie kliendid, kelle jaoks „pilv” on lihtsalt Zone arvuti, võivad nüüd kindlad olla, et praegu töötavad neid teenindavad arvutid taas ootuspäraselt.

Parafraseerides üht teist fiktiivset „kaose agenti”, sai meie kompleksset süsteemi mõjutanud „tundmatu tundmatu” nüüd „tuntud tundmatuks”, mida saame edaspidi jälgida ja sellele vajadusel kiirelt reageerida.

Meie inseneride võitlus kaose taltsutamisel jätkub.

Populaarsed postitused

"Pilve pole olemas. On lihtsalt kellegi teise arvuti."

Ardi Jürgens
Mis ikkagi on pilveteenus, kuidas see keerukas süsteem töötab ning kuidas me tulime mõne nädala eest toime ühe jõudlust pärssinud ootamatusega....

Saabub OpenSSL 3 tugi - ka aegunud PHP versioonidele

Ingmar Aasoja
Zone veebimajutusplatvormi aluseks olevat ZoneOS operatsioonisüsteemi ootab ees suurem uuendus: juurutame OpenSSL 3. versiooni. See muutus mõjutab pea...

Uuendame NodeJS ja Python vaikeversioone

Ingmar Aasoja
Juunis 2024 hakkame Zone platvormi järk-järgult l uuendama NodeJS ja Python vaikeversioone, mistõttu palume käesoleva kirjatükiga tähelepanu just...

Veelkord aegunud PHP versioonidest

Kaarel Urva
Mäletatavasti teavitasime aprilli lõpus kliente sellest, et aegunud PHP versioonide kasutamine muutub tasuliseks. Mõistetavasti tuli see uudis paljudele...