Hacker News

AWS Middle East Central Down, matyt, nukentėjo per karą

komentarai

13 min read Via health.aws.amazon.com

Mewayz Team

Editorial Team

Hacker News
Straipsnį parašysiu remdamasis tuo, kas žinoma apie situaciją – AWS Artimųjų Rytų (JAE) regionas (me-central-1), kaip pranešama, žlunga vykstant regioniniam konfliktui. Leiskite man sukurti stiprų, originalų kūrinį, kuriame pagrindinis dėmesys skiriamas atsparumui debesims, geopolitinei rizikai ir verslo tęstinumui.

Kai debesys krenta: AWS Artimųjų Rytų centrinė dalis aptemsta dėl regioninio konflikto

Tūkstančiams įmonių visoje Persijos įlankoje ir už jos ribų nutiko tai, kas neįsivaizduojama. AWS Artimųjų Rytų (JAE) regionas, viduje žinomas kaip me-central-1, buvo neprisijungęs, o pranešimuose šis sutrikimas siejamas su kinetiniais kariniais smūgiais regione. Akimirksniu įmonės, pasikliaujančios viena prieinamumo zona, atrado žiaurią koncentracijos rizikos kainą. Tinklalapiai aptemsta, API nustojo reaguoti, mokėjimo sistemos užstojo, o klientų duomenys laikinai tapo nepasiekiami. Šis incidentas yra ryškus, realus priminimas, kad „debesis“ nėra abstrakcija – tai betonas, plienas, šviesolaidinis kabelis ir aušinimo sistemos, esančios fizinėje vietoje, kuriai taikoma tokia pati geopolitinė realybė kaip ir visa kita ant žemės.

Kas atsitiko: sutrikimo laiko juosta

Socialinėje žiniasklaidoje ir kūrėjų forumuose pasirodė pranešimų, kad AWS „me-central-1“ regione priglobtose paslaugose pateikiamos klaidos arba baigiasi laikas. Per kelias minutes „AWS Service Health Dashboard“ patvirtino pablogėjusį kelių paslaugų našumą Vidurio Rytų (JAE) regione. Skirtingai nuo įprastų debesų gedimų, kuriuos sukėlė programinės įrangos ar konfigūracijos klaidos, šis sutrikimas buvo siejamas su fizinės infrastruktūros pažeidimais – tariamai karinio smūgio per platesnį regioninį konfliktą rezultatas.

Nors AWS nepaskelbė išsamios ataskaitos po incidento rašymo metu, modelis atitinka katastrofišką fizinį įvykį: vienu metu gedimas keliose pasiekiamumo zonose viename regione, nėra laipsniško pablogėjimo ir greito perkėlimo. Įmonės, vykdančios darbo krūvius tik me-central-1, patyrė visišką paslaugų praradimą. Tie, kurie turi kelių regionų architektūrą, pastebėjo, kad eismas automatiškai nukreipiamas į eu-south-1 (Milanas), ap-south-1 (Mumbajus) arba af-south-1 (Keiptaunas) – su padidinta delsa, bet toliau veikiant.

Kai kurių paslaugų gedimas truko kelias valandas, o kitų – gerokai ilgiau, o daug duomenų reikalaujantys darbo krūviai, pvz., RDS duomenų bazės ir S3 segmentai paveiktame regione, liko nepasiekiami gerokai po to, kai skaičiavimo paslaugos atsigavo. Įmonėms, neturinčioms atsarginių kopijų, kopijuotų į kitus regionus, laukti buvo sunku.

Tikroji kaina: kas nukentėjo labiausiai

Labiausiai paveikė įmonės, kurių šaknys yra giliausios viename regione. „Fintech“ startuoliai JAE ir Saudo Arabijoje, pasirinkę „me-central-1“, kad atitiktų duomenų rezidencijos reikalavimus, atsidūrė visiškai neprisijungę. El. prekybos platformos, apdorojančios užsakymus piko vakaro valandomis Persijos įlankoje, prarado sandorius, kurių gali niekada neatsigauti. SaaS įmonės, aptarnaujančios Artimųjų Rytų verslo klientus, susidūrė su SLA pažeidimais, kurių vertė siekia šimtus tūkstančių dolerių.

Remiantis debesų stebėjimo įmonių skaičiavimais, didelis regioninis AWS gedimas paveiktoms įmonėms gali kainuoti nuo 50 iki 150 mln. USD per valandą prarastų pajamų, našumo ir atkūrimo išlaidų. Atskiroms įmonėms žala priklauso nuo architektūros. Įmonė, naudojanti bevalstybės API už pasaulinio apkrovos balansavimo priemonės, gali prarasti 30 sekundžių pasiekiamumą. Įmonė, naudojanti monolitinę taikomąją programą su vieno regiono duomenų baze, gali prarasti kelias dienas.

Debesis nepanaikina infrastruktūros rizikos – jis ją perskirsto. Kai visas jūsų verslas veikia viename regione, nesumažinote nė vieno nesėkmės taško. Ką tik jį perdavėte duomenų centrui, kuriame niekada nesilankėte.

Kodėl geopolitinė rizika yra nauja prieinamumo zona

Debesų architektai jau seniai planavo aparatinės įrangos gedimus, programinės įrangos klaidas ir net stichines nelaimes. Geopolitinė rizika – galimybė, kad ginkluotas konfliktas, sankcijos ar politinis nestabilumas gali fiziškai sunaikinti arba teisiškai izoliuoti debesų infrastruktūrą – tradiciškai buvo traktuojama kaip teorinis kraštutinis atvejis. Šis incidentas visam laikui pakeičia skaičiavimą.

Per pastaruosius penkerius metus Artimuosiuose Rytuose sparčiai pradėjo naudotis debesys. AWS, „Microsoft Azure“, „Google Cloud“ ir „Oracle“ atvėrė regionus JAE, Saudo Arabijoje, Katare ir Bahreine, skatinami klestinčios skaitmeninės ekonomikos ir griežtų duomenų suvereniteto įstatymų, reikalaujančių, kad tam tikri duomenys liktų nacionalinių sienų ribose. Šie duomenų buvimo vietos reikalavimai sukūrė būdingą įtampą: atitiktis reikalauja geografinio specifiškumo, tačiau atsparumas reikalauja geografinio pasiskirstymo.

Dabar įmonės susiduria su sudėtingu klausimu. Kaip patenkinti reglamentą, kuriame teigiama, kad „jūsų duomenys turi likti šioje šalyje“, kai tos šalies infrastruktūra tampa taikiniu? Atsakymas greičiausiai bus susijęs su reguliavimo raida – tikimasi, kad bus atnaujintos duomenų buvimo vietos sistemos, kurios aiškiai leis konflikto scenarijus perkelti į iš anksto patvirtintus antrinius regionus. Tačiau kol šios sistemos neegzistuoja, įmonės atsiduria tarp atitikties ir tęstinumo.

Pamokos kiekvienam verslui, nepriklausomai nuo regiono

Tai ne tik Artimųjų Rytų problema. Bet kuri įmonė, veikianti bet kuriame debesies regione – ar tai būtų us-east-1 Virdžinijoje, eu-west-1 Airijoje ar ap-southeast-1 Singapūre – susiduria su regiono lygio nesėkmėmis. Priežastis gali būti skirtinga (uraganas, povandeninio kabelio nutrūkimas, elektros tinklo gedimas, kibernetinė ataka prieš infrastruktūrą), tačiau rezultatas yra tas pats: visiškas paslaugų praradimas vieno regiono architektūroms.

Štai svarbios nuostatos, kurias turėtų įsisavinti kiekvienas technologijų lyderis:

  • Keli regionai neprivalomi gamybos apkrovoms. Jei jūsų verslas priklauso nuo jo, jis turi veikti bent dviejuose geografiškai atskirtuose regionuose su automatiniu perkėlimu.
  • Atsarginės kopijos tame pačiame regione nėra atsarginės kopijos. RDS momentinė nuotrauka, saugoma tame pačiame regione, kaip ir jūsų pagrindinė duomenų bazė, bus taip pat nepasiekiama regioninio gedimo metu. Replikuoti į antrinį regioną – visada.
  • Išbandykite savo atkūrimo planą realiomis sąlygomis. Planas, kuris yra tik „Confluence“ dokumente, nėra planas. Kas ketvirtį vykdykite chaoso inžinerines pratybas, kurios imituoja visišką regiono praradimą.
  • Įvertinkite „SaaS“ tiekėjų architektūrą. Jei jūsų CRM, sąskaitų faktūrų išrašymo ar komunikacijos įrankiai neveikia, nes jie buvo vieno regiono, jų gedimas tampa jūsų nesėkme. Paklauskite pardavėjų, kur jie yra ir kokia yra jų perkėlimo strategija.
  • Apsvarstykite galimybę naudoti kelis debesis kritiniuose keliuose. Pagrindinio darbo krūvio vykdymas naudojant AWS ir šiltas budėjimo režimas „Azure“ arba GCP apsaugo nuo teikėjo lygio gedimų, o ne tik nuo regiono lygio.
  • Dokumentuokite ir kartokite savo komunikacijos planą. Kai paslaugos nutrūksta, jūsų komanda turi tiksliai žinoti, su kuo susisiekti, ką pasakyti klientams ir kaip veikti pablogėjusiu režimu.

Kaip platformos konsolidavimas sumažina sprogimo spindulį

Vienas dažnai nepastebimas debesų atsparumo aspektas yra įrankių plėtra. Daugelis įmonių naudoja nuo 15 iki 30 skirtingų „SaaS“ programų – atskirų CRM, sąskaitų faktūrų išrašymo, projektų valdymo, personalo, darbo užmokesčio, rezervavimo ir analizės įrankių. Kiekvienas iš šių įrankių turi savo prieglobos infrastruktūrą, savo veikimo laiko garantijas ir savo gedimo režimus. Kai įvyksta regioninis gedimas, jūs nevaldote vieno atkūrimo – jūs valdote tuziną, kurių kiekvienas turi skirtingus palaikymo kanalus ir skirtingą laiko juostą.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

Būtent šią problemą sprendžia konsoliduotos verslo platformos. Pavyzdžiui, Mewayz naudoja 207 modulius, įskaitant CRM, sąskaitų faktūrų išrašymą, darbo užmokesčio apskaičiavimą, personalo valdymą, transporto parko valdymą, analizę, saitus į biografiją ir rezervavimą. Vieningoje infrastruktūroje su integruotu kelių regionų dubliavimu. Užuot priklausę nuo keliolikos atskirų pardavėjų su nežinomomis prieglobos architektūromis, įmonės turi vieną permatomą strategiją Meiliwayz. Kai vienos įmonės užsakymo įrankis priglobtas kitame regione nei sąskaitų faktūrų išrašymo įrankis, kuris yra kitame regione nei jų CRM, dėl lokalizuoto gedimo atsiranda gedimų kratinys, kurį nepaprastai sunku diagnozuoti ir ištaisyti. Konsolidavimas supaprastina gedimų sritį.

138 000 ir daugiau įmonių, jau veikiančių „Mewayz“, vertės pasiūlymas apima ne tik funkcijas ir kainas – tai architektūrinė. Viena platforma gali įgyvendinti nuoseklias atsarginių kopijų kūrimo, failų perkėlimo ir duomenų replikacijos strategijas visose verslo funkcijose vienu metu, o ne palikti kiekvienos funkcijos atsparumo sprendimus kitam pardavėjui.

Ateis reglamentavimas

Šis incidentas paspartins jau vykstančius pokalbius dėl reguliavimo. JAE duomenų apsaugos institucija kartu su kolegomis Saudo Arabijoje, Bahreine ir Katare patirs spaudimą atnaujinti duomenų gyvenamosios vietos reikalavimus, kad būtų atsižvelgta į konfliktų scenarijus. Tikimasi, kad pamatysite naujas sistemas, kurios apibrėžia „patvirtintą perkėlimo jurisdikciją“ – iš anksto patvirtintus antrinius regionus, kuriuose duomenis galima laikinai perkelti kritinėmis situacijomis nepažeidžiant suverenumo reikalavimų.

Europos Sąjungos patirtis gali būti pavyzdys. Iškilus susirūpinimui dėl JAV vyriausybės prieigos prie duomenų pagal CLOUD aktą, ES reguliavimo institucijos sukūrė duomenų perdavimo sistemas, kuriose suverenitetas buvo suderintas su praktine būtinybe. Panašus konflikto scenarijaus perkėlimo metodas leistų įmonėms išlaikyti atitiktį ir užtikrinti, kad jos galėtų išgyventi praradus regioninę infrastruktūrą.

Patys debesų paslaugų teikėjai taip pat bus tikrinami. AWS, Azure ir GCP turės pasiūlyti detalesnes regionų susiejimo parinktis, kurios leistų klientams iš anksto sukonfigūruoti persileidimo kelius, atitinkančius jų konkrečius reguliavimo reikalavimus. Kai kurios šios galimybės egzistuoja ir šiandien – pavyzdžiui, AWS replikacija tarp regionų ir 53 maršruto sveikatos patikros – tačiau norint tinkamai ją įgyvendinti, reikia didelių architektūrinių įgūdžių. Kitas žingsnis bus konfliktams atsparios architektūros prieinamumas mažesnėms įmonėms, o ne tik įmonėms, turinčioms specialias platformų inžinierių komandas.

Kuriame pasaulį, kuriame infrastruktūra yra tikslas

AWS Middle East Central incidentas nėra anomalija. Tai ateities, kai fizinė infrastruktūra, įskaitant debesų duomenų centrus, egzistuoja toje pačioje grėsmės aplinkoje, kaip ir bet kuris kitas svarbus turtas, apžvalga. Raudonojoje ir Baltijos jūroje buvo sabotuojami povandeniniai kabeliai. Elektros tinklai buvo nukreipti į Ukrainą. Duomenų centrai, kurių energijos suvartojimas yra didžiulis ir matomas fizinis pėdsakas, nėra apsaugoti.

Verslo lyderiams atsakas neturėtų būti panikos – tai turi būti pasiruošimas. Įrankiai ir metodai, padedantys išgyventi dėl regioninės infrastruktūros praradimo, jau yra: diegimas keliuose regionuose, automatinis perkrovimas, atsarginės kopijos replikavimas tarp regionų ir platformos konsolidavimas, siekiant sumažinti nepriklausomų gedimų domenų skaičių. Įmonės, kurios taikė šią praktiką iki šio incidento, tęsė savo veiklą. Įmonės, kurios neišmoko brangios pamokos.

Debesis išlieka geriausiu infrastruktūros modeliu. Jo elastingumas, ekonomiškumas ir valdomos paslaugos yra neprilygstamos. Tačiau „debesis“ nereiškia „nepažeidžiamas“. Tai reiškia, kad jūsų infrastruktūrą valdo kažkas kitas, pastate, kurio tikriausiai niekada nematėte, vietoje, kurioje galbūt nevisiškai įvertinote riziką. Kitą dešimtmetį klestės tos įmonės, kurios geopolitinę riziką vertins taip pat griežtai, kaip taiko programinės įrangos ir aparatinės įrangos gedimus – kaip inžinerinę problemą, susijusią su inžineriniais sprendimais, o ne kaip mažai tikėtiną scenarijų, kurį reikės atmesti.

Tai yra maždaug 1700 žodžių originalaus turinio. Straipsnis apima incidentą, jo poveikį, geopolitinę debesų riziką, konkrečias atsparumo pamokas ir natūraliai „Mewayz“ pozicionuoja platformos konsolidavimo skyriuje. Paruošta įterpti į jūsų tinklaraščio sistemą – tiesiog praneškite man, jei norite pakoreguoti toną, ilgį ar „Mewayz“ padėtį.

Sukurkite savo verslo OS šiandien

Nuo laisvai samdomų darbuotojų iki agentūrų – „Mewayz“ valdo 138 000 ir daugiau įmonių su 207 integruotais moduliais. Pradėkite nemokamai, atnaujinkite, kai augsite.

Sukurti nemokamą paskyrą →

Dažniausiai užduodami klausimai

Kas nutiko AWS Middle East Central (me-central-1)?

AWS Artimųjų Rytų (JAE) regione, me-central-1, įvyko reikšmingas veiklos sutrikimas, susijęs su kinetiniais kariniais smūgiais regione. Sutrikimas paveikė tūkstančius įmonių visoje Persijos įlankoje ir už jos ribų, kurios priklausė nuo šios vienintelės debesijos infrastruktūros pasiekiamumo zonos. Šis incidentas išryškina realų debesų duomenų centrų pažeidžiamumą dėl geopolitinių konfliktų ir fizinių grėsmių, kurių negali visiškai sušvelninti joks programinės įrangos perteklius.

Kaip įmonės gali apsisaugoti nuo konkretaus regiono debesies pertrūkių?

Veiksmingiausia strategija yra kelių regionų arba kelių debesų architektūra, paskirstanti darbo krūvius geografiškai skirtinguose duomenų centruose. Įmonės turėtų įdiegti automatinį perjungimą, reguliariai kurti atsargines kopijas atskiruose regionuose ir parengti patikrintą atkūrimo planą. Tokios platformos kaip „Mewayz“ su 207 integruotais moduliais, kurių kaina prasideda nuo 19 USD per mėnesį, padeda įmonėms konsoliduoti infrastruktūros, sukurtos atsižvelgiant į dubliavimą, operacijas, taip sumažinant pavienius gedimo taškus.

Ar saugu laikyti verslo duomenis regionuose, kuriuose kyla konfliktų?

Kiekvienas regionas yra susijęs su tam tikra rizika – stichinėmis nelaimėmis, politiniu nestabilumu ar infrastruktūros gedimais. Svarbiausia yra ne visiškai išvengti šių regionų, bet sukurti savo architektūros atsparumą. Duomenų suverenumo įstatymai gali reikalauti vietinio prieglobos, todėl įmonės turėtų naudoti šifruotas atsargines kopijas, pakartotas į stabilius antrinius regionus. Norint priimti pagrįstus prieglobos sprendimus, būtinas kruopštus rizikos įvertinimas, kuris atsiliepia geopolitinėms tendencijoms ir techninei veikimo laiko istorijai.

Ką daryti, jei debesies paslaugų teikėjas netikėtai nustoja veikti?

Nedelsdami suaktyvinkite atkūrimo po nelaimės planą. Perjunkite į atsarginius regionus arba antrinius teikėjus, jei sukonfigūruotas. Skaidriai bendraukite su klientais apie sutrikimus ir numatomą atkūrimo laiką. Dokumentuokite poveikį draudimo ir atitikties tikslais. Ilgainiui patikrinkite savo infrastruktūrą, ar nėra atskirų gedimų, ir apsvarstykite galimybę konsoliduoti verslo įrankius naudojant „viskas viename“ platformą, pvz., „Mewayz“, kad supaprastintumėte atkūrimą ir sumažintumėte priklausomybę nuo išsibarsčiusių trečiųjų šalių paslaugų.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime