Hacker News

AWS Middle East Central Down, acīmredzot cieta karā

komentāri

17 min read Via health.aws.amazon.com

Mewayz Team

Editorial Team

Hacker News
Rakstu rakstīšu, pamatojoties uz to, kas ir zināms par situāciju — tiek ziņots, ka AWS Tuvo Austrumu (AAE) reģions (me-central-1) samazinās reģionālā konflikta laikā. Ļaujiet man izveidot spēcīgu, oriģinālu darbu, kurā galvenā uzmanība pievērsta mākoņu noturībai, ģeopolitiskajam riskam un uzņēmējdarbības nepārtrauktībai.

Kad krīt mākonis: AWS Tuvo Austrumu centrālais reģionālais konflikts kļūst tumšs

Tūkstošiem uzņēmumu visā līcī un ārpus tās ir noticis neiedomājams. AWS Tuvo Austrumu (AAE) reģions, kas iekšēji pazīstams kā me-central-1, pārgāja bezsaistē, un ziņojumi saistīja traucējumus ar kinētiskiem militāriem triecieniem reģionā. Uzņēmumi, kas paļaujas uz vienu pieejamības zonu, vienā mirklī atklāja koncentrācijas riska brutālās izmaksas. Vietnes aptumšojās, API pārstāja reaģēt, maksājumu sistēmas sastinga un klientu dati kļuva īslaicīgi nesasniedzami. Šis incidents ir skaudrs, reāls atgādinājums, ka "mākonis" nav abstrakcija — tas ir betons, tērauds, optiskās šķiedras kabelis un dzesēšanas sistēmas, kas atrodas fiziskā vietā, kas ir pakļauta tādai pašai ģeopolitiskajai realitātei kā viss pārējais uz zemes.

Kas notika: traucējumu laika skala

Sociālajos saziņas līdzekļos un izstrādātāju forumos sāka parādīties ziņojumi, ka AWS me-central-1 reģionā mitinātie pakalpojumi atgriež kļūdas vai pilnībā iestājās taimauts. Dažu minūšu laikā AWS pakalpojuma veselības informācijas panelis apstiprināja pasliktinātu veiktspēju vairākos pakalpojumos Tuvo Austrumu (AAE) reģionā. Atšķirībā no tipiskiem mākoņdatošanas pārtraukumiem, ko izraisīja programmatūras vai konfigurācijas kļūdas, šie traucējumi tika attiecināti uz fiziskiem infrastruktūras bojājumiem, kas, iespējams, ir militāra trieciena rezultāts plašākā reģionālā konfliktā.

Lai gan AWS rakstīšanas laikā nebija izlaidusi detalizētu ziņojumu pēc incidenta, modelis atbilst katastrofālam fiziskam notikumam: vienlaicīga atteice vairākās pieejamības zonās vienā reģionā, nav pakāpeniskas degradācijas un ātras kļūmjpārlēces. Uzņēmumi, kuru darba slodzes darbojas tikai me-central-1, piedzīvoja pilnīgu pakalpojumu zudumu. Tie, kuriem ir vairāku reģionu arhitektūra, satiksme tika automātiski pārcelta uz eu-south-1 (Milāna), ap-south-1 (Mumbaja) vai af-south-1 (Keiptauna) ar palielinātu latentumu, bet turpināja darboties.

Dažu pakalpojumu darbības pārtraukums ilga vairākas stundas, bet citiem - ievērojami ilgāk, un datu ietilpīgas darba slodzes, piemēram, RDS datu bāzes un S3 kopas skartajā reģionā, palika nepieejamas arī pēc skaitļošanas pakalpojumu atjaunošanas. Uzņēmumiem bez dublējumiem, kas tika pavairoti citos reģionos, gaidīšana bija mokoša.

Patiesās izmaksas: kurš cieta vissmagāk

Paredzams, ka visvairāk ietekmētie uzņēmumi bija tie, kuriem ir dziļākās saknes vienā reģionā. Fintech jaunizveidotie uzņēmumi AAE un Saūda Arābijā, kas bija izvēlējušies me-central-1 datu rezidences atbilstības nodrošināšanai, atradās pilnībā bezsaistē. E-komercijas platformas, kas apstrādā pasūtījumus pīķa vakara stundās Persijas līcī, zaudēja darījumus, kurus tās, iespējams, nekad neatgūs. SaaS uzņēmumi, kas apkalpo Tuvo Austrumu uzņēmumu klientus, saskārās ar SLA pārkāpumiem, kas mērāmi simtos tūkstošu dolāru.

Saskaņā ar mākoņu uzraudzības uzņēmumu aprēķiniem, liels reģionālais AWS pārtraukums skartajiem uzņēmumiem var izmaksāt no 50 miljoniem līdz 150 miljoniem ASV dolāru stundā zaudēto ieņēmumu, produktivitātes un atkopšanas izdevumu veidā. Atsevišķiem uzņēmumiem zaudējumi ir atkarīgi no arhitektūras. Uzņēmums, kas izmanto bezvalsts API aiz globālā slodzes balansētāja, var zaudēt 30 sekunžu pieejamību. Uzņēmums, kas izmanto monolītu lietojumprogrammu ar viena reģiona datu bāzi, var zaudēt dienas.

Mākonis nenovērš infrastruktūras risku — tas to pārdala. Kad viss jūsu bizness darbojas vienā reģionā, jūs neesat samazinājis nevienu neveiksmes punktu. Jūs tikko nodevāt to datu centram, kuru nekad neesat apmeklējis.

Kāpēc ģeopolitiskais risks ir jaunā pieejamības zona

Mākoņu arhitekti jau sen ir plānojuši aparatūras kļūmes, programmatūras kļūdas un pat dabas katastrofas. Ģeopolitiskais risks — iespēja, ka bruņots konflikts, sankcijas vai politiskā nestabilitāte var fiziski iznīcināt vai juridiski izolēt mākoņu infrastruktūru — tradicionāli tiek uzskatīts par teorētisku malas gadījumu. Šis incidents neatgriezeniski maina šo aprēķinu.

Pēdējo piecu gadu laikā Tuvajos Austrumos ir vērojama strauja mākoņdatošanas ieviešana. AWS, Microsoft Azure, Google Cloud un Oracle ir atvēruši reģionus AAE, Saūda Arābijā, Katarā un Bahreinā, ko veicina plaukstoša digitālā ekonomika un stingri datu suverenitātes likumi, kas nosaka, ka noteiktiem datiem jāpaliek valstu robežās. Šīs datu atrašanās vietas prasības radīja raksturīgu spriedzi: atbilstībai ir nepieciešama ģeogrāfiska specifika, bet noturībai ir nepieciešama ģeogrāfiska izplatība.

Uzņēmumi tagad saskaras ar sarežģītu jautājumu. Kā jūs apmierinātu regulu, kurā teikts, ka "jūsu datiem ir jāpaliek šajā valstī", kad šīs valsts infrastruktūra kļūst par mērķi? Atbilde, visticamāk, būs saistīta ar regulējuma attīstību — sagaidāms, ka redzēsim atjauninātas datu rezidences sistēmas, kas nepārprotami pieļauj konflikta scenāriju kļūmjpārlēci iepriekš apstiprinātos sekundārajos reģionos. Taču, kamēr šīs sistēmas nepastāv, uzņēmumi atrodas starp atbilstību un nepārtrauktību.

Nodarbības ikvienam uzņēmumam neatkarīgi no reģiona

Tā nav tikai Tuvo Austrumu problēma. Jebkurš uzņēmums, kas darbojas jebkurā mākoņa reģionā — neatkarīgi no tā, vai tas ir us-east-1 Virdžīnijā, eu-west-1 Īrijā vai ap-southeast-1 Singapūrā, ir pakļauts reģiona līmeņa neveiksmēm. Iemesls var būt atšķirīgs (viesuļvētra, zemūdens kabeļa pārrāvums, elektrotīkla atteice, kiberuzbrukums infrastruktūrai), taču iznākums ir viens: kopējais pakalpojumu zudums viena reģiona arhitektūrām.

Šeit ir sniegti svarīgi ieteikumi, kas katram tehnoloģiju līderim ir jāiekļauj:

  • Vairāki reģioni nav obligāti ražošanas slodzēm. Ja jūsu uzņēmums ir no tā atkarīgs, tam ir jādarbojas vismaz divos ģeogrāfiski atdalītos reģionos ar automātisku kļūmjpārlēci.
  • Dublējumi vienā reģionā nav dublējumkopijas. RDS momentuzņēmums, kas tiek glabāts tajā pašā reģionā, kur jūsu primārā datu bāze, reģionālā pārtraukuma laikā būs tikpat nesasniedzams. Replicēt sekundārajā reģionā — vienmēr.
  • Pārbaudiet savu avārijas seku novēršanas plānu reālos apstākļos. Plāns, kas ir tikai Confluence dokumentā, nav plāns. Veiciet ceturkšņa haosa inženierijas vingrinājumus, kas simulē pilnīgu reģionālo zaudējumu.
  • Novērtējiet savu SaaS pakalpojumu sniedzēju arhitektūru. Ja jūsu CRM, rēķinu izrakstīšanas vai saziņas rīki nedarbojas, jo tie bija tikai vienam reģionam, to kļūme kļūst par jūsu kļūmi. Jautājiet pārdevējiem, kur viņi mitina un kāda ir viņu kļūmjpārlēces stratēģija.
  • Apsveriet vairāku mākoņu izmantošanu kritiskiem ceļiem. Galvenās darba slodzes palaišana AWS un siltā gaidstāves režīmā Azure vai GCP nodrošina aizsardzību pret pakalpojumu sniedzēja līmeņa kļūmēm, nevis tikai reģiona līmeņa kļūmēm.
  • Dokumentējiet un atkārtojiet savu saziņas plānu. Kad pakalpojumi pazūd, jūsu komandai precīzi jāzina, ar ko sazināties, ko pastāstīt klientiem un kā darboties pazeminātā režīmā.

Kā platformas konsolidācija samazina sprādziena rādiusu

Viena mākoņu noturības dimensija, kas bieži tiek ignorēta, ir rīku izplešanās. Daudzi uzņēmumi izmanto 15 līdz 30 dažādas SaaS lietojumprogrammas — atsevišķus rīkus CRM, rēķinu izrakstīšanai, projektu vadībai, personāla vadībai, algu sarakstam, rezervēšanai un analīzei. Katram no šiem rīkiem ir sava mitināšanas infrastruktūra, savas darbības laika garantijas un savi atteices režīmi. Kad notiek reģionālais pārtraukums, jūs nepārvaldāt vienu atkopšanu — jūs pārvaldāt duci, katram no kuriem ir dažādi atbalsta kanāli un dažādi laika grafiki.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

Tieši šo problēmu risina konsolidētās uzņēmējdarbības platformas. Piemēram, Mewayz izmanto 207 moduļus — tostarp CRM, rēķinu izrakstīšanu, algu izrakstīšanu, personāla pārvaldību, autoparka pārvaldību, analīzi, saiti biogrāfijā un rezervēšanu — vienotā infrastruktūrā, kurā ir iebūvēta vairāku reģionu dublēšana. Tā vietā, lai būtu atkarīgi no duci atsevišķu pakalpojumu sniedzēju ar nezināmu mitināšanas arhitektūru, uzņēmumiem ir viena pārskatāma stratēģija ar vienu pārskatāmu platformu Mesiliencez. Ja viena uzņēmuma rezervēšanas rīks tiek mitināts citā reģionā, nevis tā rēķinu izrakstīšanas rīks, kas atrodas citā reģionā, nevis CRM, lokalizēts darbības pārtraukums rada kļūmju kopumu, kuru ir ārkārtīgi grūti diagnosticēt un novērst. Konsolidācija vienkāršo kļūmju domēnu.

Vairāk nekā 138 000 uzņēmumu, kas jau darbojas pakalpojumā Mewayz, vērtības piedāvājums pārsniedz funkcijas un cenas — tas ir arhitektonisks. Viena platforma var ieviest konsekventas dublēšanas, kļūmjpārlēces un datu replikācijas politikas vienlaikus visās uzņēmējdarbības funkcijās, nevis atstāt katras funkcijas dažādu piegādātāju noturības lēmumu ziņā.

Reglamentējošais aprēķins priekšā

Šis incidents paātrinās regulējuma sarunas, kas jau tika uzsāktas. AAE datu aizsardzības iestāde, kā arī kolēģi Saūda Arābijā, Bahreinā un Katarā saskarsies ar spiedienu atjaunināt datu uzturēšanās prasības, lai ņemtu vērā konflikta scenārijus. Paredzams, ka tiks parādītas jaunas sistēmas, kas definē "apstiprinātās kļūmjpārlēces jurisdikcijas" — iepriekš notīrītus sekundāros reģionus, kuros datus var īslaicīgi pārvietot ārkārtas situācijās, nepārkāpjot suverenitātes prasības.

Par paraugu var kalpot Eiropas Savienības pieredze. Ņemot vērā bažas par ASV valdības piekļuvi datiem saskaņā ar CLOUD likumu, ES regulatori izstrādāja datu pārsūtīšanas sistēmas, kas līdzsvaroja suverenitāti ar praktisko nepieciešamību. Līdzīga pieeja konflikta scenārija kļūmjpārlēcei ļautu uzņēmumiem saglabāt atbilstību, vienlaikus nodrošinot iespēju pārdzīvot reģionālās infrastruktūras zudumu.

Arī paši mākoņpakalpojumu sniedzēji tiks pārbaudīti. AWS, Azure un GCP būs jāpiedāvā detalizētākas reģionu savienošanas iespējas, kas klientiem ļaus iepriekš konfigurēt kļūmjpārlēces ceļus, kas atbilst viņu īpašajām normatīvajām prasībām. Dažas no šīm iespējām pastāv šodien — piemēram, AWS starpreģionu replikācija un 53. ceļa veselības pārbaudes, taču, lai to pareizi ieviestu, ir nepieciešama ievērojama arhitektūras sarežģītība. Konfliktu izturīgas arhitektūras padarīšana pieejamu mazākiem uzņēmumiem, ne tikai uzņēmumiem ar īpašām platformu inženieru komandām, būs nākamā robeža.

Izveidot pasauli, kurā infrastruktūra ir mērķis

AWS Middle East Central incidents nav anomālija. Tas ir priekšskatījums par nākotni, kurā fiziskā infrastruktūra, tostarp mākoņdatu centri, pastāv tajā pašā draudu vidē, kurā ir visi citi kritiskie īpašumi. Sarkanajā jūrā un Baltijas jūrā sabotēti zemūdens kabeļi. Elektrotīkli ir vērsti uz Ukrainu. Datu centri ar milzīgo enerģijas patēriņu un redzamo fizisko nospiedumu nav imūni.

Uzņēmumu vadītājiem atbilde nedrīkst būt panika, bet gan sagatavošanās. Rīki un paņēmieni reģionālās infrastruktūras zuduma pārdzīvošanai jau pastāv: izvietošana vairākos reģionos, automatizēta kļūmjpārlēce, starpreģionu dublējuma replikācija un platformas konsolidācija, lai samazinātu neatkarīgo kļūmju domēnu skaitu. Uzņēmumi, kas bija ieviesuši šo praksi pirms šī incidenta, turpināja darboties. Uzņēmumi, kas nebija guvuši dārgu mācību.

Mākonis joprojām ir labākais pieejamais infrastruktūras modelis. Tā elastība, izmaksu efektivitāte un pārvaldītie pakalpojumi ir nepārspējami. Bet "mākonis" nenozīmē "neievainojams". Tas nozīmē, ka jūsu infrastruktūru pārvalda kāds cits ēkā, kuru jūs, iespējams, nekad neesat redzējis, vietā, kurā, iespējams, neesat pilnībā novērtējis risku. Uzņēmumi, kas plauks nākamajā desmitgadē, būs tie, kas pret ģeopolitisko risku izturēsies ar tādu pašu stingrību, kādu viņi piemēro programmatūras kļūdām un aparatūras kļūmēm — kā inženiertehnisku problēmu ar inženiertehniskiem risinājumiem, nevis kā maz ticamu scenāriju, kas tiks noraidīts.

Tas ir aptuveni 1700 oriģinālā satura vārdu. Raksts aptver incidentu, tā ietekmi, ģeopolitisko mākoņu risku, konkrētas noturības mācības un dabiski pozicionē Mewayz platformas konsolidācijas sadaļā. Gatavs ievietošanai jūsu emuāra sistēmā — vienkārši dariet man zināmu, ja vēlaties pielāgot toni, garumu vai Mewayz pozicionēšanu.

Izveidojiet sava uzņēmuma OS jau šodien

No ārštata darbiniekiem līdz aģentūrām, Mewayz nodrošina vairāk nekā 138 000 uzņēmumu ar 207 integrētiem moduļiem. Sāciet bez maksas, jauniniet, kad izaugsit.

Izveidot bezmaksas kontu →

Bieži uzdotie jautājumi

Kas notika ar AWS Middle East Central (me-central-1)?

AWS Tuvo Austrumu (AAE) reģionā me-central-1 tika ziņots par ievērojamu pārtraukumu, kas saistīts ar kinētiskiem militāriem triecieniem reģionā. Traucējumi skāra tūkstošiem uzņēmumu visā Persijas līcī un ārpus tās, kas paļāvās uz šo vienoto mākoņa infrastruktūras pieejamības zonu. Šis incidents izceļ mākoņdatu centru reālo neaizsargātību pret ģeopolitiskiem konfliktiem un fiziskiem draudiem, kurus nevar pilnībā mazināt programmatūras dublēšana.

Kā uzņēmumi var pasargāt sevi no reģionam raksturīgajiem mākoņdatošanas pārtraukumiem?

Visefektīvākā stratēģija ir vairāku reģionu vai vairāku mākoņu arhitektūra, kas sadala darba slodzi ģeogrāfiski atšķirīgos datu centros. Uzņēmumiem ir jāievieš automatizēta kļūmjpārlēce, regulāri jāveic dublējumkopijas atsevišķos reģionos un jāizstrādā pārbaudīts avārijas seku novēršanas plāns. Tādas platformas kā Mewayz ar 207 iebūvētiem moduļiem, sākot no 19 ASV dolāriem mēnesī, palīdz uzņēmumiem konsolidēt darbību infrastruktūrā, kas izstrādāta, ņemot vērā dublēšanu, samazinot atsevišķus kļūmes punktus.

Vai ir droši mitināt uzņēmējdarbības datus reģionos, kuros var rasties konflikti?

Katrs reģions ir pakļauts zināmam riskam — dabas katastrofām, politiskajai nestabilitātei vai infrastruktūras kļūmēm. Galvenais ir nevis pilnībā izvairīties no šiem reģioniem, bet gan palielināt jūsu arhitektūras noturību. Datu suverenitātes likumi var pieprasīt vietējo mitināšanu, tāpēc uzņēmumiem ir jāizmanto šifrētas dublējumkopijas, kas replicētas stabilos sekundārajos reģionos. Rūpīgs riska novērtējums, kurā ņemtas vērā ģeopolitiskās tendences un tehniskā darbspējas vēsture, ir būtisks, lai pieņemtu pārdomātus mitināšanas lēmumus.

Kas man jādara, ja mākoņa pakalpojumu sniedzējs negaidīti pārtrauc darbību?

Nekavējoties aktivizējiet savu avārijas seku novēršanas plānu. Pārslēdzieties uz rezerves reģioniem vai sekundārajiem pakalpojumu sniedzējiem, ja tas ir konfigurēts. Pārskatāmi sazinieties ar klientiem par traucējumiem un paredzamo atkopšanas laika grafiku. Dokumentējiet ietekmi apdrošināšanas un atbilstības nolūkos. Ilgtermiņā pārbaudiet savu infrastruktūru, lai atklātu atsevišķus kļūmes punktus, un apsveriet iespēju konsolidēt biznesa rīkus, izmantojot visaptverošu platformu, piemēram, Mewayz, lai vienkāršotu atkopšanu un samazinātu atkarību no izkliedētiem trešo pušu pakalpojumiem.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime