Amazons 150 millioner dollars skrivefejl er en lynafleder til et stort skyproblem

Hvis du vil lægge alle dine data i skyen, vil du have, at det skal være en velbygget sky. I denne uge viste Amazon – verdens største udbyder af sådan infrastruktur – at byggefærdigheder stadig mangler.

Tirsdag holdt store dele af internettet simpelthen op med at fungere. Slack ville ikke lade folk kommunikere med kolleger, Trello ville ikke lade dig styre et projekt, og desværre MIT Technology Review hjemmesiden ville ikke lade dig læse om ny teknologi. Der var også klager over, at smart-home hardware ikke fungerede korrekt.

Grunden: Amazons S3 cloud-lagringssystem fejlede . Amazon er verdens største cloud computing-udbyder, så mange tjenester, der er afhængige af det, var heller ikke i stand til at fungere korrekt. Og dette var ikke bare en blip: problemet tog mindst fire timer at løse.



Det er svært nøjagtigt at kvantificere de sande omkostninger ved en sådan fejl. Men, ifølge Wall Street Journal , har analysefirmaet Cyence anslået, at det kostede S&P 500-virksomheder mindst 150 millioner dollars. Og trafikovervågningsfirmaet Apica hævder, at 54 af de 100 bedste onlineforhandlere oplevede en nedgang på webstedets ydeevne med mindst 20 procent. Så der er ingen vej udenom, at det var dyrt.

Det gør grunden til, at det skete, så meget desto mere pinligt. I en erklæring, der beskriver, hvad der gik galt , har Amazon indrømmet, at grundårsagen til afbrydelsen var en forkert kommando udført af en medarbejder på dets Northern Virginia-facilitet under rutinemæssig vedligeholdelse. Desværre resulterede det i en katastrofal kaskade af begivenheder.

Det var meningen, at arbejderen skulle tage et lille antal servere offline, men lavede en fejl og tog flere servere ud end beregnet – inklusive to, der blev brugt til at drive grundlæggende processer, der blev brugt på tværs af hele systemet. Fejlen udslettede i det væsentlige anlæggets evne til at behandle brugeranmodninger.

Amazon driver flere cloud-'områder' spredt rundt om i verden, og kunder af dets tjenester er i stand til at gemme filer og køre kode på mere end én af dem. Men det er dyrere og som Registeret noterer , selv virksomheder, der kører deres tjenester på tværs af en række af de forskellige geografier, oplevede, at deres systemer væltede, sandsynligvis på grund af kapacitetsproblemer.

Blot fire dage før afbrydelsen beskrev vi de iboende risici ved centraliserede webtjenester og spekulerede i, hvilken indvirkning der ville kunne mærkes, hvis Amazons cloud-tjeneste fejlede. På det tidspunkt advarede vi om, at indsatsen er høj og argumenterede for, at sikkerhed, pålidelighed og kompetence er afgørende – og måske underrepræsenteret – for virksomheder, der leverer centraliserede webtjenester.

Amazon ser ud til at være enig. Det er allerede indført sikkerhedsforanstaltninger, så hændelser som den, der er forårsaget af den ham-fisted medarbejder, ikke kan lukke så mange servere ned lige så hurtigt i fremtiden.

Det er en start. Men det er klart på dette tidspunkt, at cloud-tjenester har brug for ekstra forsikringer, hvis de skal være robuste. Amazon burde for eksempel ikke engang have været i stand til at havne i en situation, hvor hele dets Northern Virginia-anlæg kunne fejle på én gang - i stedet skulle det opdeles i separate undersystemer, der fungerer uafhængigt.

Selv da kan centraliserede webtjenester stadig være sårbare. Hvis en hacker laver et stort angreb på en enkelt udbyder - ved at bruge et botnet, for eksempel - kan han stadig tvinge store dele af internettet offline igen. Men det ville i det mindste ikke være resultatet af en tastefejl.

(Læs mere: Wall Street Journal , t han Register , AP , Amazon Web Services , Centraliserede webtjenester er vidunderlige – indtil de går galt , 10 banebrydende teknologier: Botnets of Things )

skjule