SHORT CUT
Amazon AWS กลับมาปกติแล้วหลังล่มครั้งใหญ่ กระทบแอปดังอย่าง Canva, Zoom, Snapchat, Reddit และระบบการเงิน ต้นตอจากศูนย์ข้อมูล US-EAST-1 เกิดขัดข้องอีกครั้ง
Amazon Web Services (AWS) กลับสู่สภาวะปกติแล้วหลังจากเกิดเหตุขัดข้องครั้งใหญ่ที่สร้างความปั่นป่วนให้กับเว็บไซต์และแอปพลิเคชันหลายพันแห่งทั่วโลก รวมถึงแพลตฟอร์มยอดนิยมอย่าง Snapchat และ Reddit
แม้ระบบจะกลับมาใช้งานได้ แต่ Amazon ยังคงระบุว่าบริการบางส่วนของ AWS เช่น AWS Config, Redshift และ Connect ยังคงมี "ข้อความค้างในระบบ" ซึ่งจะต้องใช้เวลาอีกหลายชั่วโมงในการประมวลผลให้เสร็จสิ้น
AWS ซึ่งเป็นผู้ให้บริการโฮสต์แอปพลิเคชันและประมวลผลให้กับบริษัทต่างๆ ทั่วโลก ได้ส่งผลกระทบให้พนักงานตั้งแต่ลอนดอนไปจนถึงโตเกียวไม่สามารถทำงานได้ตามปกติ
รวมถึงขัดขวางการทำธุรกรรมในชีวิตประจำวัน เช่น การชำระเงิน หรือการเปลี่ยนแปลงตั๋วเครื่องบิน ผู้ใช้ยังคงรายงานปัญหาการใช้งานอย่างต่อเนื่องแม้บริการจะเริ่มฟื้นตัวแล้วก็ตาม โดยเฉพาะกับบริการอย่าง Venmo และ Zoom
เหตุการณ์ครั้งนี้ถือเป็นการหยุดชะงักของอินเทอร์เน็ตครั้งใหญ่ที่สุดนับตั้งแต่ความผิดพลาดของ CrowdStrike เมื่อปีที่แล้ว ซึ่งส่งผลกระทบต่อระบบเทคโนโลยีในโรงพยาบาล ธนาคาร และสนามบิน ตอกย้ำให้เห็นถึงความเปราะบางของเทคโนโลยีที่เชื่อมโยงถึงกันทั่วโลก
นี่นับเป็นครั้งที่สามในรอบห้าปีที่คลัสเตอร์ในเวอร์จิเนียตอนเหนือของ AWS หรือที่รู้จักกันในชื่อ US-EAST-1 มีส่วนทำให้เกิดการล่มสลายครั้งใหญ่ของอินเทอร์เน็ต US-EAST-1 ถือเป็นศูนย์ข้อมูลที่เก่าแก่และใหญ่ที่สุดของ AWS และมักจะเป็น "ภูมิภาคเริ่มต้น" สำหรับบริการจำนวนมาก ซึ่งเคยประสบปัญหาล่มมาแล้วในปี 2021 และ 2020
Amazon ไม่ได้ให้ความชัดเจนว่าเหตุใดศูนย์ข้อมูลแห่งนี้จึงได้รับผลกระทบซ้ำแล้วซ้ำเล่า
สำหรับปัญหาในครั้งนี้ มีต้นตอมาจากสิ่งที่เรียกว่า DNS ซึ่งทำให้แอปพลิเคชันไม่สามารถค้นหาที่อยู่ที่ถูกต้องของ AWS DynamoDB API ซึ่งเป็นฐานข้อมูลบนคลาวด์ที่ใช้เก็บข้อมูลผู้ใช้และข้อมูลสำคัญอื่นๆ ได้
โดย AWS ระบุว่า "สาเหตุที่แท้จริง" มาจากระบบย่อยที่ตรวจสอบสถานะของ Network Load Balancer (ตัวกระจายการรับส่งข้อมูล) ซึ่งเกิดปัญหาภายใน "เครือข่ายภายใน EC2" (Elastic Compute Cloud) ซึ่งเป็นบริการหลักของ AWS
Ookla บริษัทเจ้าของ Downdetector รายงานว่ามีผู้ใช้มากกว่า 4 ล้านคนรายงานปัญหาจากเหตุการณ์นี้ และมีบริษัทอย่างน้อยหนึ่งพันแห่งได้รับผลกระทบ
แพลตฟอร์มที่ล่มจากเหตุการณ์นี้มีตั้งแต่แอปโซเชียลอย่าง Reddit, Snapchat และ Duolingo ไปจนถึงสตาร์ทอัป AI อย่าง Perplexity แพลตฟอร์มเกมมิ่งอย่าง Roblox, Fortnite, Clash Royale และ Clash of Clans แม้แต่บริการของ Amazon เอง เช่น เว็บไซต์ช้อปปิ้ง, Prime Video และ Alexa ก็ได้รับผลกระทบเช่นกัน
ในภาคการเงิน Coinbase และ Robinhood ก็ประสบปัญหาเช่นกัน ในสหราชอาณาจักร ธนาคาร Lloyd, Bank of Scotland และผู้ให้บริการโทรคมนาคมอย่าง Vodafone และ BT รวมถึงเว็บไซต์ของกรมสรรพากรและศุลกากร ก็ล่มตามไปด้วย
ผู้เชี่ยวชาญและนักวิชาการต่างชี้ว่า ปัญหานี้เน้นย้ำว่าบริการดิจิทัลในชีวิตประจำวันของเราเชื่อมโยงถึงกันมากเพียงใด และต้องพึ่งพาผู้ให้บริการคลาวด์รายใหญ่เพียงไม่กี่ราย (AWS, Microsoft Azure, Google Cloud) โดยที่ความผิดพลาดเพียงจุดเดียวสามารถสร้างความเสียหายต่อธุรกิจและชีวิตประจำวันได้
"การล่มครั้งนี้ตอกย้ำอีกครั้งว่าเราต้องพึ่งพาโครงสร้างพื้นฐานที่ค่อนข้างเปราะบาง" Jake Moore ที่ปรึกษาด้านความปลอดภัยทางไซเบอร์ระดับโลกจาก ESET กล่าว
Nishanth Sastry ผู้อำนวยการฝ่ายวิจัยจากภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยเซอร์เรย์ กล่าวว่า "เหตุผลหลักของปัญหานี้คือ บริษัทใหญ่ๆ เหล่านี้พึ่งพาบริการเพียงบริการเดียวมากเกินไป"
Ken Birman ศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์จากมหาวิทยาลัยคอร์เนล แนะนำว่านักพัฒนาซอฟต์แวร์จำเป็นต้องสร้างระบบที่ทนทานต่อความผิดพลาดให้ดีกว่านี้
เขาชี้ว่า AWS มีเครื่องมือให้นักพัฒนาใช้เพื่อป้องกันตนเองในกรณีที่ศูนย์ข้อมูลแห่งใดแห่งหนึ่งมีปัญหา และนักพัฒนายังสามารถสร้างระบบสำรองกับผู้ให้บริการคลาวด์รายอื่นได้
"เมื่อผู้คนตัดลดต้นทุนและเลือกทางลัดเพื่อพยายามให้แอปพลิเคชันเปิดตัวได้ แล้วลืมไปว่าพวกเขาข้ามขั้นตอนสุดท้ายและไม่ได้ป้องกันความล้มเหลวไว้ บริษัทเหล่านั้นคือกลุ่มที่ควรถูกตรวจสอบอย่างจริงจังในภายหลัง" Birman กล่าว
น่าสนใจว่า แม้ Ryan Griffin จาก McGill and Partners จะชี้ว่า "การที่คลาวด์ล่มไปหลายชั่วโมงแปลเป็นมูลค่าความเสียหายหลายล้านดอลลาร์ในแง่ของผลิตภาพและรายได้ที่สูญเสียไป" แต่ตลาดหุ้น Wall Street กลับไม่สะทกสะท้าน โดยส่งให้หุ้น Amazon ปิดบวก 1.6% ที่ 216.48 ดอลลาร์
เหตุการณ์ AWS ล่มครั้งใหญ่นี้ เปรียบเสมือน "สัญญาณเตือนภัย" ที่ส่งเสียงดังไปทั่วโลกดิจิทัล มันสะท้อนให้เห็นถึงความเสี่ยงมหาศาลของการที่องค์กรจำนวนมาก โดยเฉพาะบริษัทเทคโนโลยีขนาดใหญ่ ต่างพึ่งพาโครงสร้างพื้นฐานคลาวด์จากผู้ให้บริการรายใหญ่เพียงรายเดียว อย่าง AWS
แม้ AWS จะเป็นผู้นำตลาดที่มีเทคโนโลยีล้ำหน้า แต่การล่มซ้ำซากของศูนย์ข้อมูล US-EAST-1 ก็เป็นข้อพิสูจน์ที่ชัดเจนว่า "ไม่มีระบบใดที่สมบูรณ์แบบ 100%"
ความเสียหายที่เกิดขึ้นไม่ใช่แค่แอปหยุดทำงานชั่วขณะ แต่คือการหยุดชะงักของระบบเศรษฐกิจ ตั้งแต่การเงิน, การธนาคาร, โลจิสติกส์ ไปจนถึงการทำงานในชีวิตประจำวันของผู้คนทั่วโลก