انقطاع عالمي في خدمة AWS يتسبب في انقطاعات هائلة في مواقع الويب والتطبيقات وخدمات الدفع

  • يؤدي الفشل في US-EAST-1 (شمال فرجينيا) إلى حدوث أخطاء وتأخر في خدمات AWS المتعددة.
  • تم اكتشاف الحوادث بين الساعة 08:40 و09:00 (بتوقيت شبه الجزيرة) وتم تأكيدها من قبل أمازون بعد فترة وجيزة.
  • المنصات الرئيسية المتأثرة: Alexa، Prime Video، Fortnite، Roblox، Canva، Duolingo، Reddit، وغيرها.
  • تناقش AWS علامات الاسترداد وتوصي بإعادة محاولة العمليات؛ والتخفيف من مشكلة DNS المتعلقة بـ DynamoDB.

انقطاع خدمة AWS السحابية

انقطاع واسع النطاق في أمازون ويب سيرفيسز (أوس) تسبب الفيروس هذا الصباح في أعطال واسعة النطاق في عشرات التطبيقات والمواقع الإلكترونية والخدمات الرقمية حول العالم. وسُجِّلت التحذيرات الأولى. من الساعة 08:40-09:00 (بتوقيت شبه الجزيرة)، مع تأثير خاص على الخدمات المعتمدة على منطقة US-EAST-1.

لا يقتصر الانخفاض على منتج واحد، بل يشمل أيضًا المساعدين الصوتيين وخدمات البث المباشر، وأدوات الإنتاجية، وشبكات التواصل الاجتماعي، وألعاب الفيديو. في إسبانيا، سُجِّلت حوادث أيضًا في... مدفوعات البطاقات وتسببت أزمة بيزوم، إلى جانب مشاكل في هواتف البيانات وبعض أجهزة الصراف الآلي، في تأثير دفع العديد من الشركات إلى اللجوء مؤقتًا إلى النقد.

ماذا يحدث الآن

اعترفت أمازون في لوحة الحالة الخاصة بها زيادة غير طبيعية في الأخطاء والكمون في مختلف الخدمات المستضافة في المنطقة US-EAST-1 (شمال فرجينيا)وتؤكد الشركة أن فرقها الفنية تعمل على إعادة الأمور إلى طبيعتها، ومع مرور الساعات، تم ملاحظة علامات هامة للتعافي في معظم الطلبات.

طوال الصباح كانت هناك عدة تحديثات: أولاً تم تأكيد الحادث (بعد دقائق من الساعة 09:00)، ثم تم الإبلاغ عن ذلك يجب أن تبدأ معظم العمليات في المعالجة بنجاح، وأشير لاحقًا إلى أن أصل المشاكل كان مرتبطًا بـ حل DNS المرتبط بـ DynamoDBإن التخفيف من تلك النقطة قد أدى إلى تحسين الوضع، على الرغم من أن الأخطاء المتبقية قد لا تزال تظهر.

بالنسبة لأولئك الذين يستمرون في مواجهة الأخطاء عند الاتصال بخدمات معينة، أوصت AWS طلبات إعادة المحاولة وفي حالات محددة، قم بمسح ذاكرة التخزين المؤقت لنظام أسماء النطاقات (DNS)، خاصةً إذا استمرت المشكلات مع نقاط نهاية DynamoDB في المنطقة المتأثرة.

وقد أظهرت التقارير الواردة من منصات تتبع الحوادث انخفاض مستمر في التقارير مع تقدم منتصف النهار، مما يشير إلى التعافي التدريجي والمتدرج اعتمادًا على الخدمة والموقع.

الخدمات المتأثرة بانقطاع AWS

الخدمات والمنصات التي بها حوادث

تتنوع الخدمات المتأثرة بشكل كبير. ومن بين الخدمات الأكثر ذكرًا من قِبل المستخدمين والشركات، أليكسا وبرايم فيديو. نظام الأمازون البيئي، بالإضافة إلى العديد من تطبيقات الطرف الثالث التي تعتمد على البنية الأساسية لـ AWS.

  • الترفيه والألعاب: فورتنايت، روبلوكس، كلاش رويال، ببجي، رينبو سيكس سيج، كرانشي رول و Prime Video لقد أبلغوا عن أخطاء في الاتصال وانقطاعات متقطعة.
  • الإنتاجية والإبداع:أظهرت Canva وDuolingo وTrello وSlack وZoom وDropbox الوصول غير المستقر وأوقات الاستجابة عالية.
  • الشبكات والمراسلة:لقد جمعت Reddit وSnapchat تقارير عن فشل التحميل وانسدادات مؤقتة.
  • الذكاء الاصطناعي والمساعدين: الحيرة والأجهزة التي تدعم أليكسا و أمازون الذكاء الاصطناعي التوليديو الكاميرات وأجراس الأبواب شهدت العديد من أنظمة Ring انقطاعات في الميزات.
  • المدفوعات والتجارة:حوادث في هواتف البيانات، بيزوم وأجبرت بعض البوابات على تعليق عمليات محددة؛ تيكت ماستر وقد أدى ذلك أيضًا إلى تأخير بيع التذاكر، مثل تلك المخطط لها لفيلم "أوريجا دي فان جوخ".

النطاق العالمي للحادث في AWS

أين كان أكثر وضوحا ولماذا يؤثر على الأشخاص خارج الولايات المتحدة.

تركزت الحوادث على الساحل الشرقي للولايات المتحدة (مع ذروة في نيويورك ولوس أنجلوس وسان فرانسيسكو وسياتل)، ولكن تم الإبلاغ عن مشاكل أيضًا في المملكة المتحدة (لندن ومانشستر) وعدة دول أوروبية. على الرغم من أن مركز الزلزال يقع في شرق الولايات المتحدة، إلا أن العديد من الخدمات العالمية تعتمد على تلك المنطقة في أجزاء حيوية من عملياتها.

في الممارسة العملية، هذا يعني أن بعض التطبيقات تظل متاحة ولكن بوظائف محدودةأو لا تُحدِّث المحتوى في الوقت الفعلي. تشرح هذه البنية الموزعة سبب إمكانية حدوث فشل محلي يكون لها تأثير الدومينو على المناطق الأخرى، حتى عندما تظل مراكز البيانات الأوروبية أو الآسيوية قيد التشغيل.

التسلسل الزمني الإرشادي للحادث

• من بين 08:40 و 09:00 (بتوقيت شبه الجزيرة) تظهر أولى قمم التقارير. • حول 09:30، تؤكد AWS وجود مشاكل زيادة معدلات الخطأ والزمن الكامن في مختلف الخدمات. • حول 11:00تشير أمازون إلى أنها حددت السبب المحتمل وتعمل على التخفيف منه. • بعد 11:30، يتواصل علامات واضحة على التعافي• في منتصف النهار، تنخفض التقارير وتتوقف معظم الخدمات يتم استعادتها تدريجيا.

ومع ذلك، تحذر الشركة من احتمال حدوث الحوادث المتبقية في عمليات معينة ويوصي بإعادة المحاولة حتى تعود الأمور إلى طبيعتها على كافة الجبهات.

كيف يؤثر عليك وما يمكنك فعله

إذا لاحظت أن موقع الويب لا يتم تحميله، اليكسا لا تستجيبإذا لم تتمكن لعبة عبر الإنترنت من الاتصال، أو واجه تطبيق عمل مشاكل، فمن المرجح أن الخدمة تعتمد على AWS وهي في مرحلة التعافي. في هذه الحالات، عادةً لا تساعد إعادة تشغيل أجهزة التوجيه أو الأجهزة.الشيء الأكثر فعالية هو الانتظار ومحاولة مرة أخرى لاحقًا.

في البيئات المهنية، من المستحسن التخطيط للمهام الحرجة مع هامش، وإذا أمكن، تمكين إعادة المحاولة وإيقاف التشغيل المؤقت أكثر سخاءً في التكاملات التي تعتمد على نقاط نهاية AWS. في سيناريوهات محددة جدًا، يُفضّل إفراغ مخفي من نظام أسماء النطاقات قد يؤدي ذلك إلى تسريع إعادة الاتصال بخدمات معينة تم استعادتها بالفعل.

تذكير بالاعتماد على السحابة

مع حصة سوقية تتجاوز 30% عالميًا، تُعدّ AWS العمود الفقري لآلاف الشركات الرقمية. عندما يقع حادث في منطقة رئيسية مثل الولايات المتحدة-شرق-1، موجة الصدمة ويظهر ذلك جلياً في التطبيقات التي يستخدمها ملايين الأشخاص يومياً، بدءاً من البث المباشر والألعاب إلى الخدمات المصرفية والتجارة الإلكترونية.

حلقة اليوم تعيد إلى الأذهان الحاجة إلى الهندسة المعمارية المرنة (متعدد المناطق ومتعدد الطبقات مع التحكم في التدهور)، بالإضافة إلى استراتيجيات اتصال واضحة لإدارة توقعات المستخدمين والعملاء عندما تحدث انقطاعات كبيرة.

بعد عدة ساعات من أعمال التخفيف التي قامت بها أمازون، يشير الوضع إلى الانتعاش التدريجي في معظم الخدمات، مع تحسينات ملحوظة في الوصول وزمن الوصول. قد لا يزال هناك صدمات صغيرةلكن الاتجاه إيجابي وكل شيء يشير إلى عودة الحركة إلى طبيعتها في بعض المقاطع مع اكتمال التعديلات في المنطقة المتضررة.

عمال الذكاء الاصطناعي التوليدي في أمازون
المادة ذات الصلة:
Amazon Geneative AI: كيفية إنشاء محتوى أصلي باستخدام الذكاء الاصطناعي