
این حادثه در ساعت ۱۷:۵۲ به وقت UTC دیروز آغاز شد، زمانی که سیستم Workers KV (ذخیرهسازی کلید-مقدار) به طور کامل از دسترس خارج شد و باعث از دست رفتن گسترده خدمات در چندین سرویس محاسبات لبه و هوش مصنوعی گردید.
Workers KV یک سیستم ذخیرهسازی کلید-مقدار توزیعشده جهانی است که توسط Workers کلودفلر، پلتفرم محاسبات بدون سرور این شرکت، استفاده میشود. این سیستم بخش اساسی بسیاری از خدمات کلودفلر محسوب میشود و خرابی آن میتواند باعث مشکلات آبشاری در اجزای متعدد شود.
این اختلال همچنین بر سایر خدماتی که میلیونها کاربر از آنها استفاده میکنند تأثیر گذاشت، که مهمترین آنها پلتفرم ابری گوگل بود.
در گزارش تحلیل حادثه، کلودفلر توضیح میدهد که این قطعی نزدیک به ۲.۵ ساعت طول کشید و علت اصلی آن خرابی در زیرساخت ذخیرهسازی Workers KV به دلیل قطعی ارائهدهنده خدمات ابری شخص ثالث بود.
کلودفلر میگوید: “علت این قطعی، خرابی در زیرساخت ذخیرهسازی مورد استفاده سرویس Workers KV ما بود که وابستگی حیاتی برای بسیاری از محصولات کلودفلر است و برای پیکربندی، احراز هویت و تحویل داراییها در سرویسهای متأثر به آن تکیه میشود. بخشی از این زیرساخت توسط یک ارائهدهنده خدمات ابری شخص ثالث پشتیبانی میشود که امروز دچار قطعی شد و مستقیماً بر دسترسی سرویس KV ما تأثیر گذاشت.”
کلودفلر تأثیر این حادثه را بر هر سرویس به شرح زیر تعیین کرده است:
Workers KV – نرخ خرابی ۹۰.۲۲ درصدی را به دلیل عدم دسترسی ذخیرهسازی پشتیبان تجربه کرد که بر تمام خواندن و نوشتنهای کش نشده تأثیر گذاشت.
Access، WARP، Gateway – همگی دچار خرابیهای حیاتی در احراز هویت مبتنی بر هویت، مدیریت جلسات و اجرای سیاستها به دلیل وابستگی به Workers KV شدند. WARP قادر به ثبت دستگاههای جدید نبود و پروکسی Gateway و پرسوجوهای DoH مختل شدند.
Dashboard، Turnstile، Challenges – خرابیهای گسترده در ورود به سیستم و تأیید CAPTCHA را تجربه کردند، با خطر استفاده مجدد از توکن به دلیل فعالسازی کلید قطع در Turnstile.
Browser Isolation و Browser Rendering – در شروع یا حفظ جلسات مبتنی بر لینک و وظایف رندرینگ مرورگر به دلیل خرابیهای آبشاری در Access و Gateway شکست خوردند.
Stream، Images، Pages – خرابیهای عملکردی عمدهای را تجربه کردند: پخش Stream و پخش زنده شکست خورد، آپلود تصاویر به موفقیت صفر درصد رسید و ساخت/ارائه Pages به حدود ۱۰۰ درصد خرابی رسید.
Workers AI و AutoRAG – به طور کامل به دلیل وابستگی به KV برای پیکربندی مدل، مسیریابی و توابع نمایهسازی در دسترس نبودند.
Durable Objects، D1، Queues – خدمات ساخته شده بر همان لایه ذخیرهسازی KV تا ۲۲ درصد نرخ خطا یا عدم دسترسی کامل برای صفبندی پیام و عملیات داده را متحمل شدند.
Realtime و AI Gateway – با اختلال تقریباً کامل سرویس به دلیل ناتوانی در بازیابی پیکربندی از Workers KV مواجه شدند، با تأثیر شدید بر Realtime TURN/SFU و درخواستهای AI Gateway.
Zaraz و Workers Assets – خرابی کامل یا جزئی در بارگذاری یا بهروزرسانی پیکربندیها و داراییهای ایستا را مشاهده کردند، اگرچه تأثیر بر کاربران نهایی محدود بود.
CDN، Workers for Platforms، Workers Builds – تأخیر افزایش یافته و خطاهای منطقهای در برخی مکانها را تجربه کردند، با شکست ۱۰۰ درصدی ساختهای جدید Workers در طول حادثه.
در پاسخ به این قطعی، کلودفلر میگوید که چندین تغییر متمرکز بر تابآوری را تسریع خواهد کرد، که عمدتاً حذف وابستگی به یک ارائهدهنده خدمات ابری شخص ثالث برای ذخیرهسازی پشتیبان Workers KV است.
به تدریج، ذخیرهگاه مرکزی KV به ذخیرهسازی شیء R2 خود کلودفلر منتقل خواهد شد تا وابستگی خارجی کاهش یابد. کلودفلر همچنین قصد دارد حفاظتهای متقابل بین سرویسها را پیادهسازی کند و ابزارهای جدیدی برای بازیابی تدریجی خدمات در طول قطعیهای ذخیرهسازی توسعه دهد تا از افزایش ناگهانی ترافیک که میتواند سیستمهای در حال بازیابی را مختل کند و باعث خرابیهای ثانویه شود، جلوگیری کند.
کلمات کلیدی : کلودفلر, Workers KV, قطعی خدمات, ذخیرهسازی کلید-مقدار, محاسبات لبه, زیرساخت ابری
نظر شما چیست؟
خوشحال میشویم نظر شما را بدانیم. نظری بنویسید.