El 25 de marzo de 2025, Cloudflare experimentó una interrupción de 1 hora y 7 minutos que afectó a su servicio de almacenamiento de objetos R2, impactando también a varios servicios relacionados.
La interrupción provocó fallos del 100% en las escrituras y fallos del 35% en las lecturas a nivel mundial, con algunos servicios experimentando una degradación total.
Causa de la interrupción
El problema fue causado por un error en la rotación de credenciales. Cloudflare explicó que las nuevas credenciales se desplegaron por error en el entorno de desarrollo en lugar de en el entorno de producción.
Cuando se eliminaron las credenciales antiguas, el servicio de producción perdió las credenciales válidas, lo que provocó una falla en la autenticación entre el Gateway R2 (frontend de API) y el almacenamiento de backend.
El error ocurrió debido a la omisión de un único comando en la línea de comandos, ‘–env production,’ lo que causó que las credenciales se desplegaran en el entorno incorrecto.
Este error de configuración causó un declive gradual en la disponibilidad de R2, que no se detectó de inmediato debido a un retraso en la propagación de las credenciales.
Impacto de la interrupción ⚠️
Aunque no se perdió ni corrompió datos de los clientes, la interrupción causó una degradación significativa en los servicios:
- R2: 100% fallos en escrituras y 35% fallos en lecturas (los objetos en caché permanecieron accesibles).
- Cache Reserve: Mayor tráfico de origen debido a las lecturas fallidas.
- Servicios de Imágenes y Stream: Todos los cargas fallidas; la entrega de imágenes bajó al 25%, y Stream se vio afectado al 94%.
- Otros servicios como Seguridad de correo electrónico, Vectorización, Entrega de registros, Facturación y Auditoría de transparencia de claves también enfrentaron niveles variables de interrupción.
Respuesta y medidas preventivas ✅
Para evitar incidentes futuros, Cloudflare ha implementado varias medidas:
- Mejora en el registro y verificación de credenciales: Asegura un despliegue adecuado de credenciales.
- Herramientas de despliegue automatizado: Ayuda a evitar errores humanos en los despliegues de producción.
- Procedimientos operativos estándar (SOPs) actualizados: Requiere validación dual para acciones de alto impacto como la rotación de credenciales.
- Chequeos de salud mejorados: Permite una detección más rápida de la causa raíz.
Este es el segundo incidente en unos pocos meses debido a un error humano. En febrero de 2025, ocurrió otra interrupción de 1 hora cuando un operador desactivó accidentalmente todo el servicio de Gateway R2 al responder a un informe de abuso.
Desde entonces, Cloudflare ha tomado medidas para mejorar las salvaguardias, incluyendo controles de acceso más estrictos y aprobación de dos partes para acciones de alto riesgo.
Este incidente subraya la importancia de contar con medidas rigurosas de validación y salvaguardias al realizar cambios de configuración en sistemas de alto impacto, como el servicio R2 de Cloudflare.