Quando a Cloudflare sofreu uma grande interrupção na segunda-feira, muitas pessoas, incluindo os engenheiros da empresa, suspeitaram inicialmente de um sofisticado ataque DDoS. Mais tarde, a empresa explicou que uma atualização defeituosa em sua infraestrutura de servidores causou o mau funcionamento de um único arquivo. Diversas grandes interrupções nos últimos anos resultaram de falhas pontuais semelhantes.
O CEO da Cloudflare, Matthew Prince, publicou um pedido de desculpas detalhado e uma explicação sobre o incidente, que afetou diversas plataformas online populares. Uber, ChatGPT, McDonald’s, League of Legends, X, o sistema de transporte público de Nova Jersey e até mesmo o TechSpot sofreram interrupções de serviço por horas.
Como a Cloudflare protege esses e outros sites contra ataques DDoS e outras ameaças, a empresa inicialmente presumiu estar enfrentando um grande incidente de segurança quando os servidores começaram a apresentar falhas por volta das 6h20 da manhã de segunda-feira (horário do leste dos EUA). Outro motivo para essa suposição inicial foi o fato de as interrupções terem aparecido e desaparecido ao longo de cerca de duas horas, antes de se tornarem contínuas por volta das 8h.

No entanto, a empresa acabou descobrindo que, ao alterar uma permissão em um sistema de banco de dados sob uma suposição equivocada sobre seu comportamento, dobrou o tamanho de um arquivo crítico para o gerenciador de bots da Cloudflare. Esse gerenciador, que direciona o tráfego automatizado pelos sistemas da empresa, é atualizado continuamente em resposta a ameaças em constante evolução, mas também possui certos limites de tamanho de arquivo para minimizar o consumo de memória e garantir um desempenho estável.
Quando o gerenciador de bots foi atualizado com o arquivo inflado, que excedeu esses limites, ocorreu um erro. As falhas foram inicialmente intermitentes devido ao tempo necessário para que o arquivo defeituoso fosse atualizado em todo o sistema. A Cloudflare resolveu o problema revertendo para uma versão anterior do arquivo às 11h30 e restaurou todas as operações ao meio-dia.
Prince descreveu o incidente como o pior da empresa desde uma grande interrupção em 2019 e prometeu que a Cloudflare revisaria os sistemas afetados e retornaria mais forte. No entanto, o evento é apenas o exemplo mais recente de um pequeno erro causando uma grande interrupção.
Em outubro, uma falha em um único servidor de banco de dados causou uma grande interrupção na Amazon Web Services , que deixou o ChatGPT, Fortnite, Reddit, Amazon e outros serviços populares offline. Um dos incidentes mais graves desse tipo ocorreu em julho passado, quando uma atualização de segurança defeituosa da CrowdStrike provocou a infame Tela Azul da Morte em sistemas Windows críticos em todo o mundo. A interrupção afetou emissoras de TV, serviços de transporte e inúmeras outras empresas.
Fonte: www.techspot.com
Link da Fonte

