Sem luz

Falha de energia em data center da Microsoft causou falha global do ChatGPT

OpenAI diz que trabalha em soluções para evitar falhas parecidas no futuro

Tempo de leitura: 2 minutos


A interrupção no fornecimento de energia em um data center da Microsoft foi a grande responsável pela falha global no ChatGPT ocorrida no final de dezembro. Um relatório da OpenAI, desenvolvedora da ferramenta, indica que a falta de energia afetou também o Sora (gerador de vídeos) e várias API da empresa.

Para lembrar, no dia 26 de dezembro, usuários de todo o mundo começaram a relatar falhas no acesso ao ChatGPT. Era impossível fazer solicitações ao chatbot, apesar de o site ser carregado no navegador. Também não era possível acessar o histórico de chats. À noite, a ferramenta voltou a funcionar durante testes feitos pela redação do IA Brasil Notícias.

Os problemas no ChatGPT começaram por volta das 15h, segundo registros do site Downdetector – usado pelos internautas para notificar quando um serviço online está enfrentando problemas de acesso. O pico de reclamações aconteceu às 15h55, quando cerca de 2 mil pessoas notificaram que não estavam conseguindo acessar o ChatGPT.

“A causa principal foi uma falha de energia em um data center de um provedor de nuvem, que afetou serviços críticos, como bancos de dados na região, por um período prolongado”, disse a OpenAI.

Foto: frimufilms/Freepik

Embora não tenha explicitado em seu relatório, a parceira exclusiva de nuvem da OpenAI é a Microsoft – que relatou naquele dia uma queda de energia em seu data center na região South Central dos EUA.

Este incidente, que começou aproximadamente no mesmo horário da indisponibilidade do ChatGPT, causou latência no armazenamento, timeouts e erros HTTP 500 em diversos serviços. O serviço de jogos em nuvem da Microsoft, Xbox Cloud, também foi afetado pela queda, indicando ainda mais o alcance do problema no data center.

Embora os bancos de dados da OpenAI sejam replicados globalmente, a transferência de operações (failover) em nível regional atualmente exige intervenção manual do provedor de nuvem. Conseguimos trabalhar com o provedor para transferir alguns bancos de dados para outras regiões, mas a escala das operações aumentou o tempo necessário para mitigar o problema. Iniciamos várias iniciativas para encontrar soluções alternativas, mas a recuperação final só foi possível quando o provedor de nuvem restaurou totalmente a região afetada”, detalhou a OpenAI.

Olhando para o futuro, a desenvolvedora do ChatGPT disse que vai trabalhar em uma grande iniciativa de infraestrutura para garantir que seus sistemas sejam resilientes a falhas prolongadas em qualquer região dos provedores de nuvem.

A companhia concluiu dizendo que planeja adicionar uma camada de abstração sob controle entre as suas aplicações e seus bancos de dados na nuvem, o que permitirá uma transferência de operações (failover) significativamente mais rápida.

Receba em seu email um resumo semanal com notícias exclusivas e reportagens sobre o mercado de IA no Brasil e no mundo