Alibaba e ByteDance estão transferindo o treinamento de IA para o exterior para contornar as proibições de chips na China

Negócios Tecnologia

Gigantes da tecnologia chinesas estão transferindo parte de seu trabalho mais avançado de treinamento de IA para data centers no exterior, usando infraestrutura estrangeira para manter o acesso às GPUs da Nvidia, respeitando as regras de exportação dos EUA. Fontes familiarizadas com os acordos afirmam que essa mudança transformou partes do Sudeste Asiático em importantes polos para o treinamento de grandes modelos de linguagem que competem com os melhores sistemas americanos.

Segundo o Financial Times, que cita fontes com conhecimento direto das implementações, a Alibaba e a ByteDance estão entre as empresas que encaminham tarefas de treinamento para seus mais recentes modelos de linguagem de grande porte para data centers em países como Singapura e Malásia. Essas fontes afirmam que houve uma mudança constante em direção a clusters offshore desde abril, quando Washington intensificou os controles sobre o acelerador H2O da Nvidia, um chip projetado especificamente para o mercado chinês.

Na prática, os laboratórios de IA chineses alugam capacidade computacional de operadores não chineses que possuem e administram instalações equipadas com GPUs Nvidia de última geração, semelhantes às utilizadas por provedores de nuvem e IA dos EUA. Um executivo de um data center em Singapura descreveu a lógica como simples, afirmando que é “uma escolha óbvia” para clientes chineses que desejam hardware de ponta e uma estrutura que permaneça em conformidade com as restrições de exportação existentes.

Os clusters offshore normalmente usam aceleradores da Nvidia que estão no topo da curva de desempenho atual para treinamento de IA, incluindo famílias relacionadas às linhas H100 e A100, em vez das peças mais limitadas, exclusivas da China, que agora estão sob maior escrutínio. As regras dos EUA proíbem a exportação direta das GPUs Nvidia mais avançadas para a China, mas não impedem que operadores de data centers não chineses em países permitidos comprem esses chips e revendam o acesso como um serviço em nuvem.

Uma tentativa anterior de colmatar essa lacuna, conhecida como a “regra de difusão” da IA, teria considerado o arrendamento no estrangeiro de poder computacional restrito a clientes chineses como uma violação dos controlos de exportação, mas essa estrutura foi revogada este ano pela administração Trump, antes de as suas restrições entrarem em vigor na íntegra.

Com a revogação dessa regra, o aluguel de tempo de GPU de instalações estrangeiras tornou-se um mecanismo central para que empresas chinesas acessem hardware avançado da Nvidia, mantendo-se dentro dos limites regulatórios atuais.

Ao longo do último ano, a família de modelos Qwen da Alibaba e os sistemas Doubao da ByteDance ascenderam ao topo dos benchmarks globais de aprendizado de máquina de longo prazo (LLM). Especialistas familiarizados com seus processos de treinamento afirmam que partes dos treinamentos em larga escala desses modelos agora são executadas em clusters offshore, onde a combinação de interconexões de alta largura de banda e racks de GPUs densos é comparável à infraestrutura utilizada pelos principais laboratórios de IA dos EUA.

Um exemplo notável que foge à tendência de terceirização é a DeepSeek, uma empresa chinesa de IA conhecida no setor por seus modelos de alta qualidade que priorizam a eficiência de custos. Fontes com conhecimento de suas operações afirmam que a DeepSeek acumulou um grande número de aceleradores da Nvidia antes da implementação das mais recentes proibições de exportação, o que lhe conferiu capacidade suficiente no mercado interno para continuar executando treinamentos em larga escala dentro da China.

Segundo relatos, a DeepSeek também está trabalhando em estreita colaboração com fabricantes de chips locais, liderados pela Huawei, para otimizar tanto o hardware quanto o software para futuros treinamentos. A Huawei alocou uma equipe de engenheiros na sede da DeepSeek em Hangzhou, e a empresa vê a parceria como uma forma estratégica de acelerar a adoção de seus semicondutores e softwares de sistema voltados para IA em polos de treinamento na China.

O treinamento de modelos de aprendizado de máquina (LLMs) de última geração normalmente exige clusters densos de aceleradores, cada um com alta capacidade de processamento e interconexões rápidas, para processar conjuntos de dados enormes e sincronizar os parâmetros do modelo em milhares de GPUs. Para essas cargas de trabalho, as empresas chinesas ainda preferem os produtos avançados da Nvidia devido à sua maturidade, ecossistema de software e perfil de desempenho, o que reduz o esforço de engenharia necessário para escalar o treinamento para centenas de bilhões de parâmetros.

Uma vez treinados os modelos, no entanto, as empresas chinesas estão cada vez mais dependendo de chips nacionais para inferência. Os fornecedores chineses estão lançando seus próprios aceleradores – frequentemente otimizados para largura de banda de memória e consumo de energia específicos – para lidar com esse tráfego de produção a um custo menor e com menos riscos geopolíticos do que a importação de hardware estrangeiro.

O Sudeste Asiático rapidamente se tornou um ponto focal para essa estratégia, com clusters de data centers em Singapura e na Malásia se expandindo para atender à demanda de clientes chineses. Essas instalações são construídas em torno de racks de alta densidade de GPUs do portfólio de data centers da Nvidia, conectados por redes de baixa latência para que os clientes possam executar grandes tarefas de treinamento distribuídas com modificações mínimas em seus softwares existentes.

Normalmente, as empresas chinesas não são proprietárias desses centros de dados; em vez disso, elas firmam contratos de arrendamento ou de utilização de longo prazo com operadores locais ou internacionais que mantêm o controle legal do hardware, uma estrutura que mantém os acordos dentro das normas de exportação vigentes nos EUA.

Fonte: www.techspot.com
Link da Fonte

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *