Principais conclusões:
- A solução escalável de descarregamento KV Cache da Dell, alimentada por PowerScale e ObjectScale, oferece tempo até o primeiro token (TTFT) até 19x mais rápido versus vLLM padrão, permitindo maior desempenho de inferência e tempos de resposta de consulta mais baixos.
- Ao liberar recursos de GPU, a solução da Dell transfere o cache KV para armazenamento de alto desempenho, superando gargalos de memória e melhorando a eficiência. Testes de referência mostram que os mecanismos de armazenamento da Dell superam concorrentes como o VAST, oferecendo aceleração mais rápida e melhor desempenho.
- Além da inferência, a AI Data Platform (AIDP) da Dell simplifica todo o ciclo de vida dos dados de IA – desde os dados brutos até a criação de conhecimento – capacitando as organizações a operacionalizar a IA em escala.
Os Large Language Models (LLMs) estão transformando as operações de negócios, desde a melhoria das interações com os clientes até a aceleração da criação de conteúdo. À medida que estes modelos de IA se tornam mais poderosos, as suas exigências computacionais aumentam, criando um desafio significativo: estrangulamentos de desempenho que podem travar o progresso e inflacionar os custos. Muitas organizações acreditam que a única resposta é adicionar GPUs mais caras e que consomem muita energia.
Existe um caminho mais inteligente e mais econômico a seguir. A chave está na otimização de um processo chamado cache de valor-chave (KV). Ao descarregar o cache KV da memória da GPU para o armazenamento de alto desempenho e recuperá-lo em vez de recalculá-lo, você pode melhorar drasticamente o desempenho, reduzir a latência e obter um maior retorno sobre seu investimento em IA.
Este blog apresenta a solução de descarregamento de cache KV líder do setor da Dell. Mostraremos como nossos mecanismos de armazenamento escaláveis e de alto desempenho permitem que você implante LLMs em larga escala com maior eficiência e menor custo.
O alto custo da IA ineficiente
Para entender a solução, primeiro precisamos examinar o problema. Na inferência LLM, o Cache KV armazena cálculos intermediários, para que o modelo não precise recalcular as mesmas informações para cada novo token que gera. Isso acelera os tempos de resposta, medidos como Tempo até o Primeiro Token (TTFT).
No entanto, à medida que os modelos crescem e a demanda dos usuários aumenta, o KV Cache pode consumir gigabytes, ou mesmo terabytes, de memória. Isso sobrecarrega rapidamente a memória da sua GPU, capacidade que leva a dois resultados indesejáveis:
- Degradação de desempenho: seu sistema fica lento, criando uma experiência ruim para o usuário.
- Cargas de trabalho com falha: o gargalo da capacidade de memória faz com que os processos falhem completamente.
A solução convencional é aumentar a computação e mais recursos de memória. Esta abordagem cria um ciclo de custos crescentes, aumento do consumo de energia e maior complexidade da infraestrutura. Ele aborda o sintoma, não a causa raiz e, em última análise, diminui o ROI da IA.
Um avanço na eficiência da IA: armazenamento como solução
A Dell oferece uma alternativa transformadora: transferir o cache KV para nossos mecanismos de armazenamento de IA de alto desempenho. Em vez de depender apenas do escalonamento da computação, você pode aprimorar seu investimento em GPU aproveitando o armazenamento escalonável e econômico, oferecendo uma infraestrutura de IA mais eficiente e sustentável.
Nossa pilha de software validada, com mecanismo de inferência vLLM, LMCache com conector Dell integrado e biblioteca de transferência de dados NIXL da NVIDIA Dynamo estendida pela Dell com um plug-in S3 sobre RDMA para ObjectScale. Essa pilha integra-se perfeitamente ao portfólio de armazenamento da Dell – PowerScale e ObjectScale. Com suporte para armazenamento de arquivos e objetos, você pode escolher a solução mais adequada para seu ambiente e carga de trabalho.
Essa estratégia permite estender a capacidade do cache KV muito além dos limites da memória da GPU. É uma solução revolucionária para organizações que buscam dimensionar a inferência LLM de forma eficiente, econômica e sustentável.
Desempenho que fala por si
Comparamos nossa pilha vLLM + LMCache + NVIDIA NIXL para medir o desempenho do Time to First Token (TTFT) com uma taxa de acerto de 100% do KV Cache. Este cenário isola a eficiência de recuperação de um cache KV totalmente pré-preenchido do armazenamento externo. Os testes foram executados em 4 GPUs Nvidia H100 em back-ends de armazenamento Dell.
Comparamos nossa solução de descarregamento de armazenamento com uma linha de base onde o cache KV é calculado do zero na GPU, usando o LLaMA-3.3-70B Instruct, com Tensor Parallelism=4 (Figura 1).
Os resultados foram notáveis:
- Os mecanismos de armazenamento da Dell (PowerScale e ObjectScale) forneceram um TTFT de 1 segundo em uma janela de contexto completa de 131 mil tokens.
- Isso representa uma melhoria de 19x em relação à configuração vLLM padrão, que levou mais de 17 segundos no mesmo tamanho de contexto.
- Mesmo com um tamanho de contexto pequeno de 1K tokens, todos os três mecanismos da Dell recuperaram o cache KV do armazenamento mais rápido do que poderia ser computado na GPU, destacando a eficiência de baixa latência da nossa solução.
Essa redução significativa do TTFT minimiza a sobrecarga, permite a geração mais rápida de tokens e, em última análise, melhora a utilização da GPU e o rendimento geral de inferência.
Como a solução da Dell se compara à concorrência
Também realizamos testes TTFT usando o modelo Qwen3-32B para comparar a solução da Dell frente a frente com a solução de um concorrente. Os resultados mostraram PowerScale (0,82 seg) e ObjectScale (0,86 seg), ambos superando VAST (1,5 seg) em TTFT – ao mesmo tempo em que entregam aceleração de até 14x em relação ao vLLM padrão sem descarregamento do KV Cache (11,8 seg)¹.
Embora a solução VAST demonstre aceleração, os mecanismos de armazenamento da Dell oferecem maior aceleração e menor tempo de resposta de consulta, em comparação com VAST¹.
Moldando o futuro da infraestrutura de IA
O descarregamento de cache KV é mais do que um otimizador de desempenho significativo para as cargas de trabalho atuais; é uma capacidade fundamental para o futuro da IA. Esses resultados demonstram que uma solução de armazenamento e recuperação KV Cache com mecanismos de armazenamento Dell permite que as organizações obtenham desempenho de inferência superior. Para um mergulho técnico mais profundo em nossa metodologia e configurações de teste, consulte nosso completo blog técnico.
Com Plataforma de dados de IA da Dell (AIDP), vamos além da simples aceleração de inferência. O AIDP aborda todo o ciclo de vida dos dados para IA, simplificando a jornada do cliente, desde os dados brutos aos dados transformados, à criação de conhecimento e, finalmente, à aceleração de modelos de raciocínio e aplicações de agente.
A solução modular e aberta da Dell oferece suporte a todos os estágios do ciclo de vida da IA, desde a ingestão de dados até o treinamento, inferência e implantação de modelos. Ao combinar os mecanismos de armazenamento de alto desempenho da Dell, como PowerScale e ObjectScale, com mecanismos de dados avançados e integração perfeita com a NVIDIA, a Dell AI Data Platform capacita as organizações a operacionalizar a IA em escala.
Fonte: www.dell.com
Link da Fonte
