CasaInformaçõesArquitetura de armazenamento otimizada para IA

Arquitetura de armazenamento otimizada para IA

Uma infraestrutura de armazenamento de última geração projetada para ajudar os sistemas de IA a lidar com memória de contexto massiva e raciocínio multivoltas está definida para remodelar a forma como as cargas de trabalho de inferência em grande escala são suportadas.



Surgiu uma nova classe de tecnologia de armazenamento orientada para IA da NVIDIA que aborda um dos desafios mais espinhosos nas cargas de trabalho modernas de IA: gerenciar e compartilhar grandes quantidades de dados de contexto de forma eficiente durante a inferência.As hierarquias tradicionais de armazenamento e memória criadas para computação genérica, e não para necessidades específicas de IA, lutam para acompanhar à medida que os modelos se transformam em sistemas de raciocínio multiagentes e multivoltas que exigem memória de contexto persistente e de grande capacidade.

O núcleo do desenvolvimento é um processador de dados especializado que sustenta a recém-anunciada arquitetura de armazenamento nativa de IA, que estende a memória da GPU e compartilha cache de inferência de valor-chave (KV) entre clusters com alta largura de banda e latência previsível.Esta mudança é impulsionada pela transição da IA ​​do processamento de prompt único para o raciocínio contínuo e de longo contexto, onde uma grande memória compartilhada é essencial para a capacidade de resposta e a precisão.

Os principais recursos são:

Estende a memória da GPU com capacidade de cache de valor-chave em escala de cluster para inferência de contexto longo.
Taxa de transferência de tokens por segundo até 5 vezes maior em comparação com o armazenamento tradicional.
O posicionamento do cache KV acelerado por hardware reduz a sobrecarga de metadados e a movimentação de dados.
Compartilhamento eficiente de contexto entre nós por meio de Ethernet de alto desempenho.
Eficiência energética até 5 vezes melhor em relação às arquiteturas de armazenamento convencionais.
Os parceiros da indústria, incluindo os principais fornecedores de sistemas e armazenamento, já estão a construir plataformas de suporte, planeando a disponibilidade no segundo semestre de 2026. Os primeiros benchmarks e projeções destacam ganhos significativos de desempenho e eficiência para cargas de trabalho de inferência que dependem do rápido acesso e partilha de contexto.Além do desempenho bruto, a nova infraestrutura aborda a escalabilidade e a eficiência energética, duas restrições que têm perseguido os data centers à medida que as cargas de trabalho de IA crescem.Ao desacoplar os serviços de armazenamento das CPUs host e permitir o posicionamento acelerado por hardware de dados de cache de valor-chave, a arquitetura promete melhorias de até cinco vezes nos tokens processados ​​por segundo e na eficiência energética em comparação com sistemas de armazenamento convencionais sob cargas semelhantes.

Esse design também traz maior integração entre funções de rede, memória e armazenamento de alto desempenho, aproveitando malhas Ethernet avançadas para fornecer acesso remoto direto à memória de baixa latência entre servidores.O resultado é uma base que se alinha melhor com os paradigmas de inferência em evolução, onde a persistência de memória e o compartilhamento de contexto entre nós são essenciais.À medida que a infraestrutura de IA evolui, este nível de armazenamento pode tornar-se um facilitador essencial para serviços de IA de próxima geração, reduzindo a latência e os custos de energia, ao mesmo tempo que suporta tarefas de raciocínio mais complexas em escala.