
Nos últimos dois anos, as discussões sobre IA giraram quase inteiramente em torno do poder computacional: GPUs insuficientes, capacidade computacional insuficiente e clusters inadequados.Mas este relatório enfatiza repetidamente um ponto-chave: o que realmente impede a IA não é a incapacidade de calcular, mas a incapacidade de mover dados.
À medida que os tamanhos dos modelos aumentaram de dezenas de megabytes para vários gigabytes, os componentes mais ocupados do sistema não são mais unidades de computação, mas memória e barramentos.Em outras palavras, o gargalo da IA está mudando silenciosamente – de um “problema de computação” para uma proposta mais fundamental: um problema de armazenamento.
Isto levou a uma direção mais radical: se a movimentação de dados é a maior sobrecarga, por que não deixar a computação acontecer? diretamente no armazenamento?
Uma arquitetura chamada Compute-in-Memory (CIM) está tentando reescrever essa lógica a partir da raiz.A chave para habilitá-lo não é um nó de processo mais avançado, mas um tipo de tecnologia que não foi tão “convencional” no passado—memória analógica.
Este artigo convida-nos a repensar uma questão crítica: à medida que a IA evolui até onde está hoje, o que realmente determina o seu limite superior – poder de computação ou armazenamento?
O gargalo de desempenho da IA está mudando de “poder de computação” para “armazenamento e movimentação de dados”, e a solução reside na reconstrução do paradigma de computação com “memória analógica + computação na memória (CIM)”.
A computação central das redes neurais profundas (DNNs) é a multiplicação de matrizes vetoriais (VMM), que depende inerentemente da leitura massiva de peso.À medida que os tamanhos dos modelos crescem de megabytes para gigabytes (10 MB a 10 GB), eles impõem enormes demandas ao armazenamento no chip.
O treinamento é “intensivo de escrita”, enquanto a inferência é “intensiva de leitura” – ambos giram em torno do armazenamento de peso (memória sináptica).
Conclusão: IA não é um problema puramente computacional;é essencialmente uma questão de “eficiência de armazenamento + movimentação de dados”.
As GPUs/TPUs tradicionais operam com um princípio simples: a computação ocorre em elementos de processamento (PEs), enquanto os dados são armazenados em SRAM/DRAM — levando a movimentos frequentes de dados e eficiência extremamente baixa.
Comparação de eficiência energética:
Contradição central: O problema não é a incapacidade de calcular, mas a incapacidade de mover dados com eficiência.
A arquitetura CIM armazena pesos diretamente em arrays de memória e executa cálculos (VMM paralelo) dentro desses arrays, eliminando a necessidade de mover dados entre “armazenamento ↔ unidades de computação”.
Mudança fundamental:
Esta é uma mudança de paradigma no nível arquitetônico, não apenas uma simples otimização.
Para realizar o CIM, é necessário um novo “suporte de peso”.Os principais candidatos incluem:
A capacidade essencial destes dispositivos é representar pesos usando condutância contínua (multi-bit analógico).
O relatório enfatiza não “se isso pode ser feito”, mas sim os obstáculos práticos:
1. Desafios de treinamento (processo de redação)
Requisitos: Linearidade e simetria
Questões práticas: A não linearidade e a assimetria levam à redução da precisão
2. Desafios de inferência (estabilidade de leitura)
Os pesos variam ao longo do tempo, com problemas que incluem:
- Deriva térmica
- Interferência de leitura
- Problemas de retenção
3. Problemas no nível do array
- Variabilidade entre dispositivos
- Compensações entre precisão, desempenho ADC e tamanho do array
Conclusão central: O problema com a memória analógica não é “se a precisão é suficiente”, mas “estabilidade e controlabilidade”.
As direções futuras incluem:
Essência: Este não é um avanço único, mas uma reconstrução completa.
O gargalo da IA não é mais o poder computacional, mas o “armazenamento e fluxo de dados”.O CIM analógico está transformando o “armazenamento” no novo núcleo da computação – redefinindo como os sistemas de IA operam desde o início.