O projeto avançado de chip de IA de Princeton, apoiado por DARPA e EnCharge AI, promete melhorias significativas na eficiência energética e no poder computacional, com o objetivo de revolucionar a acessibilidade e aplicação da IA.
A maior organização de pesquisa do Departamento de Defesa fez parceria com um esforço liderado por Princeton para desenvolver microchips avançados para inteligência artificial.
O novo hardware reinventa os chips de IA para cargas de trabalho modernas e pode executar sistemas de IA poderosos usando muito menos energia do que os sistemas mais avançados da atualidade. semicondutores, segundo Naveen Verma, professor de engenharia elétrica e de computação. Verma, que liderará o projeto, disse que os avanços rompem barreiras importantes que têm frustrado os chips para IA, incluindo tamanho, eficiência e escalabilidade.
Revolucionando a implantação de IA
Chips que requerem menos energia podem ser implantados para executar IA em ambientes mais dinâmicos, desde laptops e telefones até hospitais e rodovias, até a órbita baixa da Terra e muito mais. Os tipos de chips que alimentam os modelos mais avançados de hoje são muito volumosos e ineficientes para serem executados em dispositivos pequenos e estão restritos principalmente a racks de servidores e grandes data centers.
Agora, a Agência de Projetos de Pesquisa Avançada de Defesa, ou DARPA, anunciado apoiará o trabalho de Verma, baseado em um conjunto de invenções importantes de seu laboratório, com uma doação de US$ 18,6 milhões. O financiamento da DARPA conduzirá a uma exploração sobre o quão rápido, compacto e eficiente em termos de energia o novo chip pode ser.
“Há uma limitação muito importante: a melhor IA disponível está apenas no data center”, disse Verma. “Você desbloqueia isso e as maneiras pelas quais podemos obter valor da IA, eu acho, explodem.”
O anúncio veio como parte de um esforço mais amplo da DARPA para financiar “avanços revolucionários na ciência, dispositivos e sistemas” para a próxima geração de computação de IA. O programa, denominado OPTIMA, inclui projetos em diversas universidades e empresas. A chamada à apresentação de propostas do programa estimou o financiamento total em 78 milhões de dólares, embora a DARPA não tenha divulgado a lista completa de instituições ou o montante total do financiamento que o programa concedeu até à data.
O surgimento do EnCharge AI
No projeto liderado por Princeton, os pesquisadores colaborarão com a startup da Verma, EnCharge AI. Com sede em Santa Clara, Califórnia, a EnCharge AI está comercializando tecnologias baseadas nas descobertas do laboratório de Verma, incluindo vários artigos importantes que ele co-escreveu com estudantes de graduação em engenharia elétrica desde 2016.
A Encharge AI “traz liderança no desenvolvimento e execução de arquiteturas de computação de sinais mistos robustas e escaláveis”, de acordo com a proposta do projeto. Verma co-fundou a empresa em 2022 com Kailash Gopalakrishnan, ex-bolsista da IBM, e Echere Iroaga, líder em design de sistemas semicondutores.
Gopalakrishnan disse que a inovação nas arquiteturas de computação existentes, bem como as melhorias na tecnologia de silício, começaram a desacelerar exatamente no momento em que a IA começou a criar novas demandas massivas de poder e eficiência computacional. Nem mesmo a melhor unidade de processamento gráfico (GPU), usada para executar os sistemas de IA atuais, pode mitigar os gargalos de memória e de energia computacional que a indústria enfrenta.
“Embora as GPUs sejam a melhor ferramenta disponível atualmente”, disse ele, “concluímos que será necessário um novo tipo de chip para desbloquear o potencial da IA”.
Transformando o cenário da computação de IA
Entre 2012 e 2022, a quantidade de poder computacional exigido pelos modelos de IA cresceu cerca de 1 milhão por cento, segundo Verma, que também é diretor do Centro Keller para Inovação em Educação em Engenharia no Universidade de Princeton. Para atender à demanda, os chips mais recentes contêm dezenas de bilhões de transistores, cada um separado pela largura de um pequeno vírus. Mesmo assim, os chips ainda não são densos o suficiente em termos de poder computacional para as necessidades modernas.
Os principais modelos atuais, que combinam grandes modelos de linguagem com visão computacional e outras abordagens para aprendizado de máquinaforam desenvolvidos usando mais de um trilhão de variáveis cada. As GPUs projetadas pela Nvidia que alimentaram o boom da IA tornaram-se tão valiosas que grandes empresas supostamente as transportam em carros blindados. Os atrasos para comprar ou alugar esses chips chegam ao ponto de desaparecer.
Quando a Nvidia se tornou a terceira empresa a atingir uma avaliação de US$ 2 trilhões, o Wall Street Journal relatado que uma parcela cada vez maior da receita crescente da empresa não veio do desenvolvimento de modelos, chamados de treinamento, mas de chips que permitem o uso de sistemas de IA uma vez treinados. Os tecnólogos referem-se a este estágio de implantação como inferência. E a inferência é onde Verma diz que sua pesquisa terá o maior impacto no curto e médio prazo.
“Trata-se de descentralizar a IA, liberando-a do data center”, disse ele. “É preciso sair do data center para lugares onde nós e os processos que são importantes para nós possamos ter mais acesso à computação, e isso são telefones, laptops, fábricas, esse tipo de coisa.”
Tecnologia inovadora de chip AI
Para criar chips que possam lidar com cargas de trabalho modernas de IA em ambientes compactos ou com restrição de energia, os pesquisadores tiveram que reimaginar completamente a física da computação enquanto projetavam e empacotavam hardware que pudesse ser fabricado com técnicas de fabricação existentes e que pudesse funcionar bem com as tecnologias de computação existentes. como uma unidade central de processamento.
“Os modelos de IA explodiram em tamanho”, disse Verma, “e isso significa duas coisas”. Os chips de IA precisam se tornar muito mais eficientes na matemática e muito mais eficientes no gerenciamento e na movimentação de dados.
A sua abordagem tem três partes principais.
A arquitetura central de praticamente todos os computadores digitais seguiu um padrão aparentemente simples, desenvolvido pela primeira vez na década de 1940: armazenar dados em um lugar, fazer cálculos em outro. Isso significa transportar informações entre as células de memória e o processador. Na última década, Verma foi pioneira na pesquisa de uma abordagem atualizada em que a computação é feita diretamente nas células de memória, chamada computação na memória. Essa é a primeira parte. A promessa é que a computação na memória reduzirá o tempo e a energia necessários para mover e processar grandes quantidades de dados.
Mas até agora, as abordagens digitais para a computação em memória têm sido altamente limitadas. Verma e sua equipe recorreram a uma abordagem alternativa: computação analógica. Essa é a segunda parte.
“No caso especial da computação na memória, você não só precisa fazer a computação de forma eficiente”, disse Verma, “você também precisa fazê-lo com uma densidade muito alta, porque agora ela precisa caber dentro dessas minúsculas células de memória”. Em vez de codificar informações em uma série de 0s e 1s e processar essas informações usando circuitos lógicos tradicionais, os computadores analógicos aproveitam a física mais rica dos dispositivos. A curvatura de uma engrenagem. A capacidade de um fio de reter carga elétrica.
Os sinais digitais começaram a substituir os sinais analógicos na década de 1940, principalmente porque o código binário foi melhor dimensionado com o crescimento exponencial da computação. Mas os sinais digitais não exploram profundamente a física dos dispositivos e, como resultado, podem exigir mais armazenamento e gerenciamento de dados. Eles são menos eficientes nesse sentido. O analógico obtém sua eficiência processando sinais mais finos usando a física intrínseca dos dispositivos. Mas isso pode trazer uma compensação em termos de precisão.
“A chave é encontrar a física certa para o trabalho em um dispositivo que possa ser controlado extremamente bem e fabricado em escala”, disse Verma.
Sua equipe encontrou uma maneira de fazer cálculos altamente precisos usando o sinal analógico gerado por capacitores especialmente projetados para ligar e desligar com extrema precisão. Essa é a parte três. Ao contrário dos dispositivos semicondutores, como os transistores, a energia elétrica que se move através dos capacitores não depende de condições variáveis, como temperatura e mobilidade eletrônica em um material.
“Eles dependem apenas da geometria”, disse Verma. “Eles dependem do espaço entre um fio metálico e outro fio metálico.” E a geometria é algo que as técnicas mais avançadas de fabricação de semicondutores da atualidade podem controlar extremamente bem.