• A DeepSeek é considerada uma IA de baixo custo por utilizar uma técnica de destilação que reduz significativamente o poder computacional necessário para o treinamento do modelo.
  • A ferramenta chinesa usa aprendizado por reforço e versões menores orientadas por outras IAs, automatizando o processo e eliminando a necessidade de refinamento manual exaustivo.
  • A redução de custos energéticos e a transparência do código aberto posicionam a DeepSeek como uma inovação que pode diminuir o impacto ambiental e financeiro da inteligência artificial no setor.
Resumo supervisionado por jornalista.

A pesquisadora Cecília Rikap, do Instituto de Inovação e Propósito Público da University College London, defende que o modelo de Inteligência Artificial DeepSeek R1 cria uma nova fronteira nessa área, ao se tornar o primeiro que usa apenas uma fração do poder de computação para treinamento da ferramenta. A técnica de aprendizado usada – chamada de destilação – não é nova, mas é mais eficiente do que outras experiências anteriores.

Explicando: destilar, nesse contexto, significa extrair automaticamente o aprendizado dos modelos existentes. E mais: a DeepSeek faz isso de forma eficiente e com custos menores. A argumentação de Rikap está no artigo que foi reproduzido pela Unisinos, apontando a tecnologia como a IA de baixo custo.   

A destilação adotada pelos chineses também foi destacada por Álvaro Machado Dias, professor livre-docente da Unifesp (Universidade Federal de São Paulo). De acordo com ele, a DeepSeek usa outras IAs para treinar sua ferramenta e orientar versões menores, que funcionam como subáreas de conhecimento. Para os concorrentes da DeepSeek, essa iniciativa seria similar a usar artigos protegidos por paywalls para treinar a ferramenta. 

Leia também:

Além do hype: estratégias sustentáveis e aplicações de Inteligência Artificial

O segredo do barateamento da ferramenta de IA da empresa chinesa teria ainda outro ingrediente, que é o aprendizado por reforçamento, o que permitiria a automatização do processo. Essa automatização eliminaria a necessidade do refinamento manual exaustivo – feito por milhares de profissionais nos outros modelos de IA.

Transparência e menor consumo de energia

Deepseek
Foto: Adobe Stock

Outra diferença marcante do R1, da DeepSeek, é a transparência. Enquanto os concorrentes mantêm o mecanismo de algoritmos fechados, a empresa chinesa mantém a mesma filosofia do Linux, como uma espécie de código aberto. 

O impacto inovador do modelo R1 também envolveria a redução de custos de energia, segundo o site especializado The Verge, cuja matéria de título sugestivo “A IA é um devorador de energia, mas o DeepSeek pode mudar isso”, explica em detalhes como isso acontece.

De acordo com a publicação, a versão V3 da DeepSeek precisava de apenas 2.000 chips para treinar o modelo de inteligência artificial em comparação com os 16.000 chips ou mais necessários por seus concorrentes. Em termos de números, o modelo chinês – segundo papers da própria DeepSeek – levaria a uma redução de consumo de energia dos servidores entre 50% e 75% em relação aos modelos concorrentes.

Os avanços tecnológicos, aliás, podem colocar em cheque até mesmo os números grandiosos de demanda de energia nos datacenters com o uso da IA. Uma reportagem da Brasil Energia mostra que a Agência Internacional de Energia (IEA) não acredita em números recentes como a estimativa de que os datacenters irão consumir, por exemplo, entre 4% e 10% da energia dos Estados Unidos. 

Entre as inovações que podem influir nisso estão o aprimoramento do consumo energético dos chips e das unidades de processamento de imagens usados pelas ferramentas de IA. 

Dúvidas mais comuns

A DeepSeek é considerada uma IA de baixo custo porque utiliza uma técnica eficiente chamada destilação, que extrai automaticamente o aprendizado de modelos existentes usando uma fração do poder computacional necessário para treinar a ferramenta. Além disso, ela automatiza processos com aprendizado por reforço, reduzindo a necessidade de refinamento manual exaustivo, o que diminui custos operacionais.

A destilação é uma técnica de aprendizado que consiste em extrair automaticamente o conhecimento de modelos de IA já existentes para treinar versões menores e mais eficientes. No caso da DeepSeek, essa técnica permite criar subáreas de conhecimento com menos recursos computacionais, tornando o processo mais barato e rápido.

A DeepSeek reduz o consumo de energia ao precisar de menos chips para treinar seu modelo — cerca de 2.000 chips na versão V3, contra 16.000 ou mais usados por concorrentes. Essa eficiência resulta em uma redução de 50% a 75% no consumo energético dos servidores, contribuindo para um impacto ambiental menor e custos operacionais reduzidos.

A DeepSeek adota uma filosofia de código aberto semelhante ao Linux, ao contrário de seus concorrentes que mantêm algoritmos fechados. Essa transparência permite maior confiança, colaboração e potencial para melhorias contínuas, além de facilitar o acesso e a adaptação da tecnologia por diferentes usuários e desenvolvedores.

O aprendizado por reforço automatiza o processo de treinamento da IA, eliminando a necessidade de refinamento manual exaustivo realizado por milhares de profissionais em outros modelos. Isso reduz significativamente o tempo e os custos envolvidos no desenvolvimento e manutenção da ferramenta.

Os principais fatores são a técnica eficiente de destilação, o uso de aprendizado por reforço para automatizar o treinamento, a redução do consumo energético e a transparência do código aberto. Juntos, esses elementos permitem que a DeepSeek opere com menos recursos computacionais e humanos, diminuindo custos.

A DeepSeek pode influenciar positivamente o consumo energético dos datacenters ao reduzir a demanda por energia em até 75% em comparação com outros modelos de IA. Isso desafia estimativas anteriores sobre o crescimento do consumo energético dos datacenters e aponta para avanços tecnológicos que tornam a IA mais sustentável.