A pesquisadora Cecília Rikap, do Instituto de Inovação e Propósito Público da University College London, defende que o modelo de Inteligência Artificial DeepSeek R1 cria uma nova fronteira nessa área, ao se tornar o primeiro que usa apenas uma fração do poder de computação para treinamento da ferramenta. A técnica de aprendizado usada – chamada de destilação – não é nova, mas é mais eficiente do que outras experiências anteriores.
Explicando: destilar, nesse contexto, significa extrair automaticamente o aprendizado dos modelos existentes. E mais: a DeepSeek faz isso de forma eficiente e com custos menores. A argumentação de Rikap está no artigo que foi reproduzido pela Unisinos, apontando a tecnologia como a IA de baixo custo.
A destilação adotada pelos chineses também foi destacada por Álvaro Machado Dias, professor livre-docente da Unifesp (Universidade Federal de São Paulo). De acordo com ele, a DeepSeek usa outras IAs para treinar sua ferramenta e orientar versões menores, que funcionam como subáreas de conhecimento. Para os concorrentes da DeepSeek, essa iniciativa seria similar a usar artigos protegidos por paywalls para treinar a ferramenta.
Leia também:
Além do hype: estratégias sustentáveis e aplicações de Inteligência Artificial
O segredo do barateamento da ferramenta de IA da empresa chinesa teria ainda outro ingrediente, que é o aprendizado por reforçamento, o que permitiria a automatização do processo. Essa automatização eliminaria a necessidade do refinamento manual exaustivo – feito por milhares de profissionais nos outros modelos de IA.
Transparência e menor consumo de energia

Outra diferença marcante do R1, da DeepSeek, é a transparência. Enquanto os concorrentes mantêm o mecanismo de algoritmos fechados, a empresa chinesa mantém a mesma filosofia do Linux, como uma espécie de código aberto.
O impacto inovador do modelo R1 também envolveria a redução de custos de energia, segundo o site especializado The Verge, cuja matéria de título sugestivo “A IA é um devorador de energia, mas o DeepSeek pode mudar isso”, explica em detalhes como isso acontece.
De acordo com a publicação, a versão V3 da DeepSeek precisava de apenas 2.000 chips para treinar o modelo de inteligência artificial em comparação com os 16.000 chips ou mais necessários por seus concorrentes. Em termos de números, o modelo chinês – segundo papers da própria DeepSeek – levaria a uma redução de consumo de energia dos servidores entre 50% e 75% em relação aos modelos concorrentes.
Os avanços tecnológicos, aliás, podem colocar em cheque até mesmo os números grandiosos de demanda de energia nos datacenters com o uso da IA. Uma reportagem da Brasil Energia mostra que a Agência Internacional de Energia (IEA) não acredita em números recentes como a estimativa de que os datacenters irão consumir, por exemplo, entre 4% e 10% da energia dos Estados Unidos.
Entre as inovações que podem influir nisso estão o aprimoramento do consumo energético dos chips e das unidades de processamento de imagens usados pelas ferramentas de IA.