As técnicas usadas pela Deepseek e o modelo de inteligência artificial do gigante chinês Alibaba, Qwen, já são peças fundamentais em algumas das mais recentes promessas da IA no Brasil. O lançamento do V3-R1, da Deepseek, em 20 de janeiro, mostrou a capacidade da China de concorrer com os Estados Unidos no desenvolvimento tecnológico em pé de igualdade.
O modelo de código aberto adotado pelas companhias chinesas, no qual há divulgação de detalhes técnicos do desenvolvimento da tecnologia e liberdade para alterar o produto, permite que brasileiros —e também desenvolvedores de outras partes do mundo— comecem os seus trabalhos de um ponto de partida mais avançado.
Assim, o custo para criar uma inteligência artificial adequada para certas tarefas cai da casa dos bilhões para milhares de dólares.
Um estudante de economia da Fundação Getúlio Vargas, por exemplo, conseguiu usar o conhecimento divulgado pela Deepseek e os resultados de um outro grupo de pesquisa chinês independente para melhorar a performance do Qwen em testes de matemática e ciências exatas.
Ele, que se chama Rafael Coelho, 22, e é autodidata em computação, testou o modelo que desenvolveu em provas padrões aplicadas a outras ferramentas do mercado, como GPT (da OpenAI), Gemini (Google) e a Deepseek-V3-R1.
A IA, batizada de Rio 1.5, é um modelo de raciocínio e, assim como o ChatGPT no modo o1 e a Deepseek R1, conversa consigo mesma antes de apresentar uma resposta mais elaborada. A versão brasileira aprimorada do Qwen tira uma nota de cinco vezes a que a IA original obteve em matemática —80,4 contra 16,6.
No teste de física, química e biologia, o modelo de Coelho ganha mais de 20 pontos em relação ao Qwen —70,2 contra 48,8.
A Rio 1.5, testada pela Folha, obteve resultados semelhantes aos da Deepseek R1, nas provas e abaixo de concorrentes americanos. Além disso, o estudante afirma ter gasto apenas R$ 5.000 em provedores de nuvem para alcançar o resultado.
Embora os números tragam otimismo, a performance do Rio 1.5 ainda peca em relação ao tempo de processamento.
Pesquisadores ouvidos pela reportagem também afirmaram que é difícil tirar conclusões sobre as capacidades do modelo de IA apenas observando os resultados dos testes. Eles disseram que grande parte dos resultados se deve ao trabalho dos chineses do grupo Light-R1, uma fonte que o próprio Coelho mencionou em conversa com a Folha.
O Light-R1 usou o ChatGPT para obter respostas de referências que serviram de referência para o Qwen aprender a resolver os problemas de matemática —esse processo chama-se destilação e também foi usado pela Deepseek. Ao ficar melhor nos cálculos e no raciocínio lógico, o modelo também se saiu melhor nas questões de ciências exatas e biológicas.
O que Coelho fez foi filtrar um conjunto de exemplos relevantes e treinar a IA a partir de recompensas pelos seus acertos. A técnica, chamada de aprendizado de reforço, também ganhou fôlego após a Deepseek divulgar uma maneira de fazer uma segunda inteligência artificial avaliar quando dar o incentivo.
Ainda assim, o trabalho do estudante serve de exemplo das possibilidades abertas pela postura de conhecimento aberto adotada prioritariamente por empresas chinesas do ramo da IA. A estratégia visa acelerar o desenvolvimento tecnológico ao atrair outros desenvolvedores que também compartilham seus resultados.
Há mais de um relato de sucesso da abordagem, incluindo o caso de empresas e pesquisadores brasileiros que já trabalham em cima dos avanços divulgados pelos chineses.
Incubada no Porto Maravalley, da Prefeitura do Rio de Janeiro, a startup Dharma AI já desenvolve versões especialistas do Qwen e de outros pequenos modelos de linguagem para empresas, com financiamento da consultoria EloGroup.
O objetivo é ter produtos em plena operação nos próximos meses, de acordo com o CEO da empresa, Gustavo Renault.
Os serviços da Dharma teriam três diferenciais, diz o empreendedor: precisão, sustentabilidade e preço.
Em um teste feito em uma versão do Qwen treinada para realizar tarefas relacionadas à legislação brasileira, a ferramenta da Dharma obteve sucesso em 85% das situações, contra um índice de 68% do ChatGPT. O preço para executar a tarefa no pequeno modelo brasileiro foi de US$ 0,003, contra US$ 0,608 no ChatGPT.
Isso porque o Qwen, um exemplo de modelo de linguagem pequeno, tem 2,5 bilhões de parâmetros, enquanto o ChatGPT (um grande modelo), 1,6 trilhão de parâmetros. Cada parâmetro desse é uma conta matemática e resolver todos os cálculos custa a energia de supercomputadores rodando a toda potência.
“Um modelo pequeno consome por resposta 13 watts, enquanto um modelo grande como o GPT consome 700 watts de energia —é insustentável”, diz Renault.
De acordo com Renault, o produto mais viável da Dharma é uma IA capaz de ler texto manuscrito em português e reproduzi-lo digitalmente tão bem quanto o ChatGPT, a uma fração do preço da concorrente —US$ 0,50 contra US$ 8,00 da ferramenta americana.
O pulo do gato é que a tecnologia da Dharma se sai bem apenas em português, mas é o serviço que os clientes daqui procuram, diz Renault.
“A IA que vai fazer a manutenção na fábrica não precisa saber todas as músicas de Rolling Stones, Beatles e U2”, afirma Renault.
Na visão de pesquisadores e empresários consultados pela Folha, o nicho de mercado dos modelos pequenos e de código aberto apresenta as melhores oportunidades para o país.
O fundador do acelerador de startups Distrito, Gustavo Araújo, avalia que as técnicas popularizadas pela Deepseek nivelaram a disputa pelo desenvolvimento de IA. “Não é mais um cenário em que a OpenAI [do ChatGPT] vai ganhar e levar tudo.”
Renault, por outro lado, afirma que ainda existem poucas pessoas e empresas escolhendo a abordagem do código aberto no país e esse método tem na colaboração um de seus pilares.
Ele ainda reconhece que as IAs enxutas não ocuparão o lugar do ChatGPT. “Um pequeno modelo de linguagem não consegue ser o parceiro de chat que serve de oráculo, sabe de tudo e fala diversos idiomas”, diz.