Voltar ao blog
LLM Raciocínio IA Generativa

Large Reasoning Models: o3, DeepThink e a Era dos LLMs que Pensam

Em setembro de 2024, a OpenAI lançou o o1 e inaugurou uma nova categoria: modelos que "pensam antes de responder" usando tokens de raciocínio ocultos. O o3, o Gemini 2.5 DeepThink e o GPT-5.4 com raciocínio integrado consolidaram essa tendência. Este artigo explica o que são Large Reasoning Models, como funcionam os thinking tokens e, principalmente, quando o raciocínio em cadeia realmente vale a pena — e quando não vale.

MA
Allen87 Data Engineer
15 Mar 2026 · 12 min de leitura

O que são thinking tokens?

Modelos de linguagem tradicionais geram texto token a token, sem "rascunho" interno: o que você vê é o processo inteiro. Os Large Reasoning Models (LRMs) introduzem um passo intermediário — o modelo gera um bloco de raciocínio oculto (os thinking tokens) antes de produzir a resposta final [1].

Esses tokens de raciocínio não são exibidos ao usuário (ou são exibidos opcionalmente em algumas interfaces), mas influenciam diretamente o output. O modelo usa esse espaço para decompor o problema, verificar suposições, considerar casos extremos e corrigir erros antes de formular a resposta. É funcionalmente equivalente a um humano que faz um rascunho antes de escrever a versão final.

o1Set 2024 — primeiro LRM da OpenAI a alcançar escala comercial
o32025 — supera nível PhD humano no GPQA Diamond
~87%Score do o3 no AIME 2024 (olimpíada de matemática)
3 níveisO3 em low / medium / high — custo e qualidade escaláveis

Como o o3 funciona: raciocínio escalável

O o3, lançado pela OpenAI em 2025, trouxe um conceito importante: raciocínio escalável [2]. O modelo oferece três modos de operação — low, medium e high — que correspondem a quantidades diferentes de thinking tokens consumidos antes de gerar a resposta.

No modo low, o o3 é rápido e econômico, adequado para tarefas de raciocínio simples. No modo high, o modelo pode gastar dezenas de milhares de tokens em raciocínio interno antes de responder — o que se traduz em performance equivalente ou superior à média de especialistas humanos em domínios como física, química e biologia do nível PhD [3].

"O o3 no modo high alcançou 87,5% no AIME 2024 e 87,7% no GPQA Diamond — benchmarks que a comunidade acreditava que levariam anos para ser atingidos por sistemas de IA."
— OpenAI, Technical Report o3, 2025

Gemini 2.5 DeepThink: raciocínio paralelo

O Google DeepMind adotou uma abordagem diferente para o Gemini 2.5 [4]. Enquanto o o3 raciocina de forma sequencial (passo a passo), o modo DeepThink do Gemini 2.5 Pro explora múltiplas hipóteses em paralelo antes de consolidar uma resposta. O modelo avalia várias linhas de raciocínio simultaneamente, o que melhora especialmente a performance em problemas onde a abordagem inicial pode ser um caminho morto.

Um dado interessante publicado pelo Google: o Gemini 3 Flash (a versão mais eficiente) usa 30% menos thinking tokens que o Gemini 2.5 Pro em tarefas típicas, mantendo performance comparável em tarefas de complexidade média.

GPT-5.4: o fim da divisão GPT / o-series

O avanço mais relevante de 2026 no campo do raciocínio foi a integração total pela OpenAI. O GPT-5.4 eliminou a divisão entre modelos de chat (GPT-4o) e modelos de raciocínio (série o) [5]. A nova arquitetura usa raciocínio em cadeia de forma adaptativa: para perguntas simples, responde direto; para problemas complexos, ativa thinking tokens automaticamente, sem que o usuário precise escolher o modelo correto.

Isso resolve um problema prático relevante para desenvolvedores: anteriormente, era necessário manter duas integrações diferentes (chat API e reasoning API) e implementar lógica de roteamento para decidir quando usar cada uma. Com GPT-5.4, um único endpoint adapta a profundidade de raciocínio automaticamente.

🔬 Diferença prática: Para um pipeline de análise de dados que responde tanto perguntas simples ("qual o total de vendas de março?") quanto complexas ("identifique anomalias na série temporal e sugira causas prováveis"), o GPT-5.4 trata ambas corretamente sem necessidade de roteamento manual.

Quando o raciocínio em cadeia realmente ajuda

Um estudo da Wharton School publicado em 2025 mostrou resultados surpreendentes: chain-of-thought prompting em modelos de linguagem não-reasoning melhora modestamente a acurácia média, mas aumenta significativamente a variância dos resultados [6]. Ou seja, o mesmo modelo pode acertar mais em algumas tarefas e errar mais em outras ao usar CoT.

Para os LRMs (o3, DeepThink, GPT-5.4), a pesquisa mostra que o raciocínio interno traz ganhos reais em:

  • Problemas matemáticos e lógicos com múltiplos passos.
  • Programação — especialmente debugging e geração de algoritmos complexos.
  • Raciocínio científico — física, química, biologia em nível avançado.
  • Tarefas de planejamento — onde é necessário considerar múltiplas sequências de ações.

O raciocínio interno não traz ganhos significativos em:

  • Recuperação de fatos — o modelo já sabe a resposta ou não sabe; pensar mais não muda isso.
  • Classificação simples — tarefas de sentimento, categorização, extração direta.
  • Geração criativa — escrita, poesia, brainstorming não melhoram com mais raciocínio formal.
  • Tradução — qualidade de tradução não é sensível a thinking tokens.

O problema do overthinking

LRMs podem sofrer de overthinking: consumir tokens de raciocínio excessivos em tarefas simples, verificando repetidamente a mesma conclusão ou explorando alternativas desnecessárias [7]. Isso tem duas consequências práticas — latência aumentada e custo mais alto — sem benefício de qualidade.

Pesquisas de 2026 (como "When Is Thinking Enough?" — arXiv 2604.06787) exploram mecanismos de early exit: o modelo aprende a identificar quando já tem confiança suficiente na resposta e interrompe o raciocínio antes de atingir o limite de tokens. Isso é especialmente relevante para aplicações de latência crítica.

💡 Regra prática para escolher entre LRM e LLM padrão: Use LRMs quando o problema tem uma resposta verificável e os erros do modelo base são do tipo "raciocínio incorreto" (não "conhecimento ausente"). Use LLMs padrão quando a tarefa é criativa, factual direta ou de volume alto onde custo é limitante.

DeepSeek R1 e a democratização do raciocínio

Um capítulo importante desta história é o DeepSeek R1, lançado pelo laboratório chinês DeepSeek em início de 2025 [8]. O R1 demonstrou performance de LRM comparável ao o3 em muitos benchmarks com uma fração do custo de treinamento — e foi lançado como modelo open-source, permitindo que qualquer equipe hospedasse um LRM localmente.

O impacto foi imediato: o custo de inferência de LRMs via DeepSeek R1 é 10–20× menor que os modelos proprietários equivalentes. Para casos de uso em que latência não é crítica e o custo é limitante, o R1 se tornou a escolha dominante em 2025.

Como integrar LRMs em pipelines de dados

Para profissionais de dados, LRMs abrem casos de uso que antes eram impraticáveis:

  • NL-to-SQL complexo: queries com múltiplos JOINs, CTEs recursivas e lógica de negócio não trivial se beneficiam enormemente do raciocínio em cadeia.
  • Geração de pipelines dbt: modelar relações entre tabelas, escolher granularidade e nomear campos corretamente requer raciocínio sobre o domínio de dados.
  • Detecção de anomalias explicável: LRMs não apenas detectam — explicam o raciocínio, o que facilita validação humana.
  • Code review automatizado: identificar bugs sutis de lógica de negócio requer raciocínio contextual que modelos padrão frequentemente perdem.

⚙️ Recomendação de arquitetura: Para pipelines mistos (parte das queries é simples, parte é complexa), use um roteador baseado na complexidade estimada da tarefa: queries simples vão para um modelo rápido e barato (GPT-4o mini, Gemini Flash); queries complexas vão para um LRM (o3 medium, GPT-5.4 com raciocínio adaptativo). A economia pode chegar a 70% do custo de inferência.

Referências

  1. Islam, N. Large Reasoning Models: The Complete Guide to Thinking AI (2025). Medium, 2025. Disponível em: medium.com
  2. OpenAI. OpenAI o3 and o4-mini System Card. OpenAI, 2025. Disponível em: openai.com
  3. Rein, D. et al. GPQA: A Graduate-Level Google-Proof Q&A Benchmark. arXiv:2311.12022, 2023. Disponível em: arxiv.org
  4. Google DeepMind. Gemini 2.5 Pro — DeepThink Technical Overview. Google DeepMind, 2026. Disponível em: deepmind.google
  5. OpenAI. GPT-5.4 — Unified Reasoning Architecture. OpenAI, março 2026. Disponível em: openai.com
  6. Wharton Generative AI Labs. The Decreasing Value of Chain of Thought in Prompting. Wharton, 2025. Disponível em: gail.wharton.upenn.edu
  7. Nicoomanesh, A. When Is Thinking Enough? Early Exit via Sufficiency Assessment. arXiv:2604.06787, 2026. Disponível em: arxiv.org
  8. DeepSeek. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948, 2025. Disponível em: arxiv.org