Large Reasoning Models: o3, DeepThink e a Era dos LLMs que Pensam

O que são thinking tokens?

Modelos de linguagem tradicionais geram texto token a token, sem "rascunho" interno: o que você vê é o processo inteiro. Os Large Reasoning Models (LRMs) introduzem um passo intermediário — o modelo gera um bloco de raciocínio oculto (os thinking tokens) antes de produzir a resposta final ^[1].

Esses tokens de raciocínio não são exibidos ao usuário (ou são exibidos opcionalmente em algumas interfaces), mas influenciam diretamente o output. O modelo usa esse espaço para decompor o problema, verificar suposições, considerar casos extremos e corrigir erros antes de formular a resposta. É funcionalmente equivalente a um humano que faz um rascunho antes de escrever a versão final.

o1Set 2024 — primeiro LRM da OpenAI a alcançar escala comercial

o32025 — supera nível PhD humano no GPQA Diamond

~87%Score do o3 no AIME 2024 (olimpíada de matemática)

3 níveisO3 em low / medium / high — custo e qualidade escaláveis

Como o o3 funciona: raciocínio escalável

O o3, lançado pela OpenAI em 2025, trouxe um conceito importante: raciocínio escalável ^[2]. O modelo oferece três modos de operação — low, medium e high — que correspondem a quantidades diferentes de thinking tokens consumidos antes de gerar a resposta.

No modo low, o o3 é rápido e econômico, adequado para tarefas de raciocínio simples. No modo high, o modelo pode gastar dezenas de milhares de tokens em raciocínio interno antes de responder — o que se traduz em performance equivalente ou superior à média de especialistas humanos em domínios como física, química e biologia do nível PhD ^[3].

"O o3 no modo high alcançou 87,5% no AIME 2024 e 87,7% no GPQA Diamond — benchmarks que a comunidade acreditava que levariam anos para ser atingidos por sistemas de IA."
— OpenAI, Technical Report o3, 2025

Gemini 2.5 DeepThink: raciocínio paralelo

O Google DeepMind adotou uma abordagem diferente para o Gemini 2.5 ^[4]. Enquanto o o3 raciocina de forma sequencial (passo a passo), o modo DeepThink do Gemini 2.5 Pro explora múltiplas hipóteses em paralelo antes de consolidar uma resposta. O modelo avalia várias linhas de raciocínio simultaneamente, o que melhora especialmente a performance em problemas onde a abordagem inicial pode ser um caminho morto.

Um dado interessante publicado pelo Google: o Gemini 3 Flash (a versão mais eficiente) usa 30% menos thinking tokens que o Gemini 2.5 Pro em tarefas típicas, mantendo performance comparável em tarefas de complexidade média.

GPT-5.4: o fim da divisão GPT / o-series

O avanço mais relevante de 2026 no campo do raciocínio foi a integração total pela OpenAI. O GPT-5.4 eliminou a divisão entre modelos de chat (GPT-4o) e modelos de raciocínio (série o) ^[5]. A nova arquitetura usa raciocínio em cadeia de forma adaptativa: para perguntas simples, responde direto; para problemas complexos, ativa thinking tokens automaticamente, sem que o usuário precise escolher o modelo correto.

Isso resolve um problema prático relevante para desenvolvedores: anteriormente, era necessário manter duas integrações diferentes (chat API e reasoning API) e implementar lógica de roteamento para decidir quando usar cada uma. Com GPT-5.4, um único endpoint adapta a profundidade de raciocínio automaticamente.

🔬 Diferença prática: Para um pipeline de análise de dados que responde tanto perguntas simples ("qual o total de vendas de março?") quanto complexas ("identifique anomalias na série temporal e sugira causas prováveis"), o GPT-5.4 trata ambas corretamente sem necessidade de roteamento manual.

Quando o raciocínio em cadeia realmente ajuda

Um estudo da Wharton School publicado em 2025 mostrou resultados surpreendentes: chain-of-thought prompting em modelos de linguagem não-reasoning melhora modestamente a acurácia média, mas aumenta significativamente a variância dos resultados ^[6]. Ou seja, o mesmo modelo pode acertar mais em algumas tarefas e errar mais em outras ao usar CoT.

Para os LRMs (o3, DeepThink, GPT-5.4), a pesquisa mostra que o raciocínio interno traz ganhos reais em:

Problemas matemáticos e lógicos com múltiplos passos.
Programação — especialmente debugging e geração de algoritmos complexos.
Raciocínio científico — física, química, biologia em nível avançado.
Tarefas de planejamento — onde é necessário considerar múltiplas sequências de ações.

O raciocínio interno não traz ganhos significativos em:

Recuperação de fatos — o modelo já sabe a resposta ou não sabe; pensar mais não muda isso.
Classificação simples — tarefas de sentimento, categorização, extração direta.
Geração criativa — escrita, poesia, brainstorming não melhoram com mais raciocínio formal.
Tradução — qualidade de tradução não é sensível a thinking tokens.

O problema do overthinking

LRMs podem sofrer de overthinking: consumir tokens de raciocínio excessivos em tarefas simples, verificando repetidamente a mesma conclusão ou explorando alternativas desnecessárias ^[7]. Isso tem duas consequências práticas — latência aumentada e custo mais alto — sem benefício de qualidade.

Pesquisas de 2026 (como "When Is Thinking Enough?" — arXiv 2604.06787) exploram mecanismos de early exit: o modelo aprende a identificar quando já tem confiança suficiente na resposta e interrompe o raciocínio antes de atingir o limite de tokens. Isso é especialmente relevante para aplicações de latência crítica.

💡 Regra prática para escolher entre LRM e LLM padrão: Use LRMs quando o problema tem uma resposta verificável e os erros do modelo base são do tipo "raciocínio incorreto" (não "conhecimento ausente"). Use LLMs padrão quando a tarefa é criativa, factual direta ou de volume alto onde custo é limitante.

DeepSeek R1 e a democratização do raciocínio

Um capítulo importante desta história é o DeepSeek R1, lançado pelo laboratório chinês DeepSeek em início de 2025 ^[8]. O R1 demonstrou performance de LRM comparável ao o3 em muitos benchmarks com uma fração do custo de treinamento — e foi lançado como modelo open-source, permitindo que qualquer equipe hospedasse um LRM localmente.

O impacto foi imediato: o custo de inferência de LRMs via DeepSeek R1 é 10–20× menor que os modelos proprietários equivalentes. Para casos de uso em que latência não é crítica e o custo é limitante, o R1 se tornou a escolha dominante em 2025.

Como integrar LRMs em pipelines de dados

Para profissionais de dados, LRMs abrem casos de uso que antes eram impraticáveis:

NL-to-SQL complexo: queries com múltiplos JOINs, CTEs recursivas e lógica de negócio não trivial se beneficiam enormemente do raciocínio em cadeia.
Geração de pipelines dbt: modelar relações entre tabelas, escolher granularidade e nomear campos corretamente requer raciocínio sobre o domínio de dados.
Detecção de anomalias explicável: LRMs não apenas detectam — explicam o raciocínio, o que facilita validação humana.
Code review automatizado: identificar bugs sutis de lógica de negócio requer raciocínio contextual que modelos padrão frequentemente perdem.

⚙️ Recomendação de arquitetura: Para pipelines mistos (parte das queries é simples, parte é complexa), use um roteador baseado na complexidade estimada da tarefa: queries simples vão para um modelo rápido e barato (GPT-4o mini, Gemini Flash); queries complexas vão para um LRM (o3 medium, GPT-5.4 com raciocínio adaptativo). A economia pode chegar a 70% do custo de inferência.

Referências

Islam, N. Large Reasoning Models: The Complete Guide to Thinking AI (2025). Medium, 2025. Disponível em: medium.com
OpenAI. OpenAI o3 and o4-mini System Card. OpenAI, 2025. Disponível em: openai.com
Rein, D. et al. GPQA: A Graduate-Level Google-Proof Q&A Benchmark. arXiv:2311.12022, 2023. Disponível em: arxiv.org
Google DeepMind. Gemini 2.5 Pro — DeepThink Technical Overview. Google DeepMind, 2026. Disponível em: deepmind.google
OpenAI. GPT-5.4 — Unified Reasoning Architecture. OpenAI, março 2026. Disponível em: openai.com
Wharton Generative AI Labs. The Decreasing Value of Chain of Thought in Prompting. Wharton, 2025. Disponível em: gail.wharton.upenn.edu
Nicoomanesh, A. When Is Thinking Enough? Early Exit via Sufficiency Assessment. arXiv:2604.06787, 2026. Disponível em: arxiv.org
DeepSeek. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948, 2025. Disponível em: arxiv.org

What are thinking tokens?

Traditional language models generate text token by token, without internal "drafting": what you see is the entire process. Large Reasoning Models (LRMs) introduce an intermediate step — the model generates a hidden reasoning block (the thinking tokens) before producing the final response ^[1]. This is functionally equivalent to a human making a draft before writing the final version.

o1Sep 2024 — first commercial-scale LRM from OpenAI

o32025 — surpasses human PhD level on GPQA Diamond

~87%o3 score on AIME 2024 (math olympiad)

3 levelso3 in low / medium / high — scalable cost and quality

When chain-of-thought reasoning actually helps

A Wharton School study published in 2025 showed surprising results: chain-of-thought prompting in non-reasoning models modestly improves average accuracy but significantly increases result variance ^[6]. For LRMs, internal reasoning brings real gains in multi-step math, programming, scientific reasoning, and planning tasks — but not in fact retrieval, simple classification, creative generation, or translation.

The overthinking problem

LRMs can suffer from overthinking: consuming excessive reasoning tokens on simple tasks, repeatedly verifying the same conclusion or exploring unnecessary alternatives ^[7]. Research on early exit mechanisms (arXiv 2604.06787) explores how models can learn to identify when they have sufficient confidence and stop reasoning before reaching token limits.

💡 Practical rule: Use LRMs when the problem has a verifiable answer and model errors come from incorrect reasoning (not missing knowledge). Use standard LLMs for creative, factual, or high-volume tasks where cost is a constraint.

References

Islam, N. Large Reasoning Models: The Complete Guide to Thinking AI (2025). Medium, 2025. Available at: medium.com
OpenAI. OpenAI o3 System Card. 2025. Available at: openai.com
Wharton Generative AI Labs. The Decreasing Value of Chain of Thought in Prompting. 2025. Available at: gail.wharton.upenn.edu
Nicoomanesh, A. When Is Thinking Enough? arXiv:2604.06787, 2026. Available at: arxiv.org
DeepSeek. DeepSeek-R1. arXiv:2501.12948, 2025. Available at: arxiv.org

¿Qué son los thinking tokens?

Los Large Reasoning Models (LRMs) introducen un paso intermedio: el modelo genera un bloque de razonamiento oculto (thinking tokens) antes de producir la respuesta final ^[1]. El o3 de OpenAI, el DeepThink de Gemini 2.5 y el GPT-5.4 con razonamiento integrado representan el estado del arte en 2026.

o32025 — supera nivel PhD humano en GPQA Diamond

~87%Score del o3 en AIME 2024

R1DeepSeek R1 — LRM open-source 10-20× más barato

3 modosLow / medium / high — calidad y costo escalables

Cuándo el razonamiento en cadena realmente ayuda

El razonamiento interno trae ganancias reales en matemáticas, programación, razonamiento científico y planificación. No trae mejoras significativas en recuperación de hechos, clasificación simple, generación creativa o traducción ^[6].

💡 Regla práctica: Usa LRMs cuando el problema tiene una respuesta verificable y los errores del modelo base son de tipo "razonamiento incorrecto". Usa LLMs estándar para tareas creativas, factuales directas o de alto volumen donde el costo es limitante.

Referencias

Islam, N. Large Reasoning Models: The Complete Guide to Thinking AI. Medium, 2025. Disponible en: medium.com
Wharton Generative AI Labs. Chain of Thought Report. 2025. Disponible en: gail.wharton.upenn.edu
DeepSeek. DeepSeek-R1. arXiv:2501.12948, 2025. Disponible en: arxiv.org

Large Reasoning Models: o3, DeepThink e a Era dos LLMs que Pensam

Large Reasoning Models: o3, DeepThink and the Era of Thinking LLMs

Large Reasoning Models: o3, DeepThink y la Era de los LLMs que Piensan

O que são thinking tokens?

Como o o3 funciona: raciocínio escalável

Gemini 2.5 DeepThink: raciocínio paralelo

GPT-5.4: o fim da divisão GPT / o-series

Quando o raciocínio em cadeia realmente ajuda

O problema do overthinking

DeepSeek R1 e a democratização do raciocínio

Como integrar LRMs em pipelines de dados

Referências

What are thinking tokens?

When chain-of-thought reasoning actually helps

The overthinking problem

References

¿Qué son los thinking tokens?

Cuándo el razonamiento en cadena realmente ayuda

Referencias

O que são thinking tokens?

Como o o3 funciona: raciocínio escalável

Gemini 2.5 DeepThink: raciocínio paralelo

GPT-5.4: o fim da divisão GPT / o-series

Quando o raciocínio em cadeia realmente ajuda

O problema do overthinking

DeepSeek R1 e a democratização do raciocínio

Como integrar LRMs em pipelines de dados

Referências

What are thinking tokens?

When chain-of-thought reasoning actually helps

The overthinking problem

References

¿Qué son los thinking tokens?

Cuándo el razonamiento en cadena realmente ayuda

Referencias

Leia também

LLMs nas Empresas: Como Implementar com Segurança LLMs in Business: How to Implement Safely LLMs en las Empresas: Cómo Implementar con Seguridad

IA Generativa Multimodal em 2026: GPT-5, Claude e Gemini Multimodal Generative AI in 2026: GPT-5, Claude and Gemini IA Generativa Multimodal en 2026: GPT-5, Claude y Gemini

LLMs nas Empresas: Como Implementar com Segurança

IA Generativa Multimodal em 2026: GPT-5, Claude e Gemini