O que são thinking tokens?
Modelos de linguagem tradicionais geram texto token a token, sem "rascunho" interno: o que você vê é o processo inteiro. Os Large Reasoning Models (LRMs) introduzem um passo intermediário — o modelo gera um bloco de raciocínio oculto (os thinking tokens) antes de produzir a resposta final [1].
Esses tokens de raciocínio não são exibidos ao usuário (ou são exibidos opcionalmente em algumas interfaces), mas influenciam diretamente o output. O modelo usa esse espaço para decompor o problema, verificar suposições, considerar casos extremos e corrigir erros antes de formular a resposta. É funcionalmente equivalente a um humano que faz um rascunho antes de escrever a versão final.
Como o o3 funciona: raciocínio escalável
O o3, lançado pela OpenAI em 2025, trouxe um conceito importante: raciocínio escalável [2]. O modelo oferece três modos de operação — low, medium e high — que correspondem a quantidades diferentes de thinking tokens consumidos antes de gerar a resposta.
No modo low, o o3 é rápido e econômico, adequado para tarefas de raciocínio simples. No modo high, o modelo pode gastar dezenas de milhares de tokens em raciocínio interno antes de responder — o que se traduz em performance equivalente ou superior à média de especialistas humanos em domínios como física, química e biologia do nível PhD [3].
"O o3 no modo high alcançou 87,5% no AIME 2024 e 87,7% no GPQA Diamond — benchmarks que a comunidade acreditava que levariam anos para ser atingidos por sistemas de IA."
— OpenAI, Technical Report o3, 2025
Gemini 2.5 DeepThink: raciocínio paralelo
O Google DeepMind adotou uma abordagem diferente para o Gemini 2.5 [4]. Enquanto o o3 raciocina de forma sequencial (passo a passo), o modo DeepThink do Gemini 2.5 Pro explora múltiplas hipóteses em paralelo antes de consolidar uma resposta. O modelo avalia várias linhas de raciocínio simultaneamente, o que melhora especialmente a performance em problemas onde a abordagem inicial pode ser um caminho morto.
Um dado interessante publicado pelo Google: o Gemini 3 Flash (a versão mais eficiente) usa 30% menos thinking tokens que o Gemini 2.5 Pro em tarefas típicas, mantendo performance comparável em tarefas de complexidade média.
GPT-5.4: o fim da divisão GPT / o-series
O avanço mais relevante de 2026 no campo do raciocínio foi a integração total pela OpenAI. O GPT-5.4 eliminou a divisão entre modelos de chat (GPT-4o) e modelos de raciocínio (série o) [5]. A nova arquitetura usa raciocínio em cadeia de forma adaptativa: para perguntas simples, responde direto; para problemas complexos, ativa thinking tokens automaticamente, sem que o usuário precise escolher o modelo correto.
Isso resolve um problema prático relevante para desenvolvedores: anteriormente, era necessário manter duas integrações diferentes (chat API e reasoning API) e implementar lógica de roteamento para decidir quando usar cada uma. Com GPT-5.4, um único endpoint adapta a profundidade de raciocínio automaticamente.
🔬 Diferença prática: Para um pipeline de análise de dados que responde tanto perguntas simples ("qual o total de vendas de março?") quanto complexas ("identifique anomalias na série temporal e sugira causas prováveis"), o GPT-5.4 trata ambas corretamente sem necessidade de roteamento manual.
Quando o raciocínio em cadeia realmente ajuda
Um estudo da Wharton School publicado em 2025 mostrou resultados surpreendentes: chain-of-thought prompting em modelos de linguagem não-reasoning melhora modestamente a acurácia média, mas aumenta significativamente a variância dos resultados [6]. Ou seja, o mesmo modelo pode acertar mais em algumas tarefas e errar mais em outras ao usar CoT.
Para os LRMs (o3, DeepThink, GPT-5.4), a pesquisa mostra que o raciocínio interno traz ganhos reais em:
- Problemas matemáticos e lógicos com múltiplos passos.
- Programação — especialmente debugging e geração de algoritmos complexos.
- Raciocínio científico — física, química, biologia em nível avançado.
- Tarefas de planejamento — onde é necessário considerar múltiplas sequências de ações.
O raciocínio interno não traz ganhos significativos em:
- Recuperação de fatos — o modelo já sabe a resposta ou não sabe; pensar mais não muda isso.
- Classificação simples — tarefas de sentimento, categorização, extração direta.
- Geração criativa — escrita, poesia, brainstorming não melhoram com mais raciocínio formal.
- Tradução — qualidade de tradução não é sensível a thinking tokens.
O problema do overthinking
LRMs podem sofrer de overthinking: consumir tokens de raciocínio excessivos em tarefas simples, verificando repetidamente a mesma conclusão ou explorando alternativas desnecessárias [7]. Isso tem duas consequências práticas — latência aumentada e custo mais alto — sem benefício de qualidade.
Pesquisas de 2026 (como "When Is Thinking Enough?" — arXiv 2604.06787) exploram mecanismos de early exit: o modelo aprende a identificar quando já tem confiança suficiente na resposta e interrompe o raciocínio antes de atingir o limite de tokens. Isso é especialmente relevante para aplicações de latência crítica.
💡 Regra prática para escolher entre LRM e LLM padrão: Use LRMs quando o problema tem uma resposta verificável e os erros do modelo base são do tipo "raciocínio incorreto" (não "conhecimento ausente"). Use LLMs padrão quando a tarefa é criativa, factual direta ou de volume alto onde custo é limitante.
DeepSeek R1 e a democratização do raciocínio
Um capítulo importante desta história é o DeepSeek R1, lançado pelo laboratório chinês DeepSeek em início de 2025 [8]. O R1 demonstrou performance de LRM comparável ao o3 em muitos benchmarks com uma fração do custo de treinamento — e foi lançado como modelo open-source, permitindo que qualquer equipe hospedasse um LRM localmente.
O impacto foi imediato: o custo de inferência de LRMs via DeepSeek R1 é 10–20× menor que os modelos proprietários equivalentes. Para casos de uso em que latência não é crítica e o custo é limitante, o R1 se tornou a escolha dominante em 2025.
Como integrar LRMs em pipelines de dados
Para profissionais de dados, LRMs abrem casos de uso que antes eram impraticáveis:
- NL-to-SQL complexo: queries com múltiplos JOINs, CTEs recursivas e lógica de negócio não trivial se beneficiam enormemente do raciocínio em cadeia.
- Geração de pipelines dbt: modelar relações entre tabelas, escolher granularidade e nomear campos corretamente requer raciocínio sobre o domínio de dados.
- Detecção de anomalias explicável: LRMs não apenas detectam — explicam o raciocínio, o que facilita validação humana.
- Code review automatizado: identificar bugs sutis de lógica de negócio requer raciocínio contextual que modelos padrão frequentemente perdem.
⚙️ Recomendação de arquitetura: Para pipelines mistos (parte das queries é simples, parte é complexa), use um roteador baseado na complexidade estimada da tarefa: queries simples vão para um modelo rápido e barato (GPT-4o mini, Gemini Flash); queries complexas vão para um LRM (o3 medium, GPT-5.4 com raciocínio adaptativo). A economia pode chegar a 70% do custo de inferência.
Referências
- Islam, N. Large Reasoning Models: The Complete Guide to Thinking AI (2025). Medium, 2025. Disponível em: medium.com
- OpenAI. OpenAI o3 and o4-mini System Card. OpenAI, 2025. Disponível em: openai.com
- Rein, D. et al. GPQA: A Graduate-Level Google-Proof Q&A Benchmark. arXiv:2311.12022, 2023. Disponível em: arxiv.org
- Google DeepMind. Gemini 2.5 Pro — DeepThink Technical Overview. Google DeepMind, 2026. Disponível em: deepmind.google
- OpenAI. GPT-5.4 — Unified Reasoning Architecture. OpenAI, março 2026. Disponível em: openai.com
- Wharton Generative AI Labs. The Decreasing Value of Chain of Thought in Prompting. Wharton, 2025. Disponível em: gail.wharton.upenn.edu
- Nicoomanesh, A. When Is Thinking Enough? Early Exit via Sufficiency Assessment. arXiv:2604.06787, 2026. Disponível em: arxiv.org
- DeepSeek. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948, 2025. Disponível em: arxiv.org
What are thinking tokens?
Traditional language models generate text token by token, without internal "drafting": what you see is the entire process. Large Reasoning Models (LRMs) introduce an intermediate step — the model generates a hidden reasoning block (the thinking tokens) before producing the final response [1]. This is functionally equivalent to a human making a draft before writing the final version.
When chain-of-thought reasoning actually helps
A Wharton School study published in 2025 showed surprising results: chain-of-thought prompting in non-reasoning models modestly improves average accuracy but significantly increases result variance [6]. For LRMs, internal reasoning brings real gains in multi-step math, programming, scientific reasoning, and planning tasks — but not in fact retrieval, simple classification, creative generation, or translation.
The overthinking problem
LRMs can suffer from overthinking: consuming excessive reasoning tokens on simple tasks, repeatedly verifying the same conclusion or exploring unnecessary alternatives [7]. Research on early exit mechanisms (arXiv 2604.06787) explores how models can learn to identify when they have sufficient confidence and stop reasoning before reaching token limits.
💡 Practical rule: Use LRMs when the problem has a verifiable answer and model errors come from incorrect reasoning (not missing knowledge). Use standard LLMs for creative, factual, or high-volume tasks where cost is a constraint.
References
- Islam, N. Large Reasoning Models: The Complete Guide to Thinking AI (2025). Medium, 2025. Available at: medium.com
- OpenAI. OpenAI o3 System Card. 2025. Available at: openai.com
- Wharton Generative AI Labs. The Decreasing Value of Chain of Thought in Prompting. 2025. Available at: gail.wharton.upenn.edu
- Nicoomanesh, A. When Is Thinking Enough? arXiv:2604.06787, 2026. Available at: arxiv.org
- DeepSeek. DeepSeek-R1. arXiv:2501.12948, 2025. Available at: arxiv.org
¿Qué son los thinking tokens?
Los Large Reasoning Models (LRMs) introducen un paso intermedio: el modelo genera un bloque de razonamiento oculto (thinking tokens) antes de producir la respuesta final [1]. El o3 de OpenAI, el DeepThink de Gemini 2.5 y el GPT-5.4 con razonamiento integrado representan el estado del arte en 2026.
Cuándo el razonamiento en cadena realmente ayuda
El razonamiento interno trae ganancias reales en matemáticas, programación, razonamiento científico y planificación. No trae mejoras significativas en recuperación de hechos, clasificación simple, generación creativa o traducción [6].
💡 Regla práctica: Usa LRMs cuando el problema tiene una respuesta verificable y los errores del modelo base son de tipo "razonamiento incorrecto". Usa LLMs estándar para tareas creativas, factuales directas o de alto volumen donde el costo es limitante.
Referencias
- Islam, N. Large Reasoning Models: The Complete Guide to Thinking AI. Medium, 2025. Disponible en: medium.com
- Wharton Generative AI Labs. Chain of Thought Report. 2025. Disponible en: gail.wharton.upenn.edu
- DeepSeek. DeepSeek-R1. arXiv:2501.12948, 2025. Disponible en: arxiv.org