O contexto: 2024 consolidou, 2025 acelerou
Se 2022 foi o ano do choque — com o lançamento do ChatGPT e a primeira onda de adoção em massa — e 2023 foi o ano da experimentação, 2024 consolidou a IA generativa como infraestrutura tecnológica crítica. Em 2025, a pergunta não é mais "se" organizações vão adotar modelos de linguagem grandes, mas "como", "com que velocidade" e, crucialmente, "com que governança".
O Stanford AI Index 2024 registrou que o número de modelos de linguagem lançados globalmente triplicou entre 2022 e 2024, enquanto o custo de inferência caiu cerca de 90% no mesmo período [4]. Esse declínio de custos — combinado com melhorias drásticas de qualidade — tornou o uso de LLMs acessível para startups, PMEs e até desenvolvedores individuais.
GPT-4o: multimodalidade como padrão, não exceção
O GPT-4o ("o" de omni) foi um marco arquitetural. Pela primeira vez, um único modelo processa texto, imagem e áudio de forma nativa — sem o "hack" de converter áudio em texto e depois processá-lo separadamente. O resultado prático é uma latência de resposta de voz que chegou a 232 ms em testes, aproximando a interação humano-máquina de uma conversa natural [1].
"O GPT-4o representa uma mudança de paradigma: saímos do modelo como 'oráculo de texto' para o modelo como agente perceptivo."
— OpenAI Research Blog, 2024
Para profissionais de dados, o GPT-4o abriu possibilidades concretas: análise de dashboards via imagem, extração de dados de PDFs escaneados sem OCR separado, e interpretação de gráficos diretamente. O Code Interpreter (hoje "Advanced Data Analysis") tornou-se uma ferramenta real de exploração de dados para usuários não-técnicos.
Claude 3.5 Sonnet e Opus: raciocínio e segurança de mãos dadas
A Anthropic lançou a família Claude 3 com três tamanhos: Haiku, Sonnet e Opus. O Claude 3.5 Sonnet rapidamente se tornou referência em benchmarks de raciocínio e geração de código, superando o GPT-4 em várias métricas do MMLU, HumanEval e GPQA [2].
O diferencial da Anthropic não é apenas técnico. A empresa foi pioneira em técnicas de Constitutional AI — uma abordagem onde o próprio modelo é treinado para avaliar suas respostas contra um conjunto de princípios. Isso resultou em menor taxa de alucinações factuais e maior consistência em tarefas longas, algo crítico para uso em fluxos de trabalho corporativos.
🔬 Para profissionais de dados: O Claude se destacou em tarefas de SQL generation, análise de datasets complexos e geração de pipelines de dados. Em testes internos na comunidade, o Claude 3.5 Sonnet apresentou menor taxa de erro em queries SQL com múltiplos JOINs e subconsultas em comparação com modelos concorrentes.
Gemini 1.5 Pro: a revolução do contexto longo
Se existe uma inovação de 2024-2025 que mais impacta o trabalho com dados, é a janela de contexto de 1 milhão de tokens do Gemini 1.5 Pro [3]. Para colocar em perspectiva: isso é suficiente para processar aproximadamente 750.000 palavras, ou cerca de 1.500 páginas de texto, em uma única chamada de API.
Na prática, isso significa:
- Analisar uma base de código inteira de uma vez
- Processar relatórios anuais de múltiplas empresas em uma única query
- Manter contexto de conversas longas sem truncamento
- Incorporar documentação técnica completa no prompt
Open Source: Llama 3 e a democratização da IA
A Meta lançou o Llama 3 em três tamanhos (8B, 70B e 405B parâmetros), com licença que permite uso comercial para empresas com até 700M usuários mensais ativos [5]. O impacto foi imediato: em semanas, surgiu um ecossistema de modelos derivados (fine-tunes) especializados em código, medicina, jurídico e idiomas específicos.
O Llama 3 70B atingiu performance comparável ao GPT-3.5 em vários benchmarks, executando em hardware de consumo com quantização adequada. Para empresas com restrições de privacidade de dados — como saúde e finanças —, rodar um LLM on-premise de qualidade passou de aspiração a realidade.
Agentes Autônomos: da teoria à prática (turbulenta)
2025 foi o ano em que os "agentes de IA" saíram dos papers acadêmicos e chegaram aos ambientes de produção — com resultados mistos. Ferramentas como AutoGPT, CrewAI, LangGraph e o próprio framework de Assistants da OpenAI permitiram criar agentes que executam múltiplos passos autonomamente: pesquisam na web, chamam APIs, escrevem e executam código.
Os casos de sucesso são reais. Mas também os desafios: agentes tendem a "alucinar ações" (executar passos desnecessários), têm dificuldade em recuperar de erros, e o custo computacional pode explodir rapidamente. A lição de 2025 é clara: agentes funcionam melhor em domínios bem delimitados com validação humana no loop.
EU AI Act: o início da era regulatória
O Regulamento de Inteligência Artificial da União Europeia entrou em vigor em agosto de 2024, com implementação gradual até 2026 [6]. A lei adota uma abordagem de risco hierárquico: sistemas de IA classificados como "risco inaceitável" (manipulação subliminar, scoring social em tempo real) são proibidos; sistemas de "alto risco" (saúde, educação, emprego, infraestrutura crítica) exigem documentação, testes e supervisão humana rigorosos.
Para o Brasil, o impacto é indireto mas real: empresas que exportam para a UE, subsidiárias de multinacionais europeias e organizações que processam dados de cidadãos europeus precisarão se adequar. O debate sobre um marco regulatório brasileiro de IA ganhou força em 2025, com o PL 2338/2023 em tramitação no Senado.
O que esperar do restante de 2025
Com base nos papers publicados, comunicados de roadmap e tendências de mercado, alguns desenvolvimentos são quase certos para os próximos meses:
- Modelos de raciocínio "chain-of-thought" como padrão: O OpenAI o1 e o Google Gemini Thinking mostram que raciocinar passo a passo antes de responder melhora dramaticamente a precisão em problemas complexos.
- IA multimodal em vídeo: Sora (OpenAI), Veo (Google) e modelos similares tornarão a geração de vídeo tão acessível quanto a de texto hoje.
- Compressão de modelos: Modelos menores com desempenho comparável a grandes — via destilação e quantização — dominarão deployments edge.
- Ferramentas de dados com IA integrada: Power BI Copilot, Looker AI e BigQuery ML integrarão LLMs nativamente, reduzindo a barreira para análise self-service.
💡 Takeaway para profissionais de dados: A habilidade mais valiosa de 2025 não é saber usar um LLM específico — é saber quando e como integrá-lo de forma que gere valor real e auditável. Domine RAG, avaliação de modelos (eval) e pipelines de dados confiáveis. Esses fundamentos duram mais do que qualquer modelo específico.
Referências
- OpenAI. Hello GPT-4o. OpenAI Blog, maio 2024. Disponível em: openai.com
- Anthropic. Claude 3.5 Sonnet Model Card. Anthropic Research, junho 2024. Disponível em: anthropic.com/research
- Google DeepMind. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv:2403.05530, 2024.
- Stanford HAI. Artificial Intelligence Index Report 2024. Stanford University, 2024. Disponível em: aiindex.stanford.edu
- Meta AI. The Llama 3 Herd of Models. arXiv:2407.21783, 2024.
- Parlamento Europeu. Regulamento (UE) 2024/1689 — Artificial Intelligence Act. Jornal Oficial da UE, agosto 2024. Disponível em: eur-lex.europa.eu
Context: 2024 consolidated, 2025 accelerated
If 2022 was the year of shock — with the launch of ChatGPT and the first wave of mass adoption — and 2023 was the year of experimentation, 2024 consolidated generative AI as critical technological infrastructure. In 2025, the question is no longer "if" organizations will adopt large language models, but "how", "how fast", and, crucially, "with what governance".
The Stanford AI Index 2024 recorded that the number of language models launched globally tripled between 2022 and 2024, while inference costs fell approximately 90% over the same period [4]. This cost decline — combined with dramatic quality improvements — made LLM usage accessible to startups, SMEs, and even individual developers.
GPT-4o: multimodality as standard, not exception
GPT-4o ("o" for omni) was an architectural milestone. For the first time, a single model natively processes text, image, and audio — without the "hack" of converting audio to text and then processing it separately. The practical result is a voice response latency reaching 232ms in tests, bringing human-machine interaction closer to natural conversation [1].
"GPT-4o represents a paradigm shift: we moved from the model as 'text oracle' to the model as a perceptive agent."
— OpenAI Research Blog, 2024
For data professionals, GPT-4o opened concrete possibilities: analyzing dashboards via image, extracting data from scanned PDFs without separate OCR, and interpreting charts directly. The Code Interpreter (now "Advanced Data Analysis") became a real data exploration tool for non-technical users.
Claude 3.5 Sonnet and Opus: reasoning and safety hand in hand
Anthropic launched the Claude 3 family in three sizes: Haiku, Sonnet, and Opus. Claude 3.5 Sonnet quickly became the benchmark reference for reasoning and code generation, surpassing GPT-4 on several MMLU, HumanEval, and GPQA metrics [2].
Anthropic's differentiator is not just technical. The company pioneered Constitutional AI techniques — an approach where the model itself is trained to evaluate its responses against a set of principles. This resulted in lower factual hallucination rates and greater consistency on long tasks, critical for use in corporate workflows.
🔬 For data professionals: Claude excelled at SQL generation, complex dataset analysis, and data pipeline generation. In community internal tests, Claude 3.5 Sonnet showed lower error rates on SQL queries with multiple JOINs and subqueries compared to competing models.
Gemini 1.5 Pro: the long-context revolution
If there is one 2024-2025 innovation that most impacts data work, it's the 1 million token context window of Gemini 1.5 Pro [3]. To put it in perspective: that's enough to process approximately 750,000 words, or about 1,500 pages of text, in a single API call.
In practice, this means:
- Analyzing an entire codebase at once
- Processing annual reports from multiple companies in a single query
- Maintaining context across long conversations without truncation
- Embedding complete technical documentation in the prompt
Open Source: Llama 3 and the democratization of AI
Meta released Llama 3 in three sizes (8B, 70B, and 405B parameters), with a license allowing commercial use for companies with up to 700M monthly active users [5]. The impact was immediate: within weeks, an ecosystem of derivative models (fine-tunes) emerged, specialized in code, medicine, legal, and specific languages.
The Llama 3 70B reached performance comparable to GPT-3.5 on several benchmarks, running on consumer hardware with adequate quantization. For companies with data privacy constraints — such as healthcare and finance — running a quality LLM on-premise moved from aspiration to reality.
Autonomous Agents: from theory to (turbulent) practice
2025 was the year AI "agents" left academic papers and reached production environments — with mixed results. Tools like AutoGPT, CrewAI, LangGraph, and OpenAI's own Assistants framework allowed creating agents that execute multiple steps autonomously: searching the web, calling APIs, writing and executing code.
Success cases are real. But so are the challenges: agents tend to "hallucinate actions," have difficulty recovering from errors, and computational costs can explode quickly. The lesson of 2025 is clear: agents work best in well-defined domains with human validation in the loop.
EU AI Act: the beginning of the regulatory era
The European Union's Artificial Intelligence Act came into effect in August 2024, with gradual implementation through 2026 [6]. The law adopts a hierarchical risk approach: AI systems classified as "unacceptable risk" (subliminal manipulation, real-time social scoring) are banned; "high risk" systems (health, education, employment, critical infrastructure) require rigorous documentation, testing, and human oversight.
What to expect for the rest of 2025
- Chain-of-thought reasoning models as standard: OpenAI o1 and Google Gemini Thinking show that reasoning step-by-step before answering dramatically improves accuracy on complex problems.
- Multimodal AI in video: Sora (OpenAI), Veo (Google) and similar models will make video generation as accessible as text generation is today.
- Model compression: Smaller models with comparable performance — via distillation and quantization — will dominate edge deployments.
- AI-integrated data tools: Power BI Copilot, Looker AI and BigQuery ML will natively integrate LLMs, lowering the barrier to self-service analytics.
💡 Takeaway for data professionals: The most valuable skill of 2025 is not knowing how to use a specific LLM — it's knowing when and how to integrate it in a way that generates real, auditable value. Master RAG, model evaluation (eval), and reliable data pipelines. These fundamentals outlast any specific model.
References
- OpenAI. Hello GPT-4o. OpenAI Blog, May 2024. Available at: openai.com
- Anthropic. Claude 3.5 Sonnet Model Card. Anthropic Research, June 2024. Available at: anthropic.com/research
- Google DeepMind. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv:2403.05530, 2024.
- Stanford HAI. Artificial Intelligence Index Report 2024. Stanford University, 2024. Available at: aiindex.stanford.edu
- Meta AI. The Llama 3 Herd of Models. arXiv:2407.21783, 2024.
- European Parliament. Regulation (EU) 2024/1689 — Artificial Intelligence Act. Official Journal of the EU, August 2024. Available at: eur-lex.europa.eu
Contexto: 2024 consolidó, 2025 aceleró
Si 2022 fue el año del impacto — con el lanzamiento de ChatGPT y la primera ola de adopción masiva — y 2023 fue el año de la experimentación, 2024 consolidó la IA generativa como infraestructura tecnológica crítica. En 2025, la pregunta ya no es "si" las organizaciones adoptarán grandes modelos de lenguaje, sino "cómo", "con qué velocidad" y, crucialmente, "con qué gobernanza".
El Stanford AI Index 2024 registró que el número de modelos de lenguaje lanzados globalmente se triplicó entre 2022 y 2024, mientras que los costos de inferencia cayeron aproximadamente un 90% en el mismo período [4]. Esta caída de costos — combinada con mejoras dramáticas en calidad — hizo que el uso de LLMs sea accesible para startups, PYMEs e incluso desarrolladores individuales.
GPT-4o: multimodalidad como estándar, no excepción
GPT-4o ("o" de omni) fue un hito arquitectónico. Por primera vez, un único modelo procesa texto, imagen y audio de forma nativa — sin el "hack" de convertir audio a texto y luego procesarlo por separado. El resultado práctico es una latencia de respuesta de voz que llegó a 232 ms en pruebas, acercando la interacción humano-máquina a una conversación natural [1].
Claude 3.5 Sonnet y Opus: razonamiento y seguridad juntos
Anthropic lanzó la familia Claude 3 en tres tamaños: Haiku, Sonnet y Opus. El Claude 3.5 Sonnet rápidamente se convirtió en referencia en benchmarks de razonamiento y generación de código, superando a GPT-4 en varias métricas de MMLU, HumanEval y GPQA [2]. La empresa fue pionera en técnicas de Constitutional AI, resultando en menor tasa de alucinaciones y mayor consistencia en tareas largas.
Gemini 1.5 Pro: la revolución del contexto largo
La ventana de contexto de 1 millón de tokens del Gemini 1.5 Pro [3] es suficiente para procesar aproximadamente 750.000 palabras en una sola llamada de API. Para profesionales de datos, esto significa: analizar una base de código completa, procesar informes anuales de múltiples empresas en una sola consulta, e incorporar documentación técnica completa en el prompt.
Open Source: Llama 3 y la democratización de la IA
Meta lanzó Llama 3 en tres tamaños (8B, 70B y 405B parámetros), con licencia que permite uso comercial [5]. Para empresas con restricciones de privacidad de datos — como salud y finanzas — ejecutar un LLM de calidad on-premise pasó de aspiración a realidad.
Agentes Autónomos: de la teoría a la práctica
2025 fue el año en que los "agentes de IA" salieron de los papers académicos y llegaron a los entornos de producción. La lección es clara: los agentes funcionan mejor en dominios bien delimitados con validación humana en el bucle.
EU AI Act: el inicio de la era regulatoria
El Reglamento de Inteligencia Artificial de la Unión Europea entró en vigor en agosto de 2024 [6]. Adopta un enfoque de riesgo jerárquico: sistemas de "riesgo inaceptable" están prohibidos; sistemas de "alto riesgo" requieren documentación y supervisión humana rigurosas.
Lo que esperar del resto de 2025
- Modelos de razonamiento chain-of-thought como estándar
- IA multimodal en video: Sora, Veo y modelos similares
- Compresión de modelos: modelos más pequeños con rendimiento comparable
- Herramientas de datos con IA integrada: Power BI Copilot, Looker AI, BigQuery ML
Referencias
- OpenAI. Hello GPT-4o. OpenAI Blog, mayo 2024. Disponible en: openai.com
- Anthropic. Claude 3.5 Sonnet Model Card. Anthropic Research, junio 2024. Disponible en: anthropic.com/research
- Google DeepMind. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv:2403.05530, 2024.
- Stanford HAI. Artificial Intelligence Index Report 2024. Stanford University, 2024. Disponible en: aiindex.stanford.edu
- Meta AI. The Llama 3 Herd of Models. arXiv:2407.21783, 2024.
- Parlamento Europeo. Reglamento (UE) 2024/1689 — Artificial Intelligence Act. Diario Oficial de la UE, agosto 2024.