O Grok 3 do xAI é melhor do que o esperado. Como experimentá-lo gratuitamente (antes de se inscrever)
O novo modelo do xAI sobe ao topo das tabelas de classificação do Chatbot Arena e dos resultados de benchmark.
Elon Musk era um investidor da OpenAI quando foi fundada em 2015. Desde então, ele cortou completamente seus laços com a startup, alegando que a empresa se afastou de sua missão original sem fins lucrativos. Ele criou sua própria empresa de IA, xAI, e com ela, um grande modelo de linguagem (LLM) chamado Grok. Agora, a empresa lançou um novo modelo, o Grok 3, que está subindo para o topo das tabelas de classificação do chatbot.
Grok 3
Na segunda-feira, Elon Musk lançou a mais recente família de modelos de IA da xAI, Grok 3, por meio de uma transmissão ao vivo. O Grok 3 possui 10 vezes mais treinamento do que o Grok 2, possibilitado pela criação da xAI de seu próprio data center em Memphis, Tennessee, lar de 200.000 GPUs.
"Estamos entusiasmados em apresentar o Grok 3, que achamos ser uma ordem de magnitude mais capaz do que o Grok 2", disse Musk durante a transmissão ao vivo.
A família de modelos também inclui um modelo de raciocínio, que se baseia no Grok 3. Como outros modelos de raciocínio no mercado, incluindo os modelos o1 e o3 da OpenAI, a versão beta do Grok 3 Reasoning pensa um pouco mais para produzir resultados de maior qualidade.
Todos os modelos Grok 3 destinam-se a competir com os modelos líderes. O Grok 3 compete com o GPT-4o da OpenAI e o Gemini do Google, e o Grok 3 Reasoning compete com 03-mini (alto), o1 e Deepseek-R1. Com menos de 24 horas no mercado, as ofertas da xAI estão dominando benchmarks e tabelas de classificação.
Desempenho
O pré-treinamento do modelo terminou no início de janeiro e, embora ainda esteja em treinamento, o Grok 3 superou os principais modelos em benchmarks de IA, incluindo o AIME '24, que testa o raciocínio matemático; GPQA, que testa a proficiência em ciências, especificamente biologia, física e química; e o LCB de outubro a fevereiro, que testa os recursos de codificação.
O modelo de raciocínio Grok 3 e o mini modelo de raciocínio Grok 3 ainda estão sendo desenvolvidos, mas de acordo com os resultados compartilhados pelo xAI durante a transmissão ao vivo, os betas de ambos os modelos tiveram um desempenho competitivo contra o3-mini (alto), o1, DeepSeek-R1 e Gemini-2 Flash Thinking no AIME, GPQA e LCB.
Além dos benchmarks técnicos, o Grok 3 subiu nas paradas na Chatbot Arena, uma plataforma de crowdsourcing onde os usuários podem avaliar LLMs conversando com dois LLMs lado a lado e comparando suas respostas entre si sem saber os nomes dos modelos.
Antes do lançamento oficial do Grok 3, uma versão inicial do modelo foi executada na Arena sob o título "chocolate" e ficou em primeiro lugar acima de Gemini, GPT-4o, DeepSeek r1 e mais em todas as categorias. Também se tornou o primeiro modelo a quebrar uma pontuação de 1400 na Arena.
Pesquisa Profunda
Para atender à demanda por recursos agenciais, a xAI também lançou o DeepSearch, que é semelhante aos recursos de pesquisa profunda da OpenAI e do Google. Com o DeepSearch, os usuários podem fazer uma pergunta e o Grok pensará sobre isso, pesquisará na web, produzirá seu processo de pensamento à medida que avança e, em seguida, gerará uma resposta final e robusta com dados e tabelas, conforme necessário. Isso significa que você pode pedir para pesquisar um tópico, voltar 10 minutos depois e a tarefa será concluída.
Um dos maiores destaques é ser capaz de percorrer os pensamentos de Grok - "lendo a mente de Grok" - e entender como ele chegou à sua resposta final. Isso torna a experiência mais direcionável e ajuda você a entender melhor seus resultados.
Como acessar
A partir de hoje, você pode acessar alguns dos modelos Grok em beta. O Grok 3 está disponível no X Premium+, que também concede aos usuários acesso aos recursos mais recentes, um limite de uso aumentado, acesso ao DeepSearch e modos de raciocínio avançados clicando nas opções "Think" ou "Big Brain".
A assinatura do X Premium + custa US $40 por mês, acima dos US $22 antes do anúncio, conforme observado pelo TechCrunch, e os assinantes devem atualizar o aplicativo para ver as atualizações.
O xAI também revelou um novo nível de assinatura, o SuperGrok, semelhante ao ChatGPT Pro, destinado a super fãs que desejam o acesso mais rápido possível aos recursos mais avançados. O preço deste plano ainda não foi compartilhado, mas você pode esperar que seja um centavo alto, já que a assinatura Pro da OpenAI custa $200 por mês.
Para a versão mais polida, Musk incentiva os usuários a esperar uma semana. Até lá, uma nova integração de voz provavelmente estará pronta para ser implantada.
Se você preferir participar da Chatbot Arena para experimentar o Grok 3, visite o site, clique em Arena lado a lado, escolha "early-grok-3" no menu suspenso e insira um exemplo de prompt. Mesmo que a arena ainda tenha uma versão inicial do Grok 3, ainda é um modelo poderoso; Afinal, ele alcançou o topo da tabela de classificação em relação aos outros modelos, que estão em suas versões mais recentes.