Neste relatório técnico, avaliamos as capacidades do modelo Sabiá-3 em diversos benchmarks, incluindo 73 exames nacionais (Enem, ENADE, OAB, Revalida, etc), chamada de funções, tarefas que requerem capacidade de agente, seguir instruções e lidar com contexto longos.
Neste relatório técnico, introduzimos a nova geração de modelos da Maritaca, os Sabiá-2, e apresentamos a mais completa análise de LLMs em tarefas em portugues, cobrindo 64 exames brasileiros como ENEM, ENADE, OAB, vestibulares da USP e UNICAMP, provas de residência em medicina, dentro outros.
Nosso melhor modelo, Sabiá-2 Medium, supera grandemente diversos LLMs concorrentes na mesma faixa de preço.
Neste estudo, mostramos que uma quantidade modesta de treinamento em domínio específico traz grandes melhorias em tarefas few-shot.
Nosso melhor modelo, Sabiá-65B, supera, em média, o ChatGPT-3.5 em 14 tarefas em português. O trabalho foi publicado na conferência BRACIS 2023.
Juru é o primeiro LLM treinado em dados jurídicos brasileiros. Neste estudo, mostramos que treinar o Sabiá-2 Small em documentos relacionados ao direito provindo de sites confiáveis, como a biblioteca do CNPQ, traz ganhos em provas de direito do Enade e OAB.
Neste estudo, avaliamos o GPT-3.5 e o GPT-4 no ENEM e mostramos que ao utilizar a técnica de Chain-of-Thought o desempenho do GPT-4 melhora significativamente.
Artigo subsequente sobre a capacidade de "enxergar" imagens do GPT-4 Vision
BLUEX é um conjunto de dados composto por provas de admissão da USP e UNICAMP. Seu objetivo principal é servir como referência para a avaliação de modelos de IA atuais e futuros, incluindo aqueles com capacidades multimodais (imagem+texto). O trabalho foi publicado na conferência BRACIS 2023.
Publicações Científicas
Descubra os projetos de pesquisa em que temos trabalhado recentemente.
Créditos API para Ensino e Pesquisa
Se você é estudante ou pesquisador e deseja usar os modelos Sabiá-2 e Sabiá-3, que são LLMs especializados no Português, a Maritaca AI oferece um programa de créditos da API para apoiar seus projetos.
Para participar, é simples: preencha o formulário abaixo com um resumo do seu projeto (até um parágrafo) e informe o orçamento aproximado que você prevê para a utilização dos nossos modelos via API.
Após o envio, nossa equipe analisará seu pedido. Em caso de aprovação, você receberá as instruções para começar a utilizar as funcionalidades dos nossos LLMs em seu projeto, sem custos iniciais.