Maritaca AI - Pesquisa e Inovação em LLM para o Português

Sabiá-3: Relatório Técnico

Neste relatório técnico, avaliamos as capacidades do modelo Sabiá-3 em diversos benchmarks, incluindo 73 exames nacionais (Enem, ENADE, OAB, Revalida, etc), chamada de funções, tarefas que requerem capacidade de agente, seguir instruções e lidar com contexto longos.

Sabiá-2: Uma Nova Geração de Grandes Modelos de Linguagem em Português

Neste relatório técnico, introduzimos a nova geração de modelos da Maritaca, os Sabiá-2, e apresentamos a mais completa análise de LLMs em tarefas em portugues, cobrindo 64 exames brasileiros como ENEM, ENADE, OAB, vestibulares da USP e UNICAMP, provas de residência em medicina, dentro outros.

Nosso melhor modelo, Sabiá-2 Medium, supera grandemente diversos LLMs concorrentes na mesma faixa de preço.

Sabiá: Grandes Modelos de Linguagem em Português

6cb9d6_2a555c4c601a4a0ea267b3e2f6c01265~mv2.webp

Neste estudo, mostramos que uma quantidade modesta de treinamento em domínio específico traz grandes melhorias em tarefas few-shot.

Nosso melhor modelo, Sabiá-65B, supera, em média, o ChatGPT-3.5 em 14 tarefas em português. O trabalho foi publicado na conferência BRACIS 2023.

O modelo Sabiá-7B está disponível na Hugging Face

Juru: Grande Modelo de Linguagem Jurídico Brasileiro a partir de Fontes Reputáveis

Juru é o primeiro LLM treinado em dados jurídicos brasileiros. Neste estudo, mostramos que treinar o Sabiá-2 Small em documentos relacionados ao direito provindo de sites confiáveis, como a biblioteca do CNPQ, traz ganhos em provas de direito do Enade e OAB.

GPT-3.5 e GPT-4 avaliados no ENEM

Neste estudo, avaliamos o GPT-3.5 e o GPT-4 no ENEM e mostramos que ao utilizar a técnica de Chain-of-Thought o desempenho do GPT-4 melhora significativamente.

Artigo subsequente sobre a capacidade de "enxergar" imagens do GPT-4 Vision

BLUEX: Um benchmark multimodal baseado em provas da USP e UNICAMP

Captura de Tela 2023-07-02 às 13_34_21.webp

BLUEX é um conjunto de dados composto por provas de admissão da USP e UNICAMP. Seu objetivo principal é servir como referência para a avaliação de modelos de IA atuais e futuros, incluindo aqueles com capacidades multimodais (imagem+texto). O trabalho foi publicado na conferência BRACIS 2023.

Publicações Científicas

Descubra os projetos de pesquisa em que temos trabalhado recentemente.

Créditos API para Ensino e Pesquisa

Se você é estudante ou pesquisador e deseja usar os modelos Sabiá-2 e Sabiá-3, que são LLMs especializados no Português, a Maritaca AI oferece um programa de créditos da API para apoiar seus projetos.

Para participar, é simples: preencha o formulário abaixo com um resumo do seu projeto (até um parágrafo) e informe o orçamento aproximado que você prevê para a utilização dos nossos modelos via API.

Após o envio, nossa equipe analisará seu pedido. Em caso de aprovação, você receberá as instruções para começar a utilizar as funcionalidades dos nossos LLMs em seu projeto, sem custos iniciais.

Submeta Sua Aplicação