Samsung apresenta o TRUEBench: um benchmark para produtividade com AI no mundo real

A Samsung Electronics Co., Ltd. anunciou no último dia 24 o TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark), um benchmark proprietário desenvolvido pela Samsung Research para avaliar a produtividade de soluções de inteligência artificial (AI).

O TRUEBench oferece um conjunto abrangente de métricas para medir o desempenho de modelos de linguagem de grande porte (LLMs) em aplicações de produtividade no ambiente de trabalho. Para garantir uma avaliação realista, ele incorpora cenários diversos de diálogo e condições multilíngues.

Baseado no uso interno da AI pela Samsung para fins de produtividade, o TRUEBench avalia tarefas corporativas comumente utilizadas — como geração de conteúdo, análise de dados, sumarização e tradução — em 10 categorias e 46 subcategorias. O benchmark assegura uma pontuação confiável por meio de avaliação automática com AI, com critérios definidos e refinados de forma colaborativa por humanos e pela própria inteligência artificial.

“A Samsung Research oferece uma expertise profunda e uma vantagem competitiva com base em sua experiência com AI no mundo real,” disse Paul (Kyungwhoon) Cheun, CTO da Divisão DX da Samsung Electronics e Chefe da Samsung Research. “Esperamos que o TRUEBench estabeleça novos padrões de avaliação para produtividade e fortaleça a liderança tecnológica da Samsung”.

Recentemente, com a adoção crescente de AI por empresas, aumentou a demanda por métricas que meçam a produtividade dos LLMs. No entanto, os benchmarks existentes medem, em sua maioria, apenas o desempenho geral, sendo centrados no idioma inglês e limitados a estruturas simples de pergunta e resposta em uma única interação. Isso reduz a capacidade de refletir cenários reais de trabalho.

Para enfrentar essas limitações, o TRUEBench é composto por um total de 2.485 conjuntos de testes, distribuídos em 10 categorias e 12 idiomas¹ — incluindo cenários de uso entre diferentes idiomas (cross-linguistic). Os testes analisam o que os modelos de AI realmente conseguem resolver, e a Samsung Research aplicou conjuntos que variam de apenas 8 caracteres até mais de 20 mil caracteres, abrangendo desde solicitações simples até tarefas complexas como a sumarização de documentos longos.

Avaliar o desempenho de modelos de AI exige critérios claros para julgar se as respostas fornecidas são corretas. Em situações reais, nem sempre a intenção do usuário está expressa de forma explícita nas instruções. O TRUEBench foi projetado para possibilitar uma avaliação mais realista, considerando não apenas a precisão das respostas, mas também as condições detalhadas que atendem às necessidades implícitas dos usuários.

A Samsung Research validou os critérios de avaliação por meio de uma colaboração entre humanos e AI. Primeiro, avaliadores humanos criam os critérios; em seguida, a AI os revisa para identificar erros, contradições ou restrições desnecessárias. Depois, os avaliadores refinam novamente os critérios, repetindo esse processo para alcançar padrões cada vez mais precisos. Com base nesses critérios validados de forma cruzada, a avaliação automática dos modelos é realizada, minimizando vieses subjetivos e garantindo consistência. Além disso, para cada teste, todas as condições devem ser atendidas para que o modelo seja aprovado, permitindo uma pontuação mais detalhada e precisa em cada tarefa.

As amostras de dados e os rankings (leaderboards) do TRUEBench estão disponíveis na plataforma global de código aberto Hugging Face, o que permite aos usuários comparar até cinco modelos simultaneamente e realizar comparações abrangentes de desempenho de AI com facilidade. Além disso, são divulgados dados sobre o tamanho médio das respostas geradas, permitindo comparações simultâneas de desempenho e eficiência. Informações detalhadas podem ser encontradas na página do TRUEBench no Hugging Face: https://huggingface.co/spaces/SamsungResearch/TRUEBench.

¹ Chinês, inglês, francês, alemão, italiano, japonês, coreano, polonês, português, russo, espanhol e vietnamita.

Samsung apresenta o TRUEBench: um benchmark para produtividade com AI no mundo real

Curtir isso:

Relacionado

Publicado por rodrigostoledo

Deixe um comentário Cancelar resposta

Compartilhe isso:

Curtir isso:

Relacionado

Publicado por rodrigostoledo

Deixe um comentário Cancelar resposta