A Curva de Aprendizagem, Parte 8: criando conversas do Japão para o mundo

À medida que a Samsung segue inovando em experiências móveis premium de Inteligência Artificial, visitamos os centros de pesquisa da Samsung em todo o mundo para saber como o Galaxy AI1 está ajudando mais pessoas a maximizar seu potencial.

O Galaxy AI oferece atualmente suporte a 16 idiomas, para que mais pessoas possam expandir seus recursos linguísticos, mesmo off-line, graças à tradução no dispositivo em recursos como Tradução Simultânea2, Intérprete3, Notas Inteligentes4 e Assistente de Navegação.

Mas o que está envolvido no desenvolvimento da linguagem de Inteligência Artificial? Da última vez, visitamos a Polônia para entender como os países europeus colaboram para alcançar seus objetivos. Desta vez, estamos no Japão para ver como os desenvolvedores estão sempre se adaptando a novos cenários e casos de uso.

O Instituto de P&D da Samsung no Japão (SRJ) foi criado para ser um centro de P&D focado em hardware, tais como eletrodomésticos e telas. Com o aumento da demanda por inovação em IA em todo o mundo, o SRJ em Yokohama também tem operado um laboratório de desenvolvimento de software para criar o recurso de Tradução Simultânea do Galaxy AI, que, desde o final do ano passado, traduz automaticamente chamadas de voz em tempo real.

“O recurso Tradução Simultânea é particularmente útil em viagens, como é o caso dos visitantes dos Jogos Olímpicos deste ano em Paris”, diz Takayuki Akasako, Diretor de Inteligência Artificial do SRJ. “No momento, estamos desenvolvendo um programa de reconhecimento de fala para pessoas fazendo turismo e assistindo aos Jogos Olímpicos de Paris e treinando o programa de reconhecimento de fala para aprender sobre os jogos e os locais dos estádios em Paris 2024”.

Compreensão do contexto no reconhecimento de voz

Para quem já usa os recursos de tradução do Galaxy AI, essas funcionalidades podem parecer muito úteis. Mas os desenvolvedores que criaram esses recursos sabem que conseguir se comunicar durante uma viagem ao exterior é algo que não pode ser dado como certo.

Uma das observações da equipe foi que há mais palavras homônimas em japonês do que em outros idiomas. Por exemplo, ‘pauzinhos’ (Hashi,箸) e ‘ponte’ (Hashi,橋) são relativamente fáceis de distinguir devido à diferença de entonação, mas palavras como ‘turismo’ (Kankō,観光), ‘costumes’ (Kankō,慣行), ‘público’ (Kōkyō,公共) e ‘prosperidade’ (Kōkyō,好況) devem ser interpretadas de acordo com o contexto.

“A interpretação fica mais difícil quando o contexto é ambíguo, como nomes de locais e pessoas, nomes próprios, dialetos e números”, diz Akasako. “Portanto, para melhorar a precisão do reconhecimento de fala são necessários muitos dados”.

“Estamos sempre buscando maneiras de fazer ajustes finos no modelo de IA para eventos e momentos importantes e em tempo hábil”, acrescenta Akasako. “Com muitas novas combinações de nomes de lugares e atividades, é importante que o contexto fique claro quando as pessoas estiverem usando o Galaxy AI”.

Desafios na coleta de dados eficientes

Embora o reconhecimento dos tipos de dados necessários também seja importante, a própria coleta de dados é um desafio à parte.

Antes, a equipe do SRJ usava dados gravados por pessoas para treinar o mecanismo de reconhecimento de fala do recurso de Tradução Simultânea, o que levava a uma coleta insuficiente de dados.

O Samsung Gauss, o Modelo de Linguagem Ampla (LLM, na sigla em inglês) da empresa, usa roteiros para estruturar frases com palavras ou expressões relevantes para cada cenário. Os dados coletados com o Samsung Gauss não são apenas gravados por pessoas, mas também gerados por dados de síntese de fala text-to-speech (TTS), por meio dos quais pessoas fazem a verificação final da qualidade. Usando esse método, a equipe observou uma melhoria significativa na eficiência da coleta de dados.

“Sempre que um problema é identificado e resolvido, a precisão do reconhecimento de fala melhora significativamente”, explica Akasako. “Independentemente de onde estejam, nosso objetivo é conectar as pessoas umas às outras, e as ferramentas com tecnologia Galaxy AI garantirão uma comunicação mais divertida e eficiente”.

1 Galaxy AI é a inteligência artificial da Samsung. A Samsung não faz promessas ou garantias quanto à precisão, completude ou confiabilidade das saídas fornecidas pelas funcionalidades de IA. O login na conta Samsung pode ser necessário para usar determinadas funcionalidades de IA da Samsung.

2 Tradução Simultânea requer uma conexão de rede e login na conta Samsung. A Tradução Simultânea está disponível apenas no aplicativo Samsung Phone pré-instalado. Certos idiomas podem exigir o download de pacotes de idiomas. A disponibilidade do serviço pode variar conforme o idioma. A precisão dos resultados não é garantida.

3 O Intérprete requer login na Conta Samsung. Certos idiomas podem exigir o download de pacotes de idiomas. A disponibilidade do serviço pode variar conforme o idioma. A precisão dos resultados não é garantida. A disponibilidade e os recursos suportados podem variar conforme país, região ou operadora. A disponibilidade dos idiomas suportados pode variar.

4 O recurso Notas Inteligentes requer uma conexão de rede e login na conta Samsung. Existe um limite de caracteres. A disponibilidade do serviço pode variar conforme o idioma. A precisão dos resultados não é garantida.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *