O Galaxy AI1 agora oferece suporte a 16 idiomas, ajudando mais pessoas a transpor as barreiras linguísticas com tradução em tempo real no dispositivo. A Samsung inaugurou uma nova era de Inteligência Artificial móvel e, por isso, estamos visitando centros de pesquisa da Samsung em todo o mundo para entender como o Galaxy AI foi criado e os desafios do desenvolvimento de IA.
A primeira parte desta série mostrou como é possível determinar quais dados são necessários na construção da IA. Agora, vamos analisar a complexa tarefa de lidar com diversos dialetos.
Ensinar um idioma a um modelo de Inteligência Artificial é um processo complexo. Porém, como seria se o idioma não for singular, e sim um conjunto de diversos dialetos?
Esse foi o desafio enfrentado pela equipe do Samsung R&D Institute Jordan (SRJO). Embora o árabe tenha sido adicionado como opção de idioma para recursos do Galaxy AI, como Tradução Simultânea2, a equipe teve que lidar com os diversos dialetos árabes que abrangem o Oriente Médio e o Norte da África, cada um com variações de pronúncia, vocabulário e gramática.
O árabe é um dos seis idiomas mais falados em todo o mundo, usado diariamente por mais de 400 milhões de pessoas3. O idioma é classificado de duas formas: Fus’ha (árabe padrão moderno) e Ammiya (os dialetos do árabe). Fus’ha é empregado normalmente em eventos públicos e oficiais, bem como em transmissões de notícias, enquanto Ammiya é mais comum em conversas cotidianas. Mais de 20 países usam o árabe e, atualmente, existem cerca de 30 dialetos na região.
Regras não escritas
Reconhecendo a variação apresentada por esses dialetos, a equipe do SRJO empregou uma série de técnicas para discernir e processar as características linguísticas únicas inerentes a cada um. Essa abordagem foi crucial para garantir que o Galaxy AI conseguisse compreender e responder de forma precisa às nuances regionais.
“Em contraste com outros idiomas, a pronúncia do objeto em árabe varia dependendo do sujeito e do verbo na frase”, explica Mohammad Hamdan, líder do projeto da equipe de desenvolvimento de idiomas árabes. “Nosso objetivo é desenvolver um modelo que entenda todos esses dialetos e consiga responder em árabe padrão”.
O TTS é o componente do recurso de Tradução Simultânea do Galaxy AI que permite às pessoas interagir com falantes de diferentes idiomas, traduzindo palavras faladas em texto escrito e, em seguida, reproduzindo-as por voz. A equipe de TTS enfrentou um desafio único, devido à peculiaridade de trabalhar com o árabe.
O árabe usa diacríticos, que são guias para a pronúncia de palavras em alguns contextos, como artigos religiosos, poesia e livros para alunos de idiomas. Os diacríticos são amplamente compreendidos pelos falantes nativos, mas estão ausentes na escrita cotidiana. Isso torna difícil para uma máquina converter texto bruto em fonemas, as unidades básicas de som que são os blocos de construção da fala.
“Há uma escassez de conjuntos de dados confiáveis e de alta qualidade que representem com precisão como os diacríticos são usados corretamente”, explica Haweeleh “Tivemos que projetar um modelo neural capaz de prever e restaurar os diacríticos ausentes com alta precisão”.
Os modelos neurais funcionam de forma semelhante aos cérebros humanos. Para prever diacríticos, um modelo precisa estudar muitos textos em árabe, aprender as regras do idioma e entender como as palavras são usadas em diferentes contextos. Por exemplo, a pronúncia de uma palavra pode variar muito dependendo da ação ou do gênero que ela descreve. O treinamento extensivo da equipe foi fundamental para melhorar a precisão do modelo TTS árabe.
Melhorando a compreensão
A equipe do SRJO também precisou coletar diversas gravações de áudio dos dialetos de várias fontes, que tiveram que ser transcritas, com foco específico em capturar os sons, palavras e frases únicas de cada dialeto.
“Reunimos uma equipe de falantes nativos dos dialetos com um profundo conhecimento das nuances e variações”, explicou Ayah Hasan, cuja equipe foi responsável pela criação do banco de dados. “Eles ouviram as gravações e converteram manualmente as palavras faladas em texto”.
Este trabalho foi fundamental para aprimorar o processo de Reconhecimento Automático de Fala (ASR), permitindo que o Galaxy AI lidasse de forma eficaz com a rica diversidade de dialetos árabes. O ASR desempenha um papel crucial ao possibilitar recursos de compreensão e resposta em tempo real da Galaxy AI.
“Desenvolver um sistema ASR que suporte vários dialetos em um único modelo é uma tarefa exigente”, afirma Hamdan. “Isso requer um entendimento profundo das complexidades linguísticas, uma seleção criteriosa de dados e o uso de técnicas avançadas de modelagem”.
O ápice da inovação
Após meses de planejamento, construção e testes, a equipe estava pronta para lançar o árabe como opção de idioma para o Galaxy AI, permitindo que um número significativamente maior de pessoas se comunicasse além das fronteiras linguísticas.
Essa equipe pioneira tornou os serviços Galaxy AI acessíveis aos falantes de árabe, diminuindo as barreiras linguísticas e culturais entre eles e as pessoas ao redor do mundo. Ao fazê-lo, estabeleceram novas e melhores práticas que podem ser implementadas globalmente. Entretanto, este sucesso é apenas o começo: a equipe continua a refinar seus modelos e a melhorar a qualidade dos recursos linguísticos do Galaxy AI.
No próximo episódio da série “A Curva de Aprendizagem”, iremos ao Vietnã para ver como a equipe está aprimorando os dados linguísticos. Além disso, o que é necessário para treinar um modelo de IA eficaz?
O árabe é apenas uma parte dos idiomas e dialetos recentemente suportados pelo Galaxy AI e disponíveis para download nas Configurações do smartphone. Os recursos linguísticos do Galaxy AI, como Tradução Simultânea e Intérprete, estão acessíveis em dispositivos Galaxy que tenham a atualização One UI 6.14 da Samsung.
1 Galaxy AI é a inteligência artificial da Samsung. A Samsung não faz promessas ou garantias quanto à precisão, completude ou confiabilidade das saídas fornecidas pelas funcionalidades de IA. O login na conta Samsung pode ser necessário para usar determinadas funcionalidades de IA da Samsung.
2 Tradução Simultânea requer uma conexão de rede e login na conta Samsung. A Tradução Simultânea está disponível apenas no aplicativo Samsung Phone pré-instalado. Certos idiomas podem exigir o download de pacotes de idiomas. A disponibilidade do serviço pode variar conforme o idioma. A precisão dos resultados não é garantida.
3 UNESCO, Dia Mundial do idioma Árabe 2023, Link.
4 A atualização One UI 6.1 foi lançada pela primeira vez em dispositivos da linha Galaxy S24 com uma implementação mais ampla para outros dispositivos Galaxy, incluindo linha S23, S23 FE, linha S22, linha S21, Z Fold5, Z Fold4, Z Fold3, Z Flip5, Z Flip4, Z Flip3, linha Tab S9 e linha Tab S8.