[Entrevista] Inteligência Artificial rápida, leve e em dispositivos: como a Samsung Research desenvolveu recursos de IA que oferecem tradução em tempo real

Os dispositivos móveis habilitados para o Galaxy AI1 permitem que as pessoas desfrutem de comunicação contínua e sem barreiras em ainda mais países. Agora com suporte para árabe, indonésio e russo, os recursos Intérprete e Tradução Simultânea2 foram expandidos de 13 para 16 idiomas.

A Samsung Research combinou dados e tecnologia de ponta. Juntamente com o time de P&D da área de Mobile eXperience (MX), os pesquisadores aprimoraram ainda mais essa tecnologia para desenvolver recursos de tradução impulsionados por Inteligência Artificial – que podem ser usados para tradução em tempo real durante chamadas e em vários aplicativos.

A Samsung Newsroom se reuniu com Yoonjung Choi e Yonghyun Ryu, do Global AI Center da Samsung Research, para saber mais sobre esses ambiciosos recursos.

Comunicação fluida e segurança robusta com Inteligência Artificial em dispositivos

A Inteligência Artificial é o grande diferencial dos recursos Intérprete e Tradução Simultânea da Galaxy AI, apresentados no lançamento da linha Galaxy S24 no início deste ano.

Ao empregar recursos de computação avançados, os smartphones com Inteligência Artificial integrada podem oferecer serviços sem depender de servidores ou da nuvem. As pessoas podem ficar tranquilas sabendo que seus dados permanecerão privados e seguros, pois as informações não são compartilhadas com fontes externas.

O Global AI Center da Samsung Research contribuiu para integrar tecnologia proprietária em seu modelo de tradução por Inteligência Artificial, visando disponibilizar esses recursos para mais pessoas.

Prevendo uma ampla gama de aplicações, a equipe da Samsung Research e o time de P&D de MX obtiveram uma grande quantidade de dados. “Coletamos dados coloquiais para tradução em tempo real durante chamadas no recurso Tradução Simultânea e dados relacionados a viagens para o recurso Intérprete”, explica Yoonjung Choi, que liderou o projeto. “Para fornecer uma tradução mais precisa, estudamos e incorporamos a linguagem casual usada em salas de bate-papo e tags HTML usadas em navegadores da web”.

Como a Samsung Research treinou seu modelo de Inteligência Artificial

O modelo de tradução por Inteligência Artificial da equipe da Samsung Research é baseado em tecnologia de deep learning, ou aprendizagem profunda, que aprende com dados próprios.

Yonghyun Ryu, responsável pela pesquisa e desenvolvimento de Inteligência Artificial, comparou esse processo à criação de um filho. “Da mesma forma que uma criança precisa de excelentes recursos educacionais e cuidadores para crescer e prosperar, é essencial ter bons dados linguísticos e pesquisadores talentosos ao desenvolver um modelo de tradução por Inteligência Artificial de alto desempenho”, descreveu ele.

Desde 2013, a Samsung Research fornece serviços de tradução internos, conduzindo pesquisa e desenvolvimento relacionados à tradução por Inteligência Artificial e acumulando dados de alta qualidade.

A equipe de especialistas em deep learning da Samsung Research desempenhou um papel importante no treinamento do modelo de Inteligência Artificial.

“Se ocorrerem traduções incorretas durante o processo de pesquisa e desenvolvimento, é necessário identificar o problema e fazer melhorias. No entanto, isso pode ser desafiador e demorado para pesquisadores que não tenham capacidades e experiência suficientes”, explica. “Nossos pesquisadores usaram experiência e conhecimento próprios para analisar rapidamente a causa do problema e encontrar uma solução para aprimorar o modelo de tradução por IA”.

Para avaliar o desempenho das traduções do Galaxy AI, a equipe da Samsung Research utilizou métricas quantitativas baseadas em conjuntos de testes, bem como avaliações qualitativas feitas por tradutores humanos e pelo time de P&D de MX.

Além disso, a equipe ganhou credibilidade ao participar de competições globais de tradução automática. “Embora a participação exija tempo e esforço, o bom desempenho nas competições proporciona impulso para pesquisa e desenvolvimento”, enfatiza Ryu. “Conseguimos alcançar resultados sólidos porque os membros de nossa equipe puderam discutir livremente novas ideias e testá-las”.

Cordialidade e pontuação: compreendendo as peculiaridades de cada idioma

Cada idioma carrega consigo características únicas de sua cultura, que podem abranger nomes, inflexões tonais e símbolos de pontuação distintos. Para garantir traduções precisas, o modelo de tradução por Inteligência Artificial leva em conta todas essas particularidades linguísticas. Por exemplo, em coreano e japonês, os nomes são traduzidos de forma a manter um tom respeitoso.

A Samsung colaborou com centros regionais de P&D para compreender plenamente os idiomas em seus contextos culturais. “Trabalhando em estreita colaboração com pesquisadores e linguistas de outros países, conseguimos oferecer uma tradução mais precisa e completa”, afirma Choi.

Ao mesmo tempo, lidar com idiomas diferentes muitas vezes envolve tentativa e erro. “O vietnamita, por exemplo, é uma língua tonal. No entanto, percebemos durante o processo de pesquisa que os vietnamitas muitas vezes omitem tons em conversas casuais durante o bate-papo”, explica. “Precisávamos de dados adicionais para ajudar os recursos a traduzir frases sem tons”. Para o tailandês, a Samsung Research desenvolveu um separador de frases especial porque o idioma não utiliza pontuação.

Por que a tecnologia leve é a chave para modelos eficazes de IA em dispositivos

A Samsung Research começou a desenvolver seu modelo de tradução por Inteligência Artificial em dispositivos em 2019. “Ao contrário dos modelos de IA baseados em servidores, os modelos de IA integrados nos dispositivos devem operar exclusivamente utilizando os recursos dos dispositivos das pessoas”, afirma Ryu. “Desenvolver tecnologia leve que utilize recursos mínimos é fundamental”. Para alcançar essa leveza, a equipe empregou tecnologias de “destilação de conhecimento” e “quantização”.

A destilação de conhecimento consiste em extrair informações de um modelo grande e de alto desempenho, entregando-o a um modelo menor, de forma semelhante à maneira como um professor resume um tópico para que o aluno possa assimilar as informações com mais facilidade e eficiência.

Já a quantização simplifica os algoritmos de Inteligência Artificial para reduzir o tamanho do modelo, acelerando o processo e aumentando a velocidade de resposta.

Ryu comparou a quantização ao desenho de morangos. “Você precisa de uma ampla gama de cores para pintar morangos realistas, mas os morangos também podem ser feitos apenas com vermelho e verde”, explica. “Quantização é o processo de minimizar o número de cores necessárias para desenhar morangos, esforçando-se para torná-lo o mais próximo possível da realidade”.

No campo da Inteligência Artificial, a destilação e a quantização do conhecimento são abordagens bem conhecidas para tornar os modelos mais leves. No entanto, implementá-las em escala comercial não é fácil devido às diferenças nos métodos e fatores experimentais detalhados de cada pesquisador.

A Samsung Research desenvolveu tecnologia patenteada, descobrindo uma técnica de quantização eficiente e criando um algoritmo acelerado baseado nela. “Através de experimentações constantes, encontramos uma maneira ideal de tornar o modelo mais leve”, comenta Choi.

Ao combinar o modelo de tradução por Inteligência Artificial de alta qualidade com algoritmos que tornam os modelos mais leves e aceleram o tempo de resposta, nasceram recursos de IA leves e rápidos em dispositivos.

A cultura por trás da língua: como seria o modelo de tradução por IA perfeito?

Os pesquisadores do Global AI Center da Samsung Research têm objetivos ambiciosos ao liderar o campo da IA em dispositivos. “Meu objetivo final é facilitar a comunicação entre os usuários e pessoas que falam outros idiomas”, afirma Choi.

Ryu compartilhou sua visão para construir o tradutor perfeito. “Um dia, queremos criar um tradutor que realmente compreenda as culturas por trás das línguas que traduz, equipado com um extenso conjunto de conhecimentos. Meu desafio é desenvolver um tradutor que o mundo nunca viu antes”.

Os recursos de tradução por Inteligência Artificial em dispositivos da Samsung permitem que qualquer pessoa com um dispositivo móvel habilitado se comunique livremente – sem se preocupar com conexão à Internet ou vazamento de informações.

No futuro, a equipe da Samsung Research continuará liderando inovações no campo da IA, em rápida evolução, e trazendo novos patamares de conveniência às pessoas.

Com uso da inteligência artificial, geladeiras Evolution, da Samsung, garantem eficiência energética

A Samsung conta com um portfólio completo de geladeiras que se adequam às exigências do novo padrão brasileiro do Inmetro ao se encaixarem no mais alto nível de eficiência energética estabelecido pelo órgão, o A+++. Mas, além dessas características, as novas geladeiras da linha Evolution – nos modelos RT38, RT42, RT53 e RB50 – contam com recursos que auxiliam na economia de energia, e a inteligência artificial (AI) é parte fundamental desse processo.
   ‎‎ 
Esses são os primeiros modelos Duplex e Duplex Inverse conectados da marca. Isso significa que a presença da AI, junto ao ecossistema SmartThings, faz com que as geladeiras sejam aliadas da economia na conta de luz no fim do mês.

Outra característica de destaque é a presença da tecnologia Digital Inverter, que ajuda a economizar até 40% na conta de energia². As geladeiras também oferecem garantia de 20 anos no compressor.

Economia com as geladeiras Evolution da Samsung

Um exemplo de aplicação da AI nas geladeiras da linha Evolution é o AI Energy Mode, que usa a tecnologia para monitorar os padrões de uso e consumo das residências para fornecer informações úteis que ajudam a economizar energia. Isso é feito na forma de estimativas de custo do consumo, oferecendo informações sobre o gasto diário, semanal e mensal das geladeiras.

Oferecendo mais uma opção de economia no dia a dia, as geladeiras Evolution da Samsung contam com Wi-Fi, que permite que os usuários ativem ou desativem funções a partir de qualquer lugar, mesmo que não estejam em casa. Além disso, por meio do SmartThings, ele é notificado caso a porta não tenha sido fechada corretamente, por exemplo, ou se uma oscilação de temperatura significativa acontecer no interior do eletrodoméstico.

Por fim, especificamente nos modelos Duplex (RT38, RT42 e RT53), a tecnologia POWERvolt está presente e funciona para impedir que o equipamento tenha problemas durante picos de energia, pois faz com que as geladeiras funcionem ininterruptamente entre 90V e 310V. Essa característica faz com que a Samsung tenha um portfólio de geladeiras Duplex bivolt bastante robusto.

Design que se adequa a vários ambientes

As geladeiras Evolution também se destacam por seu design minimalista e atemporal, em um corpo de linhas retas, com portas planas, puxadores embutidos e painel digital interno, formando o produto ideal para combinar com a decoração da cozinha, pois se adapta a diversos conceitos e projetos.

Google I/O: Três novas maneiras de se manter produtivo com o Gemini para Google Workspace

O Gemini para Google Workspace ajuda pessoas e empresas a aproveitar melhor seus aplicativos do Google, desde redigir e-mails no Gmail até organizar planos de projetos no Planilhas. No último ano, mais de um milhão de pessoas e dezenas de milhares de empresas usaram IA generativa no Workspace quando precisavam de um suporte extra ou de uma dose de inspiração.

Hoje, o Google anunciou novas maneiras de fazer mais na sua vida pessoal e profissional com o Gemini para Google Workspace. O Gemini, no painel lateral do Workspace, agora usa o Gemini 1.5 Pro e está chegando a mais pessoas. Também foram adicionados novos recursos ao Gemini no aplicativo do Gmail para dispositivos móveis e expandindo o suporte a idiomas para o recurso Ajude-me a escrever no Docs e no Gmail.

Acesse o Gemini 1.5 Pro no painel lateral dos aplicativos Workspace

A partir de hoje, o Gemini, no painel lateral junto ao Gmail, Docs, Drive, Apresentações e Planilhas, usará o Gemini 1.5 Pro. Com uma janela de contexto mais longa e um raciocínio mais avançado, o Gemini pode responder a uma maior variedade de perguntas e fornecer respostas mais esclarecedoras. Além disso, é fácil começar com resumos que aparecerão no painel lateral, sugestões de prompts e muito mais.

Graças à janela de contexto mais longa, o Gemini pode fazer referência a conjuntos de dados maiores. Por exemplo, se a escola do seu lho enviar uma enxurrada de e-mails todos os meses, você poderá usar o painel lateral do Gmail para perguntar coisas como “resuma os e-mails da Maywood Park Elementary School” e obter instantaneamente os detalhes e itens de ação mais importantes. Precisa compartilhar detalhes do hotel para a reunião familiar? Basta digitar @ no painel lateral do Gmail para encontrar o documento correto em seu Drive e, em seguida, pedir ao Gemini o nome do hotel e as informações de contato do gerente de vendas. Depois, você pode inserir facilmente os resultados em um e-mail para que seus familiares tenham os detalhes de que precisam.

O painel lateral Gemini no Workspace agora está disponível para usuários do Workspace Labs e do Gemini para Workspace Alpha. Ele estará disponível no próximo mês (desktop) para empresas e usuários por meio dos planos Gemini para Workspace e Google One AI Premium.

Carrossel de ativos:

  • Gemini no painel lateral do Gmail resumindo e-mails recentes (exemplo Maywood Park Elementary).
  • O painel lateral do Gemini in Docs fornece um resumo e sugestões de prompts (exemplo do Grand Canyon).
  • O painel lateral do Gemini no Drive responde a uma pergunta sobre um arquivo no Drive (exemplo de cotação de remodelação de porão).

Experimente os novos recursos do Gemini no aplicativo Gmail para dispositivos móveis

O Google também lançou novos recursos no aplicativo do Gmail para dispositivos móveis, ajudando você a acessar facilmente o Gemini e manter a produtividade em qualquer lugar.

Resuma e-mails: acompanhar longas conversas de e-mail pode ser entediante em qualquer dispositivo, mas é especialmente desaador em telas pequenas. Com esse recurso, o Gemini pode analisar conversas de e-mail e fornecer uma visão resumida diretamente no aplicativo Gmail. Basta tocar no botão “resumir” na parte superior do seu tópico de e-mail para obter os destaques. Ele estará disponível para usuários do Workspace Labs esta semana e para todos os clientes do Gemini para Workspace e assinantes do Google One AI Premium no próximo mês.

Resposta inteligente contextual: durante anos, os usuários do Gmail economizaram tempo com as sugestões do Resposta inteligente, e as opções conforme você digita da Escrita inteligente, além dos rascunhos completos de e-mail do Ajude-me a escrever. Em breve, o Gemini no Gmail oferecerá sugestões de respostas ainda mais detalhadas e diferenciadas com base no contexto do seu tópico de e-mail. Com a “Resposta Inteligente Contextual”, você pode editar ou simplesmente enviar como está. Estará disponível para usuários do Workspace Labs em dispositivos móveis e, a partir de julho, na web.

Perguntas e respostas do Gmail: em breve, quando você clicar no novo ícone do Gemini no aplicativo para dispositivos móveis, o Gemini no Gmail oferecerá opções úteis, como “resumir este e-mail”, “listar as próximas etapas” ou “sugerir uma resposta”. E semelhante ao painel lateral da área de trabalho, você pode usar a caixa de prompt aberta quando tiver solicitações mais especícas. Por exemplo, você pode pedir ao Gemini para “encontrar a oferta do empreiteiro de telhados” que está armazenada em algum lugar da sua caixa de entrada. Ou talvez você não queira procurar no seu Drive o documento com detalhes sobre o seu clube do livro. Em vez disso, você poderá simplesmente perguntar ao Gemini : “Quais são as questões para discussão na minha próxima reunião do clube do livro?” As perguntas e respostas do Gmail estarão disponíveis para usuários do Workspace Labs em dispositivos móveis e na Web a partir de julho.

Carrossel de ativos:

Resumir: Gmail no aplicativo do Gemini para celular Respostas inteligentes contextuais: GemininoaplicativodoGmailparacelular PerguntaserespostasdoGmail:Geminino aplicativo do Gmail para celular

Use o recurso ‘Ajude-me a Escrever’ em português

Recentemente, o Google anunciou o recurso Traduza para mim no Google Meet, com detecção automática de idioma e legendas traduzidas em tempo real em mais de 60 idiomas para ajudar pessoas de todo o mundo a se conectarem. Agora, estamos adicionando suporte a idiomas para mais recursos do Gemini para Workspace. Nas próximas semanas, o recurso Ajude-me a escrever no Gmail e no Docs passará a oferecer suporte para espanhol e português no desktop e continuaremos adicionando mais idiomas ao longo do tempo.

Para começar a usar esses recursos e vários outros recém-anunciados para os aplicativos Gemini para web e dispositivos móveis, conra o conteúdo Gemini para Workspace, para clientes empresariais, e o plano Google One AI Premium voltado aos usuários. E se você está procurando maneiras de aproveitar ao máximo o Gemini para Workspace, leia nossa série Além do prompt no blog do Workspace.

Google I/O: A busca na era Gemini

Nos últimos 25 anos, apesar de muitas mudanças tecnológicas, o Google continua a reimaginar e expandir o que a Busca do Google pode fazer. O Google aprimorou os principais sistemas de qualidade da informação para ajudá-lo a encontrar o que há de melhor na internet e construímos uma base de conhecimento com bilhões de informações sobre pessoas, lugares, entre outras coisas. Tudo para que você possa obter informações confiáveis num piscar de olhos.

Agora, com a IA generativa, a Busca pode fazer mais do que você imaginou. Com ela, você pode perguntar o que passar pela cabeça ou qualquer coisa que precisa ser feita – desde uma pesquisa e planejamento, até um brainstorming. O Google cuidará do trabalho braçal.

Tudo isso é possível graças a um novo modelo do Gemini personalizado para a Busca do Google. O novo recurso combina os recursos avançados da nossa IA com nossos mais avançados sistemas de pesquisa — incluindo raciocínio em várias etapas, planejamento, multimodalidade e longas janelas de contexto.

Obtendo respostas rápidas com a IA

Às vezes você quer uma resposta rápida, mas não tem tempo para analisar tudo que está por aí. Com os Resumos de IA, a Busca fará o trabalho para você.

Os Resumos de IA já foram usados bilhões de vezes por meio de nosso experimento no Search Labs e as pessoas gostam de poder obter um panorama rápido de um tópico e links para saber mais. Descobrimos que com os Resumos de IA, as pessoas usam mais a Busca e cam mais satisfeitas com os resultados.

A partir de hoje, O Google vai disponibilizar os Resumos de IA para todos nos Estados Unidos, e a experiência estará disponível em mais países em breve. Ou seja, esta semana, milhões de usuários terão acesso aos Resumos de IA e esperamos levá-las a mais de um bilhão de pessoas até o final do ano.

Com os Resumos de IA, as pessoas podem visitar uma diversidade muito maior de sites e obter ajuda com questões mais complexas. E à medida que expandimos esse recurso, continuaremos a nos concentrar no envio de tráfego de valor para editores e criadores. Como sempre, os anúncios continuarão a aparecer em espaços dedicados em toda a página, com rótulos claros para distinguir entre resultados orgânicos e patrocinados.

Fazendo perguntas mais complexas

Com os recursos de raciocínio em várias etapas do Gemini, os resumos ajudarão em questões cada vez mais complexas: ao invés de dividir sua pergunta em diversas consultas, você pode fazer perguntas mais complexas, com todas as nuances e ressalvas que você tiver em mente, tudo de uma vez só.

Por exemplo, talvez você esteja procurando um novo estúdio de ioga ou pilates e queira um que seja popular entre os habitantes locais, convenientemente localizado para seu deslocamento diário e que também ofereça um desconto para novos membros. Em breve, com apenas uma consulta, você poderá perguntar algo como “encontre os melhores estúdios de ioga ou pilates em Boston, mostre detalhes sobre suas ofertas de matrícula e tempo de caminhada a partir de Beacon Hill”.

Planejando com antecedência

Além de encontrar a resposta ou informação certa para uma pergunta complexa, a Busca também poderá planejar com você.

Com os recursos de planejamento do Gemini, diretamente na Busca, você pode obter ajuda para criar planos para tudo o que precisar, começando com refeições e férias. Pesquise por algo como “crie um plano de refeições para um grupo, que seja fácil de preparar e que tenha duração de 3 dias” e você terá um ponto de partida com uma ampla variedade de receitas de toda a web.

Se quiser mudar alguma coisa, você pode facilmente solicitar os ajustes necessários, como trocar a receita por um prato vegetariano no jantar. De forma simples, a Busca irá personalizar seu plano de refeições. E você poderá exportar rapidamente os ingredientes para uma lista de compras no Documentos ou Gmail.

O planejamento de refeições e viagens já está disponível no Search Labs em inglês nos EUA. Ainda este ano, adicionaremos recursos de personalização e mais categorias, como festas e exercícios.

Explorando uma página de resultados organizada por IA

Para as pesquisas que não têm uma resposta específica, encontrar a inspiração certa e considerar todas as suas opções pode dar muito trabalho. Em breve, quando você estiver procurando por ideias, a Busca usará IA generativa para fazer um brainstorming com você e criar uma página de resultados organizada por IA que facilita a exploração.

Ao invés de uma lista de links, você verá insights agrupados em títulos exclusivos gerados por IA, apresentando uma ampla variedade de perspectivas e tipos de conteúdo.

Para consultas em inglês feitas nos EUA, será possível começar a ver esta nova página de resultados da Busca, organizada por IA – começando em breve com restaurantes e receitas, seguida por filmes, músicas, livros, hotéis, compras e muito mais.

Obtendo ajuda da IA com vídeos

Pesquisar é muito mais do que palavras em uma caixa de texto. Frequentemente as perguntas que você tem são sobre as coisas que você vê ao seu redor, incluindo objetos em movimento.

Graças aos avanços na compreensão do vídeo, podemos levar a busca por imagens a um nível totalmente novo, com a capacidade de fazer perguntas também em vídeo. Com esse novo recurso, a Busca pode descobrir uma questão visual complexa e respondê-la para você.

Por exemplo, talvez você tenha comprado um toca-discos em um brechó, mas ele não funciona quando você o liga e a peça de metal com a agulha está flutuando, inesperadamente. Pesquisar com um vídeo economiza tempo e trabalho para encontrar as palavras certas para descrever esse problema, e você terá um resumo de IA com etapas e recursos para solucionar esses problemas.

A busca com vídeo estará disponível em breve para usuários do Search Labs, em inglês, nos EUA e expandiremos para mais regiões ao longo do tempo.

Este é apenas um vislumbre de como o Google está reinventando a forma de pesquisar, combinando o que há de melhor na Busca atual com os recursos do Gemini. Em breve, o Google fará pesquisas, planejamento, brainstorming e muito mais.

Google I/O: Faça mais com o Gemini – Experimente o 1.5 Pro e mais recursos inteligentes

O Gemini foi projetado para ser seu assistente pessoal de IA – conversacional, intuitivo e útil. Quer você o use pelo aplicativo ou por meio da experiência na web, o Gemini pode ajudá-lo a realizar tarefas complexas e ajudar no seu dia-a-dia.

Agora o Google está fazendo diversas atualizações, incluindo uma janela de contexto mais ampla, novos recursos de análise de dados, conexões com aplicativos adicionais do Google e opções mais personalizáveis, para que você possa colaborar com o Gemini mais inteligente e personalizado de todos os tempos.

Analise documentos com a janela de contexto mais ampla do mundo

Hoje o Google está trazendo ao mercado o Gemini 1.5 Pro , o modelo de última geração, para assinantes do Gemini Advanced . O Gemini 1.5 Pro traz para você os mais recentes avanços técnicos, incluindo uma janela de contexto bastante expandida, começando com 1 milhão de tokens – a mais longa de qualquer chatbot de consumo amplamente disponível no mundo. Uma janela de contexto tão ampla signica que o Gemini Advanced pode entender vários documentos grandes, com até 1.500 páginas no total, ou resumir 100 e-mails em segundos. Em breve a tecnologia será capaz de lidar com uma hora de conteúdo de vídeo ou bases de código com mais de 30.000 linhas.

Para aproveitar essa ampla janela de contexto, o Google está adicionando a capacidade de fazer upload de arquivos via Google Drive ou diretamente do seu dispositivo, diretamente no Gemini Advanced. Agora você pode obter rapidamente respostas e insights sobre documentos densos, como descobrir os detalhes da política de animais de estimação em seu contrato de aluguel ou comparar os principais argumentos de vários artigos de pesquisa extensos. E em breve, o Gemini Advanced atuará como analista de dados, descobrindo insights e criando visualizações e gráficos personalizados dinamicamente a partir de arquivos de dados carregados, como planilhas.

Gemini é nativamente multimodal e o 1.5 Pro traz grandes melhorias na compreensão de imagens. Por exemplo, você pode tirar uma foto de um prato no seu restaurante favorito e pedir uma receita, ou tirar uma foto de um problema de matemática e obter instruções passo a passo sobre como resolvê-lo – tudo a partir de uma única imagem.

O Gemini 1.5 Pro estará disponível para assinantes do Gemini Advanced em mais de 150 países e em mais de 35 idiomas.

Tenha conversas mais naturais com Gemini Live

O Google também está adicionando novas maneiras de interagir com o Gemini de forma mais natural, seja enviando mensagens de texto ou conversando. Com o Gemini no Mensagens do Google, agora você pode conversar com o Gemini no mesmo aplicativo em que envia mensagens para seus amigos.

E nos próximos meses, será lançado o Gemini Live para assinantes do Gemini Advanced, uma nova experiência de conversação móvel que utiliza nossa tecnologia de fala de última geração para tornar a conversa com o Gemini mais intuitiva. Com o Gemini Live, você poderá conversar com o Gemini e escolher entre uma variedade de vozes naturais com as quais ele pode responder. Você pode até falar no seu próprio ritmo ou interromper a resposta com perguntas esclarecedoras, como faria em qualquer conversa.

Digamos que você esteja se preparando para uma entrevista de emprego ou ensaiando para um discurso importante: basta pedir ajuda ao Gemini para se preparar. A IA irá sugerir habilidades que você pode destacar ao conversar com seu potencial empregador ou dicas para falar em público para acalmar seus nervos antes de subir ao pódio. Ainda este ano, você poderá usar sua câmera quando estiver ao vivo, abrindo conversas sobre o que você vê ao seu redor.

Faça planos complexos, como itinerários de viagem

Às vezes você gasta mais tempo pesquisando e organizando uma viagem do que aproveitando a viagem em si. A nova experiência de planejamento do Gemini Advanced irá além de mostrar uma lista de atividades sugeridas para criar um itinerário personalizado só para você.

Imagine que você pergunte ao Gemini: “Minha família e eu vamos para Miami no Dia do Trabalho. Meu lho adora arte e meu marido quer muito frutos do mar frescos. Você pode obter informações sobre meu voo e hotel no Gmail e me ajudar a planejar o m de semana?

Este prompt exige que o Gemini faça muito mais do que apresentar informações disponíveis publicamente como outros chatbots. A ferramenta leva em consideração o horário do seu voo, preferências gastronômicas e informações sobre museus locais, ao mesmo tempo que entende onde cada ponto de parada está localizado e quanto tempo levará para viajar entre cada atividade. Ele pega as informações do seu voo no Gmail, acessa o Google Maps para recomendações de restaurantes e museus próximos ao seu hotel e usa a Busca para recomendar outras atividades, como um passeio a pé pelo Design District ou na praia, para preencher o resto do dia. Ele sintetiza todas essas informações para você e cria um roteiro pessoal e personalizado que atende a todas as suas solicitações. E se você zer alterações ou adicionar mais detalhes, o itinerário será atualizado automaticamente.

Essa nova e dinâmica experiência de planejamento chegará ao Gemini Advanced nos próximos meses.

Google I/O: Gemini inova com modelo mais rápido, contexto mais amplo e assistentes de IA

Em dezembro, O Google lançou o seu primeiro modelo nativamente multimodal, o Gemini 1.0, em três tamanhos: Ultra, Pro e Nano. Apenas alguns meses depois, lançamos o 1.5 Pro , com desempenho aprimorado e uma janela de contexto mais ampla e inovadora de 1 milhão de tokens.

Desenvolvedores e clientes corporativos têm colocado o 1.5 Pro em uso de diferentes maneiras [inserir link para vídeo de caso de uso do 1.5 Pro] e achado incrivelmente úteis sua ampla janela de contexto, recursos de raciocínio multimodal e desempenho geral.

Com base no feedback dos usuários, foi observado que alguns aplicativos precisam de menor latência e menor custo para ser efetivo e isso nos inspirou a continuar inovando. Por isso, hoje estamos apresentando o Gemini 1.5 Flash: um modelo mais leve que o 1.5 Pro e projetado para ser rápido e eciente para servir em grande escala.

Tanto o 1.5 Pro quanto o 1.5 Flash estão disponíveis, em pré-visualização, com uma janela de contexto de 1 milhão de tokens no Google AI Studio e Vertex AI. Uma janela de contexto de 2 milhões de tokens já está disponível para desenvolvedores que usam API e para clientes do Google Cloud, por meio de uma lista de espera. E estamos integrando o 1.5 Pro aos produtos do Google, incluindo o Gemini Advanced e os aplicativos Workspace .

Também foi anunciando a próxima geração de modelos abertos, Gemma 2, e compartilhando o progresso sobre o futuro dos assistentes de IA a partir do Projeto Astra [inserir link para vídeo do YT].

Atualizações da família de modelos Gemini

1.5 Flash: Um modelo mais rápido e eficiente

1.5 Flash é a mais nova adição à família Gemini e o modelo mais rápido servido na API . Ele é otimizado para tarefas de alto volume e alta frequência em escala, é mais econômico para atender e apresenta nossa inovadora janela de amplo contexto.

Embora seja um modelo mais leve que o 1.5 Pro, ele é altamente capaz de realizar o raciocínio multimodal em grandes quantidades de informações, além de oferecer uma qualidade impressionante para seu tamanho. O 1.5 Flash é excelente em resumos, aplicativos de bate-papo, legendagem de imagens e vídeos, extração de dados de documentos e tabelas longas e muito mais. Isso ocorre porque ele foi treinado pelo 1.5 Pro por meio de um processo chamado “destilação”, no qual o conhecimento e as habilidades mais essenciais de um modelo maior são transferidos para um modelo menor e mais eciente.

Um 1.5 Pro ainda mais útil

Nos últimos meses, o Google melhorou significativamente o 1.5 Pro, o melhor modelo para desempenho geral em uma ampla gama de tarefas. Além de estender sua janela de contexto para 2 milhões de tokens, aprimoramos sua geração de código, raciocínio lógico e planejamento, conversação de múltiplas etapas e compreensão de áudio e imagem por meio de dados e melhorias algorítmicas.

A versão mais recente do 1.5 Pro alcança fortes melhorias em benchmarks públicos em vários domínios, como raciocínio e codificação, bem como desempenho de última geração em vários estudos de compreensão de imagem e vídeo, incluindo: MMMU , AI2D , MathVista , ChartQA , DocVQA , InfográcoVQA e EgoSchema .

O 1.5 Pro agora pode seguir instruções cada vez mais complexas e diferenciadas, incluindo aquelas que especificam o comportamento em relação a produto envolvendo função, formato e estilo. Melhoramos o controle sobre as respostas para casos de uso específicos, como criar a persona e o estilo de resposta de um agente de chat, ou automatizar fluxos de trabalho por meio de múltiplas chamadas de função. Além disso, permitimos que os usuários orientem o comportamento do modelo definindo instruções do sistema.

Também foi adicionada a compreensão de áudio na API Gemini e no Google AI Studio, de modo que o 1.5 Pro agora pode raciocinar entre imagem e áudio para vídeos enviados no Google AI Studio.

Atualizações do Gemini Nano, o modelo para dispositivos

O Gemini Nano está expandindo além de entradas apenas de texto para incluir também imagens. Começando com o Pixel, aplicativos que utilizam o Gemini Nano com multimodalidade serão capazes de compreender o mundo da mesma forma que as pessoas fazem — não apenas por meio de entrada de texto, mas também através de visão, som e linguagem falada.

A próxima geração de modelos abertos

Hoje, o Google também está compartilhando uma série de atualizações do Gemma , nossa família de modelos abertos construídos a partir da mesma pesquisa e tecnologia usada para criar os modelos Gemini.

Foi anunciando o Gemma 2, a próxima geração de modelos abertos para inovação responsável em IA. A novidade possui uma nova arquitetura projetada para desempenho e eficiência inovadoras e estará disponível em novos tamanhos.

A família Gemma também está se expandindo com o PaliGemma , o primeiro modelo de linguagem de visão inspirado no PaLI-3 . Além disso, foi atualizado o Responsible Generative AI Toolkit com LLM Comparator para avaliar a qualidade das respostas do modelo.

O progresso no futuro dos assistentes de IA

Como parte da missão do Google DeepMind de construir IA de forma responsável para beneifciar a humanidade, sempre buscamos desenvolver agentes universais de IA que pudessem ser úteis na vida cotidiana. É por isso que hoje estamos compartilhando o Projeto Astra: nossa visão para o futuro dos assistentes de IA.

Para ser verdadeiramente útil, um agente precisa compreender e responder ao mundo complexo e dinâmico, tal como as pessoas fazem – e absorver e lembrar o que vê e ouve para compreender o contexto e agir. Ele também precisa ser proativo e pessoal, para que os usuários possam conversar com ele naturalmente e sem atrasos.

Embora tenhamos feito um progresso incrível no desenvolvimento de sistemas de IA que podem compreender informações multimodais, reduzir o tempo de resposta a algo coloquial é uma difícil decisão de engenharia. Nos últimos anos, temos trabalhado para melhorar a forma como nossos modelos percebem, raciocinam e conversam para tornar o ritmo e a qualidade da interação mais naturais.

Esses agentes foram construídos em nosso modelo Gemini e em outros modelos específicos de tarefas, e foram projetados para processar informações mais rapidamente, codificando continuamente frames de vídeos, combinando a entrada de vídeo e fala em uma linha do tempo de eventos e armazenando essas informações em cache para uma recuperação eficiente.

Ao aproveitar os principais modelos de fala, também foi melhorada a forma como eles soam, proporcionando aos agentes uma gama mais ampla de entonações. Esses agentes podem entender melhor o contexto em que estão sendo usados e responder rapidamente na conversa.

É fácil imaginar um futuro onde você poderá ter um assistente especializado ao seu lado por meio do telefone ou dos óculos. E alguns desses recursos chegarão aos produtos do Google, como o aplicativo Gemini , ainda este ano.

Sempre inovando

O Google fez um progresso incrível até agora com a nossa família de modelos Gemini e estamos sempre nos esforçando para avançar ainda mais com o que há de mais moderno. Ao investir em uma linha de produção incansável de inovação, somos capazes de explorar novas ideias na fronteira, ao mesmo tempo que desbloqueamos a possibilidade de novos e empolgantes casos de uso do Gemini.

Aria, a IA nativa do Opera, recebe atualizações e inclui ferramenta revolucionária de edição de texto

A Opera anunciou nesta terça-feira (14) novas atualizações para o o Opera Developer, com o lançamento do Modo Escrita, um recurso revolucionário introduzido na Linha de Comando da Aria, IA nativa dos navegadores da empresa, além de novos recursos importantes. Seguindo o sucesso dos últimos lançamentos de recursos da Aria, IA nativa dos navegadores Opera, o Modo Escrita é a ferramenta perfeita para escrever qualquer coisa da melhor maneira possível – desde e-mails até tuítes.

O recurso foi projetado para simplificar o processo de edição de texto e permitir que os usuários corrijam, ajustem e refinem seu conteúdo com facilidade. Seja preenchendo formulários de emprego ou escrevendo um artigo, o Modo Escrita da Aria garante que cada parte do texto seja polida até a perfeição.

Como usar o Modo Escrita

Acesse o recurso:

  1. Comece a digitar em qualquer caixa de texto em sites suportados, como X (anteriormente Twitter), Gmail, Facebook, ou formulários de emprego.
  2. Procure o ícone da Aria ao lado do seu texto. Clique nele, ou use o atalho da Linha de Comando (ctrl + / ou cmd + /, e pressione tab duas vezes) para acessar o Modo Escrita.

Correções e Ajustes Instantâneos:

  1. Uma vez no Modo Escrita, peça à Aria para corrigir ou ajustar seu texto para gramática, legibilidade e expressão.
  2. Use o botão “Ajuste” (ícone de caneta mágica) para melhorias instantâneas.

Assistência com Emoji e Hashtags:

  1. Adicione emojis e hashtags facilmente ao seu texto diretamente dentro do Modo Escrita.
  2. A Aria sugere os emojis e hashtags relevantes com base no tom e conteúdo da sua mensagem.

Controle Completo:

  1. Remova emojis ou hashtags clicando nas opções correspondentes na parte inferior da interface.
  2. Tenha total controle sobre a produção de texto refinado.

Inserir Texto Refinado:

  1. Uma vez satisfeito com o texto editado, clique no botão “Inserir na Entrada” na parte inferior direita da interface da Linha de Comando.
  2. O texto aprimorado será inserido de forma transparente na caixa de texto em que você estava digitando.

Ferramentas adicionais disponíveis e como usá-las

Resuma a sua conversa com Aria

  1. Clique no sinal “+” localizado à esquerda da caixa de texto no chat lateral.
  2. Aria fornecerá um resumo conciso da conversa, destacando os pontos mais importantes discutidos.

Obtenha links para fontes da aria

  1. Durante sua conversa com Aria, pergunte sobre um tópico de interesse.
  2. Aria não apenas responderá às suas perguntas, mas também fornecerá links para fontes relevantes para uma exploração mais aprofundada.
  3. Por exemplo, pergunte “O que é o Telescópio Espacial James Webb?” e Aria poderá resumir sua missão e capacidades, enquanto oferece links para fontes como o site da NASA e o site do JWST.

Explorar Mais na Linha de Comando

  1. Destaque qualquer texto de interesse enquanto navega.
  2. Na interface de linha de comando, uma caixa de diálogo aparecerá.
  3. Selecione “Explorar mais” para aprofundar o tópico sem sair da página.
  4. Este recurso estava anteriormente disponível no chat lateral, mas agora está integrado de forma transparente à interface de linha de comando.

As novas atualizações estão disponíveis agora para todos os usuários através da versão Developer da Opera, e permitem produzir texto refinado e de alta qualidade sem esforço e explorar a web como nunca. Experimente o futuro da edição de texto com o Modo Escrita e as novas funções disponíveis da Aria hoje! Para ficar por dentro, acompanhe os AI Feature Drops quinzenais.

NVIDIA Grace Hopper inicia nova era de supercomputação de IA

ISC – Impulsionando uma mudança fundamental na indústria de computação de alto desempenho em direção a sistemas alimentados por IA, a NVIDIA anuncia que nove novos supercomputadores em todo o mundo estão usando Superchips NVIDIA Grace Hopper™ para acelerar pesquisas e descobertas científicas. Combinados, os sistemas fornecem 200 exaflops, ou 200 quintilhões de cálculos por segundo, de poder de processamento de IA com eficiência energética.

Os novos supercomputadores baseados em Grace Hopper que serão lançados online incluem EXA1-HE, na França, da CEA e Eviden; Helios no Academic Computer Center Cyfronet, na Polônia, e Alps no Swiss National Supercomputing Center da Hewlett-Packard Enterprise (HPE); JUPITER no Jülich Supercomputing Center na Alemanha; DeltaAI no Centro Nacional para Aplicações de Supercomputação da Universidade de Illinois Urbana-Champaign; e Miyabi no Centro Conjunto para Computação Avançada de Alto Desempenho do Japão – estabelecido entre o Centro de Ciências Computacionais da Universidade de Tsukuba e o Centro de Tecnologia da Informação da Universidade de Tóquio.

A CEA, Comissão Francesa de Energias Alternativas e Energia Atômica, e a Eviden, uma empresa do Grupo Atos, anunciaram em abril a entrega do supercomputador EXA1-HE, baseado na tecnologia BullSequana XH3000 da Eviden. A arquitetura BullSequana XH3000 oferece um novo sistema patenteado de resfriamento de água quente, enquanto o EXA1-HE é equipado com 477 nós de computação baseados em Grace Hopper.

“A IA está acelerando a pesquisa sobre mudanças climáticas, acelerando a descoberta de medicamentos e levando a avanços em dezenas de outros campos”, diz Ian Buck, vice-presidente de hiperescala e HPC da NVIDIA. “Os sistemas NVIDIA Grace Hopper estão se tornando uma parte essencial do HPC por sua capacidade de transformar indústrias e, ao mesmo tempo, promover melhor eficiência energética.”

Além disso, Isambard-AI e Isambard 3 da Universidade de Bristol, no Reino Unido, e sistemas do Laboratório Nacional de Los Alamos e do Texas Advanced Computing Center, nos EUA, juntam-se a uma onda crescente de supercomputadores baseados em NVIDIA Arm usando Grace CPU Superchips e o Plataforma Grace Hopper.

IA soberana

O impulso para construir supercomputadores novos e mais eficientes baseados em IA está a acelerar à medida que países de todo o mundo reconhecem a importância estratégica e cultural da IA soberana – investindo em dados, infraestruturas e forças de trabalho detidos e alojados a nível nacional para promover a inovação.

Reunindo as arquiteturas de CPU NVIDIA Grace e GPU Hopper baseadas em Arm usando a tecnologia de interconexão NVIDIA NVLink®-C2C, o GH200 serve como motor por trás de centros científicos de supercomputação em todo o mundo. Muitos centros estão planejando passar da instalação do sistema à ciência real em meses, em vez de anos.

A primeira fase do Isambard-AI consiste em um HPE Cray Supercomputing EX2500 com 168 superchips NVIDIA GH200, tornando-o um dos supercomputadores mais eficientes já construídos. Quando os 5.280 Superchips NVIDIA Grace Hopper restantes chegarem ao Centro Nacional de Compostos da Universidade de Bristol neste verão, o desempenho aumentará em cerca de 32x.

“A Isambard-AI posiciona o Reino Unido como líder global em IA e ajudará a promover a inovação em ciência aberta tanto nacional quanto internacionalmente”, afirma o Prof. Simon McIntosh-Smith, Universidade de Bristol. “Trabalhando com a NVIDIA, entregamos a primeira fase do projeto em tempo recorde e, quando concluído neste verão, veremos um enorme salto no desempenho para avançar na análise de dados, descoberta de medicamentos, pesquisa climática e muitas outras áreas.”

Acelerando a descoberta científica

A plataforma de computação acelerada da NVIDIA inclui GPUs baseadas na arquitetura NVIDIA Hopper™, superchips de CPU NVIDIA Grace, superchips NVIDIA Grace Hopper, rede NVIDIA Quantum-2 InfiniBand e um conjunto completo de software NVIDIA AI e HPC.

“A inteligência artificial desempenha um papel fundamental na descoberta científica, pois oferece uma gama de ferramentas e técnicas que podem acelerar significativamente o processo de pesquisa e análise de dados em diversas áreas do conhecimento. Estamos muito felizes com mais essa novidade e temos certeza que ela contribuirá e muito para diversas pesquisas”, complementa Marcio Aguiar, diretor da divisão Enterprise da NVIDIA para América Latina.

ASUS apresentará tecnologias de ponta e soluções alimentadas por IA na Computex 2024

A ASUS anunciou hoje Always Incredible, seu evento de lançamento para a Computex 2024, que apresentará soluções inteligentes e anúncios em notebooks de IA e inovações empolgantes que abrangem todas as partes do portfólio de produtos da ASUS. O evento acontecerá no dia 3 de junho de 2024, às 16h (Horário de Taipé) e 5h (Horário de Brasília) e será transmitido em todas as redes sociais da ASUS, com anúncios de produtos cobrindo as soluções de IA da ASUS para os mercados empresarial, comercial e de consumo.

A ASUS e a ASUS Republic of Gamers (ROG) terão estandes físicos na Computex para mostrar seus mais recentes produtos e soluções alimentadas por IA para usuários de todas as esferas da vida. A exposição acontecerá de 4 a 7 de junho, entre 9h30 e 17h30, no Taipei Nangang Exhibition Hall 1, 4F. O estande da ASUS terá o número de estande M0519a, com o estande da ROG sendo numerado M0509a.

Como líder em inovação, a ASUS tem o prazer de destacar os seus mais recentes avanços em tecnologia nestes próximos eventos. A ASUS está pronta para mostrar como planeja oferecer soluções avançadas de IA para empresas, clientes comerciais e consumidores, com a IA em várias formas sendo um recurso de produto comum em toda a linha. 

No evento, a ASUS será acompanhada por vários parceiros de longa data da indústria que explicarão como a sua tecnologia foi adaptada e refinada pela ASUS para surpreender o público global. A ASUS também mostrará uma ampla gama de soluções de criadores de sua aclamada série de produtos ProArt, bem como uma ampla linha de poderosos notebooks ASUS AI. A marca ASUS TUF Gaming será representada com dois novos dispositivos de jogos, que oferecem desempenho imbatível para jogadores que querem ficar em movimento enquanto jogam. Além disso, pela primeira vez, a ASUS vai apresentar as suas soluções de IA empresariais e comerciais, como o servidor de IA e o AI NUC, a um público internacional.

Os participantes podem visitar o estande da ASUS para testemunhar a revelação dos ecossistemas de IA da empresa, incluindo servidores, estações de trabalho e soluções Enterprise. A ASUS também apresentará o seu primeiro notebook de Inteligência Artificial, um passo revolucionário para o futuro da computação. Embora a ênfase esteja nos notáveis avanços em IA, os consumidores podem esperar um forte compromisso em fornecer soluções inovadoras com a sustentabilidade em mente. Com todas as áreas do portfólio representadas, desde soluções de consumo até a divisão de servidores comerciais da empresa, o estande da ASUS certamente surpreenderá os visitantes.

O estande da ROG está pronto para oferecer uma experiência de jogo inigualável para todos os níveis de jogadores. Na vanguarda está uma seleção de equipamentos de jogos de primeira linha que os visitantes podem colocar as mãos durante o show, incluindo uma versão atualizada do inovador ROG Ally do ano passado. Com uma linha de periféricos de nível esports, notebooks, placas-mãe, placas gráficas, monitores e muito mais, a ROG tem todos cobertos, desde o jogador casual até o concorrente de nível profissional.

Realizada anualmente em Taipei, Taiwan, a Computex é uma das maiores e mais influentes exposições de tecnologia do mundo, atraindo milhares de visitantes de todo o mundo a cada ano. Este renomado evento é uma plataforma para a mais recente e maior inovação tecnológica, com as principais marcas apresentando seus mais novos produtos e conceitos. De hardware de ponta a software revolucionário, a Computex é um evento obrigatório para entusiastas de tecnologia, profissionais e mídia.

Escola de Comunicação da FGV promove seminário sobre as oportunidades e desafios do uso da Inteligência Artificial 

As novas gerações de Inteligência Artificial Generativas (IAG) estão mudando a produção e consumo de imagens. A cultura visual digital é influenciada pela geração de imagens sintéticas, trazendo novas oportunidades e desafios criativos. Para debater este tema, a Escola de Comunicação da FGV (FGV ECMI) promoverá, no dia 4 de junho, o Seminário Inteligência Artificial, cultura visual e criação no digital. Em pauta, os impactos da Inteligência Artificial.

Os palestrantes convidados são: Doris Kosminsky, professora da Pós-graduação em Artes Visuais e em Design (EBA-UFRJ); Júlia Giannella, professora do Departamento de Design e Tecnologia (UFF); e Patricia Werner, professora da FGV ECMI. A moderação do seminário será conduzida por Eurico Matos, professor da FGV ECMI. 

Serviço: 

Evento: Inteligência Artificial, cultura visual e criação no digital        

Data: 4 de junho de 2024

Horário: 16 horas

Local: Auditório do 12º andar

Link da inscrição: Link