Em dezembro, O Google lançou o seu primeiro modelo nativamente multimodal, o Gemini 1.0, em três tamanhos: Ultra, Pro e Nano. Apenas alguns meses depois, lançamos o 1.5 Pro , com desempenho aprimorado e uma janela de contexto mais ampla e inovadora de 1 milhão de tokens.
Desenvolvedores e clientes corporativos têm colocado o 1.5 Pro em uso de diferentes maneiras [inserir link para vídeo de caso de uso do 1.5 Pro] e achado incrivelmente úteis sua ampla janela de contexto, recursos de raciocínio multimodal e desempenho geral.
Com base no feedback dos usuários, foi observado que alguns aplicativos precisam de menor latência e menor custo para ser efetivo e isso nos inspirou a continuar inovando. Por isso, hoje estamos apresentando o Gemini 1.5 Flash: um modelo mais leve que o 1.5 Pro e projetado para ser rápido e eciente para servir em grande escala.
Tanto o 1.5 Pro quanto o 1.5 Flash estão disponíveis, em pré-visualização, com uma janela de contexto de 1 milhão de tokens no Google AI Studio e Vertex AI. Uma janela de contexto de 2 milhões de tokens já está disponível para desenvolvedores que usam API e para clientes do Google Cloud, por meio de uma lista de espera. E estamos integrando o 1.5 Pro aos produtos do Google, incluindo o Gemini Advanced e os aplicativos Workspace .
Também foi anunciando a próxima geração de modelos abertos, Gemma 2, e compartilhando o progresso sobre o futuro dos assistentes de IA a partir do Projeto Astra [inserir link para vídeo do YT].
Atualizações da família de modelos Gemini
1.5 Flash: Um modelo mais rápido e eficiente
1.5 Flash é a mais nova adição à família Gemini e o modelo mais rápido servido na API . Ele é otimizado para tarefas de alto volume e alta frequência em escala, é mais econômico para atender e apresenta nossa inovadora janela de amplo contexto.
Embora seja um modelo mais leve que o 1.5 Pro, ele é altamente capaz de realizar o raciocínio multimodal em grandes quantidades de informações, além de oferecer uma qualidade impressionante para seu tamanho. O 1.5 Flash é excelente em resumos, aplicativos de bate-papo, legendagem de imagens e vídeos, extração de dados de documentos e tabelas longas e muito mais. Isso ocorre porque ele foi treinado pelo 1.5 Pro por meio de um processo chamado “destilação”, no qual o conhecimento e as habilidades mais essenciais de um modelo maior são transferidos para um modelo menor e mais eciente.
Um 1.5 Pro ainda mais útil
Nos últimos meses, o Google melhorou significativamente o 1.5 Pro, o melhor modelo para desempenho geral em uma ampla gama de tarefas. Além de estender sua janela de contexto para 2 milhões de tokens, aprimoramos sua geração de código, raciocínio lógico e planejamento, conversação de múltiplas etapas e compreensão de áudio e imagem por meio de dados e melhorias algorítmicas.
A versão mais recente do 1.5 Pro alcança fortes melhorias em benchmarks públicos em vários domínios, como raciocínio e codificação, bem como desempenho de última geração em vários estudos de compreensão de imagem e vídeo, incluindo: MMMU , AI2D , MathVista , ChartQA , DocVQA , InfográcoVQA e EgoSchema .
O 1.5 Pro agora pode seguir instruções cada vez mais complexas e diferenciadas, incluindo aquelas que especificam o comportamento em relação a produto envolvendo função, formato e estilo. Melhoramos o controle sobre as respostas para casos de uso específicos, como criar a persona e o estilo de resposta de um agente de chat, ou automatizar fluxos de trabalho por meio de múltiplas chamadas de função. Além disso, permitimos que os usuários orientem o comportamento do modelo definindo instruções do sistema.
Também foi adicionada a compreensão de áudio na API Gemini e no Google AI Studio, de modo que o 1.5 Pro agora pode raciocinar entre imagem e áudio para vídeos enviados no Google AI Studio.
Atualizações do Gemini Nano, o modelo para dispositivos
O Gemini Nano está expandindo além de entradas apenas de texto para incluir também imagens. Começando com o Pixel, aplicativos que utilizam o Gemini Nano com multimodalidade serão capazes de compreender o mundo da mesma forma que as pessoas fazem — não apenas por meio de entrada de texto, mas também através de visão, som e linguagem falada.
A próxima geração de modelos abertos
Hoje, o Google também está compartilhando uma série de atualizações do Gemma , nossa família de modelos abertos construídos a partir da mesma pesquisa e tecnologia usada para criar os modelos Gemini.
Foi anunciando o Gemma 2, a próxima geração de modelos abertos para inovação responsável em IA. A novidade possui uma nova arquitetura projetada para desempenho e eficiência inovadoras e estará disponível em novos tamanhos.
A família Gemma também está se expandindo com o PaliGemma , o primeiro modelo de linguagem de visão inspirado no PaLI-3 . Além disso, foi atualizado o Responsible Generative AI Toolkit com LLM Comparator para avaliar a qualidade das respostas do modelo.
O progresso no futuro dos assistentes de IA
Como parte da missão do Google DeepMind de construir IA de forma responsável para beneifciar a humanidade, sempre buscamos desenvolver agentes universais de IA que pudessem ser úteis na vida cotidiana. É por isso que hoje estamos compartilhando o Projeto Astra: nossa visão para o futuro dos assistentes de IA.
Para ser verdadeiramente útil, um agente precisa compreender e responder ao mundo complexo e dinâmico, tal como as pessoas fazem – e absorver e lembrar o que vê e ouve para compreender o contexto e agir. Ele também precisa ser proativo e pessoal, para que os usuários possam conversar com ele naturalmente e sem atrasos.
Embora tenhamos feito um progresso incrível no desenvolvimento de sistemas de IA que podem compreender informações multimodais, reduzir o tempo de resposta a algo coloquial é uma difícil decisão de engenharia. Nos últimos anos, temos trabalhado para melhorar a forma como nossos modelos percebem, raciocinam e conversam para tornar o ritmo e a qualidade da interação mais naturais.
Esses agentes foram construídos em nosso modelo Gemini e em outros modelos específicos de tarefas, e foram projetados para processar informações mais rapidamente, codificando continuamente frames de vídeos, combinando a entrada de vídeo e fala em uma linha do tempo de eventos e armazenando essas informações em cache para uma recuperação eficiente.
Ao aproveitar os principais modelos de fala, também foi melhorada a forma como eles soam, proporcionando aos agentes uma gama mais ampla de entonações. Esses agentes podem entender melhor o contexto em que estão sendo usados e responder rapidamente na conversa.
É fácil imaginar um futuro onde você poderá ter um assistente especializado ao seu lado por meio do telefone ou dos óculos. E alguns desses recursos chegarão aos produtos do Google, como o aplicativo Gemini , ainda este ano.
Sempre inovando
O Google fez um progresso incrível até agora com a nossa família de modelos Gemini e estamos sempre nos esforçando para avançar ainda mais com o que há de mais moderno. Ao investir em uma linha de produção incansável de inovação, somos capazes de explorar novas ideias na fronteira, ao mesmo tempo que desbloqueamos a possibilidade de novos e empolgantes casos de uso do Gemini.