Esta semana foi repleta de novidades no mundo da Inteligência Artificial! Com base nos últimos anúncios e atualizações, compilamos um resumo para mantê-lo informado sobre o que há de mais relevante acontecendo em empresas como Meta, Google, OpenAI e outras.

Meta Revoluciona com Llamacon e o App Meta AI

A Meta realizou seu primeiro Llamacon, um evento focado exclusivamente em IA, diferente do Meta Connect, que abrange mais plataformas sociais e hardware. O grande destaque do Llamacon foi a nova versão do aplicativo Meta AI. O aplicativo Meta View, usado para os óculos Meta Ray-Ban, foi renomeado para Meta AI, e agora inclui um recurso de chat AI independente, permitindo conversar diretamente com o modelo Llama.

O aplicativo busca tornar as conversas de IA mais sociais, com um botão de compartilhamento que permite postar conversas completas em um feed. Assim como em outras redes sociais, as pessoas podem comentar, compartilhar e curtir essas postagens. É uma ótima maneira de encontrar inspiração para prompts ao ver as criações e chats de outros usuários. O aplicativo também gera imagens, aparentemente usando o gerador de imagens Emu da Meta.

Uma funcionalidade interessante para usuários dos óculos Ray-Ban Meta é a capacidade de iniciar uma conversa nos óculos e continuar no aplicativo do celular ou na versão web. No entanto, houve atualizações significativas na política de privacidade:

  • O uso da câmera com Meta AI está sempre ativo nos óculos, a menos que seja desativado manualmente.
  • Fotos e vídeos capturados nos óculos vão para o rolo da câmera do seu telefone e não são usados pela Meta para treinamento, incluindo aqueles capturados por comando de voz (“Hey Meta, tire uma foto/vídeo”).
  • Usuários de óculos Ray-Ban Meta não podem mais desativar o armazenamento de suas gravações de voz na nuvem. Embora não seja possível desativar o armazenamento, ainda é possível excluir as gravações a qualquer momento nas configurações.
  • Transcrições de voz e gravações de áudio armazenadas ficam guardadas por até um ano para ajudar a melhorar os produtos da Meta. Isso sugere que Meta provavelmente usará áudio e transcrições para treinar seus modelos de linguagem, mas não fotos e vídeos.

Olhando para o futuro, o aplicativo Meta AI planeja incorporar anúncios. Embora atualmente seja gratuito e sem anúncios, Mark Zuckerberg mencionou a inclusão de recomendações de produtos ou anúncios durante a chamada de resultados do primeiro trimestre de 2025. A Meta quer focar em escalar e aprofundar o engajamento por pelo menos um ano antes de construir o lado comercial. Ainda não está claro como os anúncios serão implementados, podendo ser anúncios intercalados no feed de conversas ou até mesmo respostas patrocinadas dentro dos chats, por exemplo, recomendando um produto específico quando você pede sugestões.

Google Expande Acesso ao Modo AI e Atualiza Aplicativos

O Google está liberando o Modo AI em sua Busca. Visto como uma resposta a ferramentas como Perplexity ou os novos recursos de busca do ChatGPT, o Modo AI agora está disponível nos EUA para todos os usuários do Google Labs. Embora possa haver um pequeno atraso para a ativação em todas as contas Labs nos EUA, o Google também iniciará um teste limitado fora do Labs, mostrando a aba do Modo AI para uma pequena porcentagem de pessoas nos EUA nas próximas semanas.

Para usuários do aplicativo Gemini no Android, agora é possível carregar e editar imagens diretamente. Esse recurso já estava disponível no AI Studio do Google, permitindo adicionar elementos como óculos de sol ou chapéus às imagens.

O Notebook LM, a ferramenta para organizar e resumir informações, agora pode gerar resumos em áudio (como pequenos podcasts) a partir dos dados que você fornece, com suporte para mais de 50 idiomas.

Para aprendizado de idiomas rápido e prático, o Google lançou um novo aplicativo chamado Little Language Lessons. Ele é ideal para quem precisa aprender o básico de um idioma para uma viagem. O aplicativo oferece três experimentos:

  • Tiny Lesson: Encontra vocabulário, frases e gramática relevantes para qualquer situação.
  • Slang Hang: Permite aprender expressões, gírias e sotaques regionais a partir de uma conversa gerada entre falantes nativos.
  • Word Cam: Use a câmera para tirar uma foto e aprender a falar sobre o que está ao seu redor. Por exemplo, ao escolher um tema como “comer em um restaurante” em japonês, ele gera vocabulário e frases úteis.

Avanços na IA Criativa: Estilo e Referência Visual em Destaque

O campo da IA criativa viu várias atualizações interessantes esta semana:

  • Recraft introduziu uma enorme biblioteca de estilos e a capacidade de criar estilos personalizados misturando múltiplos estilos. Você pode ajustar o peso de cada estilo na mistura para obter o visual exato desejado. Esses estilos personalizados podem ser salvos e até compartilhados com outros usuários. Essa funcionalidade é ótima para experimentar rapidamente, garantir consistência de marca e ajustar o estilo de imagem.
  • MidJourney lançou o recurso Omni Reference, que permite “injetar” elementos visuais (como personagens, objetos, veículos) de uma imagem de referência em suas novas criações. Para usar, você precisa estar na versão 7 do MidJourney. É possível ajustar a força da referência. Em testes, o recurso mostrou-se eficaz em incorporar características faciais de uma imagem de referência.
  • Cling AI adicionou um efeito chamado Instant Film Effect. Você carrega uma imagem (como um retrato), e a IA a transforma em algo que parece uma foto Polaroid e então a anima. Funciona com várias pessoas e animais.
  • Higsfield AI apresentou o recurso Iconic Scenes. Com uma selfie, você pode se inserir em momentos lendários de filmes ou animações e gerar uma animação. Note que, no plano gratuito, o tempo de espera para a geração pode ser bem longo.
  • Craya lançou o GPT Paint. Este recurso permite orientar o ChatGPT visualmente usando marcações de edição, formas básicas, notas e imagens de referência. Por exemplo, você pode carregar uma imagem de um dinossauro, adicionar imagens de botas e um chapéu, desenhar setas indicando onde colocá-los e a IA gerará o dinossauro usando esses itens. Essencialmente, é uma funcionalidade semelhante ao que usuários já experimentavam com o GPT-4o, mas agora nativamente integrado ao Craya.

Modelos de Linguagem e Agentes: Evolução Contínua

  • OpenAI fez uma correção no GPT-4o. Sam Altman expressou insatisfação com a personalidade da versão atual, descrevendo-a como excessivamente “bajuladora” ou “servil” (psychopantic). Como resultado, as atualizações que causaram esse comportamento foram revertidas. A empresa está revisando a forma como coleta feedback para priorizar a satisfação do usuário a longo prazo e planeja introduzir mais recursos de personalização. Eles explicaram que o foco excessivo no feedback de curto prazo na última atualização levou a uma personalidade excessivamente solidária, mas insincera. O ChatGPT também recebeu melhorias na busca, uma experiência de compra aprimorada (que pode mostrar recomendações de produtos, mas sem serem anúncios pagos), e a funcionalidade de busca foi adicionada ao WhatsApp. As citações foram melhoradas e recursos como tendências e preenchimento automático foram adicionados à janela de prompt.
  • Elon Musk anunciou que devemos receber o Grock 3.5 em breve, possivelmente na próxima semana, para assinantes de níveis mais altos. Ele afirma que é o primeiro modelo de IA capaz de responder com precisão a perguntas técnicas complexas, como sobre motores de foguete ou eletroquímica, raciocinando a partir de princípios básicos e gerando respostas que não existem na internet.
  • Anthropic anunciou integrações para o Claude. Embora os detalhes ainda pareçam um pouco complexos, parece que agora existem conexões mais oficiais para usar o Claude com outros aplicativos diretamente na versão web, além de ferramentas de terceiros. Por enquanto, essas integrações estão disponíveis apenas nos planos Max, Team e Enterprise.
  • Alibaba revelou o Qwen 3, descrito como um modelo de raciocínio híbrido. Modelos híbridos permitem ativar ou desativar o processo de “pensamento” ou “cadeia de pensamento” da IA. Deixar o modelo “pensar” por mais tempo geralmente resulta em respostas mais precisas, enquanto desativar o processo torna a resposta mais rápida, útil quando a precisão extrema não é a prioridade. Pelos benchmarks, o Qwen 3 parece ser bastante bom.
  • Uma nova agente de IA chamada VI foi anunciada pela empresa Versep. VI é projetada para interagir com seu computador como um humano, vendo e usando seus aplicativos e contas nativamente no seu sistema operacional. Embora o download esteja disponível, o uso completo requer aprovação e entrada em uma lista de espera. Em demonstrações, VI foi mostrada abrindo aplicativos, clicando em elementos da interface e realizando tarefas complexas (como usar um aprimorador de áudio online). A grande vantagem é que você não precisa saber usar o aplicativo; você diz à VI o que quer, e ela sabe como navegar pela interface e executar a tarefa. Isso também pode servir como uma forma de aprender a usar aplicativos observando a IA operar.

Outras Notícias e Aplicações de IA

  • O gerador de música Suno lançou a versão 4.5 para usuários pagos. As melhorias são descritas como minoritárias, incluindo gêneros expandidos, mashups mais inteligentes, vozes aprimoradas, som mais texturizado e melhor aderência aos prompts.
  • A Duolingo anunciou que se tornará uma empresa “AI-first”, seguindo os passos de outras como Toby e Shopify. A empresa pretende gradualmente parar de usar contratados para tarefas que a IA pode realizar e está repensando suas operações. Eles enfatizam que isso não significa substituir funcionários, mas sim remover gargalos e permitir que a equipe se concentre em trabalhos criativos e na resolução de problemas complexos, em vez de tarefas repetitivas.
  • A Lyft lançou um assistente de ganhos com IA para seus motoristas. A ferramenta permite que os motoristas perguntem como otimizar seus turnos com base em dados em tempo real (chegadas em aeroportos, eventos locais, etc.), ajudando-os a maximizar o número de corridas e ganhos.
  • A empresa Aurora começou a operar caminhões autônomos em rodovias públicas no Texas. Após anos de testes, seus caminhões totalmente autônomos estão fazendo entregas de clientes entre Dallas e Houston, tendo completado mais de 1.200 milhas sem motorista.

Observação sobre a Geração de Imagens do GPT-4o:

Foi observado que, ao pedir ao GPT-4o para criar uma “réplica exata” de uma imagem e repetir o prompt várias vezes (como 74 ou 101 vezes), a imagem gerada muda gradualmente a cada iteração. Depois de muitas repetições, a imagem final pode parecer completamente diferente da original. Isso demonstra que as pequenas alterações que o modelo faz a cada geração se acumulam em uma transformação significativa ao longo de muitas iterações.

Perspectiva Final

O criador do conteúdo compartilhou que tem se sentido menos entusiasmado com as melhorias marginais em grandes modelos de linguagem (LLMs), pois os modelos atuais já atendem a muitas de suas necessidades. Ele se mostra mais animado com os avanços significativos em ferramentas criativas de IA, como geradores de vídeo, imagem, música e texto-para-voz.

Esta semana trouxe atualizações importantes em várias frentes da IA, desde a reestruturação de aplicativos e políticas de privacidade até novas ferramentas criativas e aplicações práticas em transporte e trabalho.



Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *