Durante o lançamento do telefone Pixel do Google na terça-feira, um diretor de produto chamado David Citron subiu ao palco para mostrar os recursos móveis do novo assistente de IA da empresa, Gemini. As coisas ficaram estranhas logo depois que o apresentador disse ao público: “a propósito, todas as demos de hoje são ao vivo”.
Diante de uma grande multidão de meios de comunicação e analistas em do Google Sede do Vale do Silício e cerca de 100 mil espectadores no YouTube, Citron tirou uma foto do pôster de um show e pediu ao assistente que verificasse sua agenda para ver se ele estava livre na noite em que a estrela pop Sabrina Carpenter se apresentaria em São Francisco.
A demonstração falhou, congelando e exibindo uma mensagem de erro. Citron tentou novamente, com o mesmo resultado. Após um rápido apelo verbal aos “deuses da demonstração” e uma troca de telefone, a terceira tentativa funcionou.
“Claro, descobri que Sabrina Carpenter virá para São Francisco em 9 de novembro de 2024”, escreveu a assistente em uma mensagem que apareceu na tela de Citron. “Não vejo nenhum evento em sua agenda durante esse período.”
Embora o incidente tenha sido breve e cheio de erros, a demonstração destacou uma das vantagens do Google, à medida que os recursos de inteligência artificial se aprofundam no software dos smartphones. Os rivais estão preparando os consumidores para um futuro de IA, mas os recursos do Gemini do Google são reais e estão sendo enviados – pelo menos para fins de teste – agora.
Em junho, Maçã apresentou um vídeo pré-gravado, em vez de uma demonstração ao vivo, para mostrar o próximo salto de seu assistente Siri na capacidade de realizar ações e compreender o contexto sob seu novo sistema de IA chamado Apple Intelligence.
O Apple Intelligence está atualmente em testes para desenvolvedores, mas algumas de suas melhorias mais críticas, incluindo geração de imagens, integração com ChatGPT e avanços importantes para seu assistente Siri, ainda não saíram oficialmente dos laboratórios da Apple.
OpenAI, que deu início ao boom de IA generativa com ChatGPT, também revela frequentemente avanços de IA, mas limita estritamente o número de pessoas que podem testá-los.
“Acho que a novidade é que saímos do modo de projetar uma visão de para onde as coisas estão indo, como o envio real do produto”, disse Rick Osterloh, chefe de dispositivos do Google, a Deirdre Bosa da CNBC na terça-feira.
As demonstrações ao vivo do Google marcam uma mudança em relação ao final do ano passado, quando a empresa tentou exibir o Gemini em uma demonstração e acabou sendo duramente criticada pela edição do vídeo.
“O que mostramos hoje é o material que será enviado nos próximos dias ou semanas, e isso é realmente crítico”, disse Osterloh. “Muitas das coisas que outras empresas anunciaram não estão realmente disponíveis para muitas pessoas. Isso estará disponível para milhões de pessoas muito em breve.”
Após o anúncio da Apple em junho, a empresa realizou alguns testes ao vivo com a mídia e analistas da Apple Intelligence nos dispositivos atuais. Em julho, a Apple lançou uma prévia de algumas funções do Apple Intelligence para desenvolvedores, incluindo a capacidade de gerar resumos, bem como um novo visual para Siri que faz toda a tela do iPhone brilhar. No entanto, a pré-visualização não inclui funções como geração de imagens, integração ChatGPT e as melhorias mais esperadas do Siri que lhe permitirão realizar tarefas de forma natural.
O lançamento do Google na terça-feira pode colocar pressão renovada sobre a Apple, à medida que os dois líderes do mercado de smartphones correm para integrar a IA em seus sistemas operacionais. A IDC estima que os smartphones com capacidade de “Geração AI” – telefones com os chips e a memória necessários para executar a IA – irão mais do que quadruplicar em unidades vendidas em 2024, para cerca de 234 milhões de dispositivos.
“Hoje temos uma ideia do que a Apple está competindo”, disse Grace Harmon, analista da eMarketer, em entrevista.
Com a IA generativa migrando para os telefones, o mercado também verá uma mudança no processamento de IA. Em vez de modelos sofisticados que emulam a produção humana sendo executados em enormes NvidiaBaseados em data centers, os recursos de IA para dispositivos contarão com funções mais simples, como resumo ou fluência, executadas principalmente nos chips já dentro dos dispositivos.
Na apresentação de 100 minutos do Google na terça-feira, a empresa mostrou vários recursos que ainda não estão disponíveis em outros lugares.
O exemplo de Citron – fazer perguntas sobre o conteúdo de um pôster em uma foto – destaca um avanço técnico chamado “IA multimodal”, que não é um recurso planejado da Apple.
A empresa introduziu um recurso que permite aos usuários fazer capturas de tela do que estão visualizando, e o Google compilará essas informações em notas que poderão ser pesquisadas rapidamente posteriormente.
A apresentação mais importante do Google na terça-feira foi Gemini Live, seu assistente de próxima geração. Na demonstração, a tecnologia foi capaz de conversar naturalmente, como uma pessoa, adicionando itens a listas de compras ou verificando os calendários do Google. Em breve, ele poderá ajudar o usuário a fazer pesquisas profundas, disse Osterloh no palco. Os executivos do Google atribuíram as capacidades a “décadas de investimento” em IA e à sua “estratégia integrada de IA”.
A certa altura, o Google disse que sua IA era uma “experiência completa de ponta a ponta que somente o Google pode oferecer”, um ajuste em uma frase que vem há muito tempo da Apple. Tim Cook, CEO da Apple, gosta de dizer que “apenas maçã“pode criar seus produtos devido à sua experiência na integração de hardware e software.
Em um Comunicado de imprensao Google tentou a próxima integração da Apple com o ChatGPT, que é esperada antes do final do ano. A empresa disse que a abordagem da Apple é menos privada do que a do Google, porque o Gemini “não exige transferência para um provedor de IA terceirizado que você talvez não conheça ou não confie”.