Estas son las novedades presentadas en el Google I/O 2024

0
13

En la Conferencia de Desarrolladores, el CEO Sundar Pichai anunció la apertura «a Estados Unidos y pronto a otros países» de la función AI Overview, por la que los usuarios verán respuestas a consultas complejas generadas por IA. «Estoy emocionado de anunciar que comenzaremos a desplegar esta experiencia completamente renovada esta semana», dijo Pichai. «Google se encuentra en plena era Gemini», añadió, en referencia al chatbot lanzado hace un año, «un modelo fronterizo diseñado para ser multimodal desde el principio».

Hasta la fecha, todos los productos de Google que superan los 2.000 millones de usuarios utilizan las capacidades de Gemini». El CEO reveló entonces que durante Google I/O el término inteligencia artificial se mencionó más de 120 veces.

En la nueva interfaz, el chatbot resume la respuesta a la pregunta escrita en el clásico recuadro superior, antes que las clásicas páginas web. Si uno escribe «¿cómo quitar una mancha de café de la alfombra?», Gemini devolverá los pasos recomendados con más enlaces de referencia.

En la conferencia de desarrolladores, Google respondió a OpenAI presentando un asistente digital «multimodal» que también puede procesar video y voz, no sólo texto. Se llama Project Astra y es la respuesta a Gpt-4o, lanzado hace apenas 24 horas por la competencia. Procesa texto, voz e imágenes en tiempo real mientras interactuamos, entendiendo también el contexto. «Queremos que la IA sea útil para todos. Para lograr ese objetivo, hemos trabajado con DeepMind en la construcción del Proyecto Astra y los Agentes de IA», dijo Pichai. Una demostración en directo mostró la capacidad de utilizar la cámara del teléfono para reconocer lo que hay a su alrededor. La IA «ve» el contexto y responde, con voz, a las preguntas del usuario, como si se tratara de una conversación entre dos personas.

Los agentes de IA son módulos, una especie de pequeña inteligencia artificial, que aprenden el comportamiento de las personas para anticiparse a sus peticiones y coordinar actividades, incluso en plataformas diferentes. Están diseñados para funcionar en ordenadores y dispositivos móviles. Estos agentes se basan en el modelo Gemini y otros específicos para procesar la información más rápidamente, codificando continuamente datos como fotos y vídeos, que se integran con la voz. Para una experiencia aún más personal, los abonados a Gemini Advanced podrán crear Gemini, versiones personalizadas de Gemini. Basta con describir lo que se desea y cómo debe responder la IA. Gemini examinará estas instrucciones y, con un solo clic, las utilizará para crear un Gemini que satisfaga las necesidades específicas. En un ejemplo proporcionado por Pichai, los agentes de IA podrán realizar tareas automatizadas en lugar de los usuarios, para comprar un par de zapatos en línea, conociendo ya los gustos de la persona y la talla que le queda. Con acceso seguro a la información de pago, los Agentes de IA realizarán el pago y programarán la entrega por mensajero a domicilio.

Conozcamos a Veo
El desafío a los programas que convierten indicaciones textuales en videos llega de la mano de Google Veo. La compañía presentó una nueva inteligencia artificial durante la conferencia I/O 2024. Veo genera películas de alta calidad que pueden superar el minuto, con muchos estilos visuales y cinematográficos diferentes. Con una comprensión avanzada del lenguaje natural y la semántica visual, Veo puede generar vídeos que representan con precisión la visión creativa del usuario, captando el tono de las peticiones. El modelo también incluye términos específicos, como «timelapse» o «tomas de paisajes aéreos», para crear escenas realistas, igual que hace un realizador de vídeos en la vida real.

Demis Hassabis, director general de Google DeepMind, explicó que Veo es capaz de mantener cierta coherencia en los videos finales, algo que suele faltar en los proyectos de IA, con personas, animales y objetos moviéndose de forma realista por las tomas. De momento, el acceso a Veo está restringido, y Google colabora con algunos creativos para mostrar el potencial de la IA.

En el campo multimedia, también se anuncia Imagen 3, que genera fotos a partir de texto. Según Google, Imagen 3 comprende mejor el lenguaje natural y las intenciones de los usuarios, ya sean descripciones breves o textos más largos. También se ha optimizado la realización de texto en gráficos, una de las principales carencias de las actuales soluciones de inteligencia artificial generativa abiertas al público.

Todas las mejoras de Gemini dependen del nuevo modelo Gemini 1.5 Pro, que cuenta con una ventana contextual de 1 millón de tokens -según Google, la mayor para cualquier chatbot de consumo en todo el mundo. Gemini Advanced, la declinación más alta de la IA, puede captar el significado de documentos de tamaño considerable, por ejemplo, PDF de 1.500 páginas, o resumir 100 correos electrónicos en unos segundos. Pronto será capaz de manejar contenidos de vídeo de hasta 1 hora de duración. También se ha actualizado el hardware que mejora el cálculo de los modelos de inteligencia artificial de Google. Trillium es el nombre de la sexta generación de procesadores para Google Cloud, diseñados para gestionar las redes neuronales que dan vida al rendimiento de la IA.

Más lanzamientos
Pichai, en Google I/O 2024, informó la llegada de ‘Circle and Search’ a todos los dispositivos Android. Se trata de la función, lanzada en enero en el Galaxy S24 y posteriormente en los smartphones Pixel, con la que es posible rodear cualquier elemento de la pantalla del teléfono y obtener respuestas contextuales, gracias a la IA generativa de Gemini. En esta ocasión, ‘rodear y buscar’ se amplía para responder a diversas instrucciones, entre ellas la resolución de tareas matemáticas, con una explicación paso a paso del proceso para llegar al final de una ecuación o gráfico.

Pero eso no es todo: en la segunda mitad del año, en los dispositivos Pixel, Google traerá las opciones de Gemini Nano, el modelo de inteligencia artificial más pequeño de Google, diseñado específicamente para dispositivos móviles. Este tendrá capacidades multimodales completas: además del procesamiento de entrada de texto simple, el teléfono inteligente también podrá comprender más información contextual, como ubicaciones, sonidos y lenguaje hablado. En concreto, las personas también podrán subir videos grabados con el móvil a la barra de búsqueda de Google, para utilizarlos en la búsqueda de respuestas a un problema. La IA reconocerá el enfoque para devolver otros vídeos relacionados y enlaces útiles. La actualización también afectará a la seguridad digital de los usuarios. Según Google, en un periodo de 12 meses se perdieron más de un billón de dólares por fraudes telefónicos.

La empresa está probando una nueva función que utiliza Gemini Nano para proporcionar alertas en tiempo real durante una llamada telefónica si detecta patrones de conversación comúnmente asociados con el fraude. Por ejemplo, recibirá una alerta si una persona que dice ser un representante bancario le pide que transfiera fondos urgentemente, realice un pago con tarjeta o revele información personal como un PIN o una contraseña. Esta protección tiene lugar íntegramente en el dispositivo, sin revelar información en línea y manteniendo todo en privado.

Fuente: Web. Editado por CambioDigital OnLine

Custom Text
Artículo anteriorSony Professional presenta innovaciones para industria del entretenimiento en LiveTEC 2024
Artículo siguienteGoogle I/O 2024: Google Circle to Search ya puede resolver problemas matemáticos a los estudiantes: Así funciona