El análisis de código, la comprensión de grandes volúmenes de texto y la traducción de un idioma aprendiendo de una lectura de un libro son algunos de los avances de Gemini 1.5
Demis Hassabis, CEO de Google DeepMind, ha presentado la nueva versión del modelo de lenguaje Gemini (LLM). La nueva versión del LLM, antes conocido como Bard, es el último intento de Google de desviar la atención de la inteligencia artificial avanzada (IA) de su rival ChatGPT de OpenAI a la nueva tecnología que ha desarrollado.
En un blog en el que hablaba de la versión Gemini 1.5, Hassabis hablaba de un «rendimiento espectacularmente mejorado» y afirmaba que representa un cambio radical en el enfoque que Google adopta en el desarrollo de la IA. Según Hassabis, la versión Pro, que ya está disponible en versión preliminar para desarrolladores, está optimizada para la «comprensión de contextos largos». En la entrada de su blog aparece un vídeo que muestra cómo Gemini 1.5 resumió una transcripción de 402 páginas de la misión de alunizaje del Apolo 11. Otro vídeo muestra el análisis de un texto de 44 minutos de duración.
Otro vídeo muestra el análisis de una película de Buster Keaton de 44 minutos, en la que se pide a Géminis 1.5 que identifique una escena en la que el protagonista coge un trozo de papel.
Video cortesia de Google
En un tuit publicado en X, un ingeniero de Google explicaba cómo tres programas de JavaScript, con un total de más de 100.000 líneas de código, se enviaron como entradas a Gemini 1.5. «Cuando le pedimos a Gemini que encontrara los tres mejores ejemplos dentro de la base de código para ayudarnos a aprender una habilidad específica, buscó entre cientos de ejemplos posibles y volvió con opciones súper relevantes», dijeron.
Utilizando sólo una captura de pantalla de una de las demostraciones de la base de código, la prueba demostró que Gemini era capaz de encontrar la demostración adecuada y, a continuación, explicar cómo modificar el código para conseguir un cambio específico en la imagen.
En otro ejemplo, Gemini se utilizó para localizar una animación concreta y explicar qué código se utiliza para controlarla. Según el ingeniero, Gemini 1.5 fue capaz de mostrar exactamente cómo personalizar este código para realizar un ajuste específico en la animación.
Cuando se les pidió que cambiaran el texto y el estilo en un ejemplo de código, afirmaron que Gemini 1.5 fue capaz de identificar las líneas exactas de código que había que cambiar y mostró a los desarrolladores cómo hacerlo. También explicaba qué se había hecho y por qué.
Más información sobre los LLM
Analizamos las principales áreas que los desarrolladores empresariales deben tener en cuenta a la hora de crear, probar e implantar aplicaciones empresariales basadas en grandes modelos lingüísticos.
¿Dónde están el valor empresarial, el riesgo y las dificultades de despliegue de los LLM? Estos son algunos de los principales consejos de Forrester.
En otro tuit, Jeff Dean, científico jefe de Google DeepMind, explicaba cómo Gemini 1.5 había sido capaz de traducir al inglés un idioma que nunca antes había visto, el kalamang, hablado por la población de Nueva Guinea Occidental. El modelo se entrenó con un libro de 573 páginas, A grammar of Kalamang, de Eline Visser, y una lista bilingüe de palabras. Basándose en la investigación cuantitativa, dijo que Gemini 1.5 obtuvo una puntuación de 4,36 sobre 6, en comparación con un humano que aprendía la lengua kalamang, que obtuvo una puntuación de 5,52.
Hassabis explica que Gemini 1.5 utiliza una nueva arquitectura de Mezcla de Expertos (MoE). Según el tipo de información recibida, los modelos MoE aprenden a activar selectivamente sólo las vías expertas más relevantes de su red neuronal. «Esta especialización aumenta enormemente la eficacia del modelo», afirma Hassabis.
Fuente WEB | Editado por CambioDigital OnLine