AudioPaLM es una arquitectura multimodal que combina las ventajas de dos modelos ya existentes: PaLM-2 y AudioLM y puede manejar y producir texto y voz.
om.gupta Publicado: 26 de junio de 2023 11:24 AM IST
Últimamente se han producido muchos avances y desarrollos en el campo de los grandes modelos lingüísticos (LLM). Estos modelos son un tipo de red neuronal artificial que tiene muchos parámetros y se entrena con una gran cantidad de datos de texto mediante aprendizaje autosupervisado o aprendizaje semisupervisado. Leer también – Alphabet, matriz de Google, y Airtel apuestan por el láser para llevar Internet a zonas remotas
Estos grandes modelos lingüísticos impulsan nuevas herramientas de IA generativa como Google Bard y ChatGPT de OpenAI. Recientemente, los investigadores de Google han dado a conocer un nuevo modelo lingüístico llamado AudioPaLM, capaz de escuchar, hablar y traducir. Lee también – Android hacks: Cómo transferir contactos de un teléfono a otro
AudioPaLM es una arquitectura multimodal que combina las ventajas de dos modelos ya existentes: PaLM-2 y AudioLM. El sistema puede manejar y producir texto y voz y puede aplicarse para el reconocimiento de voz o para crear traducciones con voces originales. Lea también – YouTube planea expandirse a los juegos en línea con «Playables»: Informe
PaLM-2 es un modelo lingüístico basado en texto que es capaz de comprender conocimientos lingüísticos específicos de un texto. AudioLM es experto en retener información paralingüística como la identidad y el tono del hablante.
Al combinar estos dos modelos, AudioPaLM utiliza la capacidad lingüística de PaLM-2 y la conservación de información paralingüística de AudioLM, lo que da como resultado una comprensión y generación más profundas tanto del texto como del habla.
Además, el modelo puede realizar traducciones de voz a texto en muchos idiomas, incluso para combinaciones de voz que no haya visto durante el entrenamiento. Esta capacidad puede ser útil para aplicaciones reales, como la comunicación multilingüe en tiempo real.
AudioPaLM también puede transferir voces de un idioma a otro a partir de breves instrucciones habladas, así como capturar y reproducir voces distintas en diferentes idiomas.
AudioPaLM ha obtenido los mejores resultados en pruebas de traducción de voz y ha demostrado un rendimiento competitivo en tareas de reconocimiento de voz.
Filtro Perspective de Google Search
Google anunció un nuevo filtro para la Búsqueda de Google conocido como «Perspectivas» en su conferencia anual de desarrolladores, Google I/O 2023, el mes pasado. Ahora, casi un mes y medio después, la compañía ha comenzado a desplegar el nuevo filtro Perspectives a todos los usuarios de la Búsqueda de Google en todo el mundo.
Google ha hecho el anuncio a través de una publicación en sus redes sociales. «El mes pasado en #GoogleIO compartimos las actualizaciones que estamos haciendo a la Búsqueda para ayudarte a encontrar y explorar diversas perspectivas de expertos y gente común. Hoy podrás probarlas», escribió la empresa en un mensaje en su cuenta oficial de Twitter.
El nuevo filtro Perspectives de Google Search aporta un aspecto humano a los resultados de búsqueda. En la actualidad, los resultados de búsqueda que los usuarios ven en la plataforma se ven afectados por el algoritmo de la empresa basado en varios factores como fechas, autores, valoraciones y proximidad, entre otros. Ahora, la nueva función Perspectivas cambia esa situación al incorporar opiniones y sugerencias de seres humanos reales.
Fuente WEB | Editado por CambioDigital OnLine







































