top of page
  • Foto del escritorReclunautas

#EsTendencia Google lanza Gemini, su modelo multimodal de IA generativa para dispositivos

Google ha anunciado su nuevo modelo de IA generativa multimodal Gemini, el más potente de la compañía hasta ahora. Disponible en tres tamaños, está pensado para poder utilizarse en todo tipo de dispositivos y sistemas, desde smartphones hasta centros de datos. La compañía ha invertido varios meses en el modelo grande de lenguaje de Gemini, y hace poco que dio acceso a una versión preliminar del modelo a un grupo reducido de empresas para que lo probasen y comentasen sus impresiones.

Gemini es compatible con diversos modos de entrada de información: desde texto a vídeo, pasando por fotos y sonidos. Está entrenado para reconocerlos y comprenderlos, con el objetivo de que comprenda mejor los matices de la información y pueda contestar a preguntas relacionadas con temas complicados. Esto hace que su rendimiento sea mejor al explizar razonamientos en materias complejas, como matemáticas y física.

Esta primera versión de Gemini, además, pueden comprender, explicar y generar código de calidad en los lenguajes de programación más populares actualmente. Como Python, Java, C++ y Go. Puede trabajar con varios a la vez y razonar sobre información compleja. Saca puntuaciones elevadas en sistemas de prueba de desarrollo, como HumanEval y Natural2Code, un conjunto de datos de Google, que utiliza fuentes generadas por humanos en lugar de información basada en web.

Este modelo también se puede utilizar también como motor para sistemas de codificación más avanzados, lo que ha llevado a Google a, con una versión especializada de Gemini, crear un sistema de generación de código con IA más avanzado que el que tenían hasta ahora AlphaCode. Es AlphaCode 2, que tiene entre sus mejoras la capacidad de solucionar problemas de programación competitiva que van más allá del desarrollo e implican trabajo con matemáticas complejas y ciencias de la computación teóricas.

Como hemos mencionado, está disponible en tres tamaños: Ultra, Pro y Nano. El primero es el mayor y el más potente y capaz. Está pensado para realizar tareas de complejidad elevada. El segundo, algo menos potente, está pensado para escalar y realizar diversos tipos de tareas. Por último, el Nano, el más pequeño, está desarrollado expresamente para su integración en dispositivos más pequeños, como en los smartphones.

El model ya está disponible, e integrado en varios de los productos de Google. Por ejemplo, su chatbot Bard ya está utilizando una versión de Gemini Pro, lo que hace que cuente con razonamiento, planificación y comprensión más avanzados.

Su tamaño Nano estará ya integrado en el smartphones de Google Pixel 8 Pro, lo que le dotará de funciones como Resumen para la Grabadora, o Respuesta inteligente en el teclado Gboard. Además, según Google, ya están experimentando con Gemini en las búsquedas, con el objetivo de hacer que la experiencia de búsqueda generativa sea más rápida. Además, a principios del próximo año tienen intención de incorporar Gemini Ultra a una versión avanzada de Bard.

A lo largo de los próximos meses, Gemini irá también integrándose en diversas funciones de los proeductos y servicios de Google, como Ads, Chrome o Duet AI. En cuanto a los desarrolladores que quieran desarrollar apps con Gemini para un dispositivo móvil pueden solicitar acceso a una versión de prueba de Gemini Nano a través de Android AICore.

A partir del próximo 13 de diciembre, los desarrolladores y clientes de empresa podrán acceder a Gemini Pro a través de la API de Gemini en Vertex AI o Google AI Studio, la herramienta de desarrollo gratuita basada en la web de Google. En cuanto a Gemini Ultra, después de que pase varios controles detallados de confianza y seguridad, estará disponible a grupos de usuarios seleccionados antes de que pase a disponibilidad general para desarrolladores y clientes de empresa a principios de 2024.

Además de Gemini, Google ha aprovechado para presentar otras novedades. Como su chip ASIC Cloud TPU v5p, diseñado para gestionar las necesidades de proceso de información de la IA. Este chip puede entrenar modelos grandes de lenguaje hasta 2,8 veces más rápido que su versión TPU v4, y es la evolución del TPU v5e, anunciado a principios de 2023.

Por otro lado, Google Cloud ha anunciado también AI Hypercomputer, una arquitectura de superordenador que emplea un sistema integrado y optimizado para conseguir el mejor rendimiento posible de hardware, software abierto, frameworks de machine learning y modelos de consumo flexible. Los clients de la compañía pueden utilizarla para impulsar la eficiencia y la productividad en el entrenamiento de la IA, así como en su ajuste y oferta.




1 visualización0 comentarios

Comentarios


bottom of page