Google, una empresa líder en tecnología, ha lanzado una nueva versión de su modelo de inteligencia artificial llamado Gemini 1.5 Pro. Esta versión está dirigida a un grupo selecto de desarrolladores.
La característica principal de Gemini 1.5 Pro es su capacidad para procesar grandes cantidades de información de una sola vez. Por ejemplo, puede analizar una hora de video, once horas de audio, 30,000 líneas de código o más de 700,000 palabras en un solo proceso.
Esto indica una mejora significativa en la capacidad de procesamiento de datos de la inteligencia artificial, lo que puede tener diversas aplicaciones en campos como el análisis de datos, la traducción automática, la transcripción de audio, entre otros.
Oriol Vinyals, vicepresidente de investigación de Google DeepMind y director ejecutivo de Gemini, dijo que “Hace unos años memorizar u obtener el contexto de cientos de palabras era bastante difícil e incluso si miramos a la década de 1950, cuando Shannon (el matemático que inventó la teoría de la información) soñada con modelos de lenguaje, estaba analizando dos palabras de contexto”.
Para ejemplificar las capacidades de Gemini 1.5 Pro, Vinyals mostró -usando un vídeo pregrabado- que el modelo era capaz de analizar un texto de 402 páginas de transcripciones del Apolo 11 -la primera misión en lograr que un ser humano llegase a la luna- y encontrar tres citas graciosas.
Además de con texto, los usuarios podrán interactuar con el modelo con fotos o dibujos. En el ejemplo del vídeo de presentación, el usuario le dio a Gemini 1,5 Pro un dibujo muy sencillo de una bota pisando el suelo y le pidió: “¿Qué momento es este? responde con una cita exacta”.
La respuesta de la máquina fue la famosa cita del astronauta Neil A. Armstrong: “Ese es un pequeño paso para el hombre”.
Vinyals mostró otros ejemplos parecidos, en lo que como base se usaba una película muda de 45 minutos de Buster Keaton, en lugar de un texto.
Con respecto a la programación, señala: “Puede realizar tareas de resolución de problemas más relevantes en bloques de código más largos. Cuando se le presenta un mensaje con más de 100.000 líneas de código, puede razonar mejor entre ejemplos, sugerir modificaciones útiles y dar explicaciones sobre cómo funcionan las diferentes partes del código”.
“En cierto modo, funciona de manera muy similar a como lo hace nuestro cerebro”, explicó Vinyals.
Gemini 1.5 funciona a un nivel similar al 1.0 Ultra, el modelo de Google más sofisticado hasta la fecha. (Con información de EFE)