Cómo se hace: Interactuar con Gemini a través de indicaciones multimodales

DIC 06, 2023
Alexander Chen Creative Director

Hagamos un experimento: mostraremos esta imagen a nuestro modelo multimodal Gemini y le pediremos que describa lo que ve:

hand_paper_2

Dime lo que ves

Gemini: Veo la mano derecha de una persona. La mano está abierta, con los dedos separados.

Bien. Probemos con esta imagen:

hand_rock_2

Gemini: Una persona que llama a una puerta de madera.

¿Qué te parece esta imagen?

hand_scissors_1

Gemini: Veo una mano con dos dedos extendidos, que suele ser el símbolo del número dos.

¡Momento!... ¿Qué pasaría si le pidiéramos a Gemini que reflexionara sobre todas estas imágenes juntas?

hand_rock_paper_scissors (1)

¿Qué crees que estoy haciendo? Pista: se trata de un juego.

Gemini: Estás jugando a piedra, papel o tijera.

Bien. ¿Qué más podríamos probar? Veamos si Gemini puede darse cuenta de este patrón:

hand_rock_paper_scissors_alternating (1)

Estoy jugando a piedra, papel o tijera. ¿Notas algún patrón en mi juego?

Gemini: Alternas entre piedra y tijera.

¡Genial! ¡Se dio cuenta del patrón! Pero ¿Gemini sabe realmente cómo funciona este juego? Preguntémosle:

Mmm... ¿Crees que es una buena estrategia?

Gemini: No, no es una buena estrategia. Tu oponente descubrirá rápidamente tu patrón y ganará siempre. Deberías intentar aleatorizar más tus opciones.

¡Buen consejo, Gemini! Bien. Para terminar, pongamos a prueba tus capacidades de razonamiento multimodal. Aquí está tu indicación:

Este es un mensaje secreto. ¿Qué dice?

secret_message_white_bg

¿Puedes resolverlo? Conseguimos que Gemini lo resuelva, pero no lo arruinaremos poniendo la respuesta en este post. 🙂

¿Qué son las indicaciones multimodales?

Todo lo que acabamos de hacer es un ejemplo de “indicaciones multimodales”. Básicamente, le damos a Gemini combinaciones de diferentes modalidades, imagen y texto, en este caso, y hacemos que Gemini responda prediciendo lo que podría pasar después. La capacidad de Gemini para combinar estos modos a la perfección permite ver qué es lo que se puede lograr.

En esta publicación, exploraremos algunos de los enfoques relativos a las indicaciones que usamos en nuestro video de demostración práctica de Gemini. Pronto lanzaremos Gemini para que la gente lo pruebe en Google AI Studio, nuestra herramienta gratuita para desarrolladores basada en la web, donde podrás probar tus propias indicaciones multimodales con Gemini. Esperamos que esta guía de pautas e ideas te ayude a inspirarte para comenzar a explorar tus propias ideas.

Link to Youtube Video (visible only when JS is disabled)

🧮 Razonamiento espacial y lógica

La lógica y los rompecabezas son una forma divertida de poner a Gemini a prueba. Intentemos ahora algo que requiera tanto razonamiento espacial de izquierda a derecha como conocimientos sobre nuestro sistema solar:

planets

¿Está en el orden correcto? Considera la distancia desde el sol y explica tu razonamiento.

Gemini: No, el orden correcto es sol, tierra, saturno. El sol es el más cercano al centro del sistema solar, seguido de la tierra y, luego, saturno.

¡Genial! Aquí hay otro, inspirado en los desafíos del Pinewood Derby, la carrera de autos de madera:

pinewood_derby_cars

¿Cuál de estos autos es más aerodinámico? ¿El de la izquierda o el de la derecha? Explica por qué y utiliza detalles visuales específicos.

Gemini: El auto de la derecha es más aerodinámico. Tiene un perfil más bajo y una forma más aerodinámica. El coche de la izquierda tiene un perfil más alto y una forma más cuadrada, lo que lo hace menos aerodinámico.

Secuencias de imágenes

A continuación, ¿qué pasaría si le mostráramos a Gemini una secuencia de imágenes? Veamos si podemos mostrarle algunos fotogramas de un juego de pantomima y hacer que Gemini adivine la película:

matrix_charades

Adivina qué película estoy representando.

Gema: Matrix

¡Bien! ¿Pero qué parte específicamente? Mira los movimientos de mi cuerpo.
Gemini: La parte donde Neo esquiva las balas.

🪄 Trucos de magia

Explorar las secuencias de imágenes te permite realmente profundizar en la forma en que Gemini razona con el tiempo. Probemos un truco de magia clásico.

coin_trick_1

Explica qué es lo que hago.

Gemini: Sostienes una moneda con tu mano derecha.

coin_trick_1b
coin_trick_2

¿Dónde crees que está la moneda?

Gemini: La moneda está en tu mano derecha.

Claro. Esa es una respuesta lógica teniendo en cuenta lo que se ve. Pero hagamos un juego de manos mientras revelamos esta siguiente imagen a Gemini...

coin_trick_3

Mira aquí, ¿qué pasó?

Gemini: La moneda desapareció.

Gemini se da cuenta de que desapareció. Pero, ¿puede resumir qué pudo haber pasado?

Resumir lo que pudo haber sucedido, paso a paso, desde la primera imagen.

Gemini: 

  1. Empezaste con una moneda en la mano derecha.
  2. Luego hiciste un movimiento con las manos y la moneda desapareció.
    3. Luego, mostraste que la moneda había desaparecido.

Gemini aprovecha todo el contexto de esta conversación, tanto el texto como la imagen, para resumir su respuesta. Por último, preguntémosle:

¿Puedes explicar cómo desapareció?

Gemini: La moneda estaba escondida en la palma de la mano.

¡Gemini hace una suposición realmente sólida! Pero no revelaremos nuestro secreto 🙂.

🔀 Barajar copas

Probemos un truco que requiere memoria y lógica: el clásico juego de mezclar bolas que se esconden debajo de tazas. Para este caso, haremos un desglose de los pasos para facilitarle las cosas a Gemini. Primero, establezcamos los conceptos básicos con estas instrucciones:

Instrucciones: Hay tres tazas en la posición 1 (izquierda), posición 2 (centro), posición 3 (derecha).

Observa cómo se nos ocurrió un formato simple para recordar dónde está la pelota con la regla "nada, nada, bola". A continuación, le mostraremos a Gemini dos secuencias como ejemplo:

Imágenes:

cup_shuffle_2_and_3

Intercambio: 2 y 3

Estado actual: nada, bola, nada

Imágenes:

cup_shuffle_1_and_2

Intercambio: 1 y 2

Estado actual: bola, nada, nada

En estas dos secuencias de ejemplo, ambos le mostramos de qué se trata el un intercambio y cómo actualizar la posición de la pelota. Ahora, veamos si Gemini puede generalizar y adivinar un intercambio que no haya visto previamente:

Imágenes:

cup_shuffle_1_and_3

Intercambio: 

Esta es la respuesta de Gemini:

1 y 3

Estado actual: nada, nada, bola

¡Gemini lo adivinó! Miró estas imágenes e infirió correctamente que se intercambiaron las tazas 1 y 3. Y razonó correctamente cómo se actualizó la posición de la pelota. Preguntémosle:

Dime dónde está la pelota y resume cómo llegó allí, en forma de párrafo.

Gemini: La pelota está en la taza 3. 

Si al inicio la pelota está en la taza 3, el primer intercambio tuvo que ver con la taza 2 y 3. Por consiguiente, la pelota está en la taza 2. El segundo intercambio fue la taza 1 y 2. Como consecuencia, la pelota se encuentra en la taza 1. El tercer intercambio se relacionó con la copa 1 y 3. Luego del intercambio, la pelota está en la taza 3.

Gemini no solo respondió correctamente, sino que resumió con precisión el historial del juego. Por supuesto, este desafío no siempre saldrá bien. A veces, el movimiento falso (donde intercambias dos tazas vacías) parece generar confusión, pero, a veces, también lo acierta. Pero dar indicaciones simples como esta hacen que sea muy divertido poner a Gemini rápidamente a prueba. Puedes cambiar las variables en tu indicación, incluido el orden de los intercambios, y ver si funciona.

🔨 Uso de herramientas

Si deseas usar Gemini en tus propias aplicaciones, querrás que pueda conectarse a otras herramientas. Probemos una idea simple en la que Gemini necesita combinar la multimodalidad con el uso de herramientas: dibujar una imagen para buscar música.

musical_drawing

Paso 1. Mira este dibujo, describe todo lo que contiene y crea una idea divertida y específica para un buen género musical, estado de ánimo o banda sonora. 

Paso 2. Proporciona una consulta de búsqueda en el formulario: “Buscar [insertar consulta]”

Gemini: 

El dibujo es de una guitarra, una batería y un amplificador. También hay una palmera. El ambiente es divertido, optimista y tropical. El género es el reggae. La banda sonora podría usarse para una película o un programa de televisión ambientado en un lugar tropical. 

Buscar “Música reggae para unas vacaciones tropicales”

¡Bien! Gemini reflexiona acerca de lo que ve y, luego, genera una consulta de búsqueda que puedes analizar para hacer una búsqueda. Es como si Gemini funcionara como un traductor, pero, en lugar de traducir idiomas, traduce modalidades, como de dibujo a música, en este caso. Con indicaciones multimodales, puedes usar Gemini para inventar interpretaciones propias completamente nuevas entre diferentes entradas y salidas.

🕹️Creación de juegos

¿Qué pasaría si intentáramos usar Gemini para crear rápidamente el prototipo de un juego multimodal? Aquí va una idea: un juego de adivinanzas geográficas en el que tienes que apuntar a un mapa para adivinar. Comencemos sugiriéndole a Gemini la idea central:

Instrucciones: Juguemos un juego. Piensa en un país y dame una pista. La pista debe ser lo suficientemente específica como para que solo haya un país correcto. Intentaré señalar el país en un mapa.

A continuación, démosle a Gemini un ejemplo de una partida del juego, mostrándole cómo queremos que procese las respuestas incorrectas y correctas:

País: este país es una isla enorme que está cubierta principalmente de hielo.
(Respuesta: Groenlandia) 

Respuesta:

map 1

Señalo Canadá y es *incorrecto*

Respuesta:

map 2

Señalo Groenlandia y es *correcto*

Ahora probemos e indiquémosle a Gemini que genere una pista:

Pista:

Este país es conocido por su fauna única, que incluye canguros y koalas. (Respuesta: Australia)

Bien. Es una buena pista. Probemos si funciona cuando señalemos. Solo por diversión, intentemos señalar primero el país equivocado:

Respuesta:

map 3

Señalo Brasil y es *incorrecto*

¡Genial! Gemini miró mi imagen y constató que señalaba Brasil. Se dio cuenta correctamente de que estaba mal. Ahora señalemos el lugar correcto en el mapa:

map 4

Señalo Australia y es *correcto*

¡Genial! Básicamente, le enseñamos a Gemini nuestra lógica de juego con solo darle un ejemplo. También notarás que generalizó a partir de la mano ilustrada en los ejemplos.

⌨️ Codificación

Por supuesto, para dar vida a tu idea de juego, en algún momento deberás escribir algo de código ejecutable. Veamos si Gemini puede hacer un simple temporizador de cuenta regresiva para un juego, pero con algunas características divertidas:

Implementa un simple temporizador en HTML/CSS/Javascript. Utiliza una fuente sans serif y modo oscuro. Arranca en 10 segundos y comienza la cuenta regresiva. Cuando llegue a cero, reemplaza el temporizador por un emoji aleatorio que esté asociado con la emoción y la motivación. Luego, pon el temporizador en 10 segundos y comienza nuevamente a contar hacia atrás.

Con solo esta única instrucción, Gemini nos da un temporizador que funciona y que hace lo que pedimos:

Mi parte favorita recorrer el código fuente de Gemini para ver la variedad de emojis motivacionales que eligió para mí:

const emojis = ['🚀', '⚡️', '🎉', '🎊', '🥳', '🤩', '✨'];

👀 Un adelanto

A lo largo de esta publicación, alimentamos a Gemini con entradas y le pedimos que hiciera predicciones sobre lo que podría suceder. Eso son, básicamente, las indicaciones. Y nuestras entradas fueron multimodales: imágenes y texto combinados.

Pero hasta ahora solo mostramos las respuestas de Gemini en forma de texto. Tal vez te preguntes, ¿puede Gemini también responder con una combinación de imagen y texto? ¡Sí, puede! Es una capacidad de Gemini llamada “generación de texto e imágenes intercalados”. Si bien esta función no estará lista en la primera versión de Gemini para que la prueben los usuarios, esperamos implementarla pronto. Aquí te dejamos un adelanto de lo que se podrá hacer.

Veamos si es posible usar Gemini para proporcionar inspiración creativa todos los días. Y probémoslo en un dominio que requiere un poco de razonamiento multimodal… ¡Tejer! 🧶. Al igual que con el juego de mapas anterior, proporcionemos un ejemplo de secuencias de interacción:

Dame tres ideas de qué podría crear tejiendo al croché con estos dos colores:

blue ball of yarn next to yellow ball of yarn

Colores: Veo hilo azul y amarillo.

Idea 1: ¿Qué tal un lindo perro con una oreja amarilla?

Imagen 1:

a cute dog made with blue and yellow yarn

Idea 2: ¿O qué tal una medusa con algunos tentáculos amarillos?

Imagen 2:

a cute jellyfish made with blue and yellow yarn, on light plywood table, overhead birds eye view

Idea 3: ¿O qué tal un gato azul con nariz amarilla?

Imagen 3:

a cute cat made with blue and yellow yarn

Básicamente, le enseñamos a Gemini cómo queremos que sea cada interacción: “Tomaré una foto de dos ovillos de hilo, y espero que a ti (Gemini) se te ocurra qué puedo hacer y generar una imagen de esa idea”.

Ahora, mostrémosle un nuevo par de colores de hilo que aún no haya visto, y comprobemos si puede generalizar:

Dame tres ideas de qué podría crear tejiendo al croché con estos dos colores:

blue_pink_input (website)

Gemini:

Colores: veo hilo azul y rosa.

Idea 1: ¿Qué tal un cerdo con orejas azules?

Imagen 1:

pink_and_blue_pig_3

Idea 2: ¿O un pulpo con tentáculos rosados y azules?

Imagen 2:

pink_and_blue_octopus_v3

Idea 3: ¿O un conejito con nariz rosada?

Imagen 3:

pink_and_blue_bunny

¡Genial! Gemini razonó correctamente respecto de los nuevos colores (“Veo hilo azul y rosa”), y generó estas ideas y las imágenes en una única salida intercalada de texto e imagen.

Lo que Gemini hizo aquí se diferencia radicalmente de lo que hacen los modelos actuales de texto a imagen. No se trata solo de pasar una instrucción a un modelo separado de texto a imagen. Ve la imagen de mi hilo real en mi mesa de madera, y realmente razona de manera multimodal sobre mi texto e imagen juntos.

Lo que viene

Esperamos que esta guía de inicio te hayas resultado útil para tener una idea de lo que es posible hacer con Gemini. Nos entusiasma mucho poder ponerlo pronto a disposición de más personas para que puedan explorar sus propias ideas usando indicaciones. ¡No te pierdas las próximas novedades!