CalCam: transformamos el registro de alimentos con la API de Gemini

MAR 05, 2025
Vishal Dharmadhikari Product Solutions Engineer

De la imagen a la información: el flujo de trabajo de la API de Gemini de CalCam


La API de Gemini permite a desarrolladores y startups integrar rápidamente los modelos de Gemini en sus aplicaciones. Por ejemplo, Polyverse está utilizando Gemini 2.0 Flash para transformar la forma en que los usuarios hacen el seguimiento de su nutrición. Su aplicación más reciente, CalCam, actúa como compañero de salud de IA y permite a los usuarios realizar un seguimiento sin esfuerzo de su ingesta calórica simplemente tomando una foto de su comida. Detrás de esta acción aparentemente simple se encuentra el sofisticado poder de la API de Gemini, específicamente Gemini 2.0 Flash.

Para Polyverse, la API de Gemini ofrece varias ventajas clave:

  • Velocidad y eficiencia: la experiencia del usuario de CalCam depende de la velocidad del análisis de las fotos de las comidas. Polyverse, uno de los primeros en adoptar Gemini 1.5 Flash, informó que los resultados se entregaron aproximadamente un segundo más rápido que los modelos anteriores. Después de haber hecho la transición a Gemini 2.0 Flash, Polyverse observó más ganancias en velocidad y capacidad de respuesta, junto con un análisis más profundo y más información procesable, lo que permite una mayor precisión y eficiencia al analizar una comida. Esto mejoró la experiencia del usuario, haciendo que el seguimiento sea más transparente e instantáneo, al tiempo que consolidó la posición de Gemini Flash como un modelo indispensable para el desarrollo de aplicaciones de vanguardia.

  • Mayor precisión y reconocimiento: CalCam se basa en el reconocimiento preciso de alimentos y el análisis nutricional. Gemini 2.0 Flash sobresale en esta área: Polyverse informó un notable aumento del 20% en la satisfacción del usuario con los resultados de reconocimiento. Este aumento en la precisión se traduce en una experiencia más confiable para los usuarios de CalCam. La capacidad del modelo para identificar no solo el plato, sino también las salsas y los condimentos, contribuye a un análisis de macronutrientes más completo.

  • Resultados estructurados para una integración perfecta: la capacidad de Gemini 2.0 Flash para proporcionar un resultado JSON estructurado fue determinante para Polyverse. Esta función simplificó la integración de los resultados del modelo en el flujo de trabajo de CalCam, lo que permitió un procesamiento eficiente de los nombres de los platos, los ingredientes, la información de macronutrientes y las calificaciones nutricionales para presentar rápidamente la información al usuario.

  • Desarrollo simplificado con Google AI Studio: Polyverse destaca la naturaleza fácil de usar de Google AI Studio, en particular, el editor visual de resultados estructurados en las herramientas. Esto permitió que incluso los miembros del equipo que no son programadores contribuyeran a estructurar y editar los resultados, lo que redujo la dependencia de la experiencia en codificación y aceleró el proceso de desarrollo.


Estructura del éxito: administración de datos complejos

La funcionalidad principal de CalCam depende de su capacidad para comprender y analizar imágenes de alimentos. Aquí es donde brillan las funciones multimodales de la API de Gemini. El flujo de trabajo es elegante y eficiente:

  1. Carga y verificación de imágenes: el usuario carga una foto de su comida. CalCam primero verifica que en la imagen haya alimentos.

2. Reconocimiento y análisis de Gemini Flash: Gemini 2.0 Flash procesa la imagen. A través de una serie de instrucciones cuidadosamente elaboradas, el modelo identifica los alimentos, desglosa los ingredientes, estima el peso del plato y calcula la distribución de macronutrientes (incluidos elementos sutiles, como salsas y condimentos).

3. Resultados estructurados y refinamiento: Gemini 2.0 Flash devuelve un resultado estructurado que contiene el análisis. Esta salida se retroalimenta a Gemini 2.0 Flash en un flujo de trabajo secundario. Este proceso iterativo permite que el modelo evalúe aún más la información en función de la información nutricional y la lógica, lo que mejora la precisión y la coherencia de los resultados. Los usuarios pueden incluso proporcionar correcciones si es necesario, lo que hace que el modelo vuelva a evaluar y genere un análisis nuevo y refinado.

4. Información nutricional y participación del usuario: finalmente, CalCam presenta al usuario un desglose claro del contenido nutricional de la comida, que incluye una calificación simple y orientación sobre opciones de alimentación saludable. Funciones atractivas como carteles personalizados de calorías y clasificaciones de comidas motivan aún más a los usuarios en su viaje saludable.


La API de Gemini: kit de herramientas para crear aplicaciones de IA de próxima generación

La experiencia de Polyverse con la API de Gemini subraya su valor para las nuevas empresas que buscan crear aplicaciones de IA de vanguardia. La facilidad de integración, la velocidad y precisión de Gemini 2.0 Flash y las herramientas de apoyo dentro de Google AI Studio permitieron a Polyverse mejorar significativamente CalCam y agilizar su proceso de desarrollo. De cara al futuro, Polyverse planea aprovechar los modelos de Gemini para desarrollar funciones aún más interactivas y personalizadas, como recetas y coaching impulsados por IA, a fin de lograr la misión de CalCam de hacer que la vida saludable sea divertida y accesible.


Explora la documentación de la API de Gemini y comienza a desarrollar el futuro de la IA.