Google Gemini 및 오픈소스 프레임워크를 이용한 에이전트 제작

2025년 5월 20일

Shrestha Basu Mallick Product Google DeepMind

Philipp Schmid Developer Relations Engineer

AI의 세계는 AI 에이전트의 풍부한 잠재력으로 고동치고 있습니다. 사용자는 AI 에이전트에게 명령을 내려 주변 환경을 인식하고, 의사결정을 내리고, 특정 목적을 달성하기 위한 조치를 취할 수 있습니다. 이때 고급 추론, 멀티모달리티 및 함수 호출 기능을 갖춘 Google의 Gemini 모델은 AI 에이전트를 제작하기 위한 강력한 기반을 제공합니다. 이제 개발자는 여기에 역동적인 오픈소스 프레임워크 생태계가 결합된 툴킷을 사용하여 정교한 에이전트 애플리케이션을 제작할 수 있습니다.

이 게시물은 Google Gemini 모델과 LangGraph, CrewAI, LlamaIndex, Composio 등의 인기 오픈소스 프레임워크를 함께 사용하여 AI 에이전트를 제작하는 방법을 이해하기 쉽게 설명하고, 다양한 시나리오에서 각 프레임워크가 발휘하는 강점을 간략히 안내합니다.

AI 에이전트에 Google Gemini 모델을 사용해야 하는 이유

최신 Gemini 2.5를 포함한 Gemini 모델로 에이전트를 개발하면 다음과 같은 이점을 누릴 수 있습니다.

고급 추론 & 계획: Gemini 모델은 논리적 추론에 뛰어나며, 복잡한 작업을 여러 단계로 세분화하여 관리하기 쉽게 만듭니다. 이는 에이전트 워크플로에 중요한 능력입니다.

함수 호출: 에이전트는 Gemini 모델의 기본 함수 호출 기능을 통해 외부 도구, API 및 데이터 소스와 원활하게 상호작용하여 현실 세계의 작업을 수행할 수 있습니다.

멀티모달리티: 다양한 데이터 유형(텍스트, 이미지, 오디오, 동영상, 코드)을 처리하고 이해할 수 있는 기능으로, 에이전트가 현실 세계와 한층 더 풍부하게 상호작용하는 것이 가능하도록 도와줍니다.

대규모 컨텍스트 창: Gemini 2.5를 비롯한 모델이 처리할 수 있는 토큰은 최대 1백만 개(추후 2백만 개로 확장될 예정)로, 긴 상호작용과 복잡한 작업을 진행하는 동안 에이전트가 컨텍스트를 유지할 수 있습니다.

에이전트 오픈소스 프레임워크: 간략한 개요

프레임워크는 주로 에이전트 또는 사용 사례별 구체적인 요구사항에 따라 선택하게 됩니다. 아래에서 일부 인기 프레임워크 및 각각의 장점과 에이전트 개발 방식을 확인할 수 있습니다.

LangGraph

LangGraph는 LangChain의 확장 라이브러리로, 워크플로를 그래프로 표현하여 스테이트풀(Stateful) 멀티 액터 애플리케이션을 제작할 수 있습니다. 그래프의 각 노드는 단계(예: LLM 호출 또는 도구 실행)를 나타내며, 에지는 제어 흐름을 규정합니다. LangGraph는 에이전트의 추론 과정에 대한 가시성과 제어가 중요한 복잡한 스테이트풀 워크플로에 탁월합니다. Google Gemini 모델을 LangGraph와 함께 활용하는 경우, 각 단계에 고급 추론 및 함수 호출 기능을 적용할 수 있으며 이를 통해 반복 리플렉션과 도구 사용이 가능합니다. LangChain 또는 LangGraph를 사용해 보세요.

CrewAI

CrewAI는 협업을 통해 복잡한 목표를 달성하는 자율 AI 에이전트를 오케스트레이션하기 위해 설계되었습니다. 구체적인 역할, 목표, 배경 설명으로 에이전트를 정의한 다음 작업을 할당하여 멀티 에이전트 시스템을 간소화합니다. 또한 CrewAI는 Google Gemini와의 원활한 통합을 자랑합니다. CrewAI를 Gemini 모델과 결합하면 각 에이전트의 특화된 역할에 Gemini 모델의 강력한 추론 및 언어 이해 기능을 사용할 수 있으므로, 보다 효과적인 협업과 작업 실행이 가능합니다. CrewAI를 사용해 보세요.

LlamaIndex

LlamaIndex는 데이터에 연결된 LLM을 사용하여 지식 에이전트를 제작하기 위해 설계된 프레임워크입니다. 데이터 수집, 인덱싱 및 검색 기능을 제공하는 데 뛰어나기 때문에 다양한 유형의 지식 작업을 자동화할 수 있는 멀티 에이전트 워크플로를 만들 수 있습니다. 또한 Gemini 모델과 직접 통합하여 Gemini를 통해 생성, 고급 검색 전략을 임베딩하고 개인 데이터를 기반으로 응답을 합성할 수 있습니다. 이러한 기능은 LLM의 일반 훈련 데이터에 없는 정보를 추론하고 이에 대한 질문에 답하는 에이전트를 만드는 데 중요합니다. 더불어 LlamaIndex는 텍스트 전용 모델과 멀티 모달 Gemini 모델을 모두 지원하므로 텍스트와 이미지 모두에 RAG를 사용할 수 있습니다. LlamaIndex를 사용해 보세요.

Composio

Composio는 외부 도구 및 API를 AI 에이전트에 통합하는 과정을 간소화하는 데 중점을 둔 프레임워크입니다. 사전 구축된 다양한 도구의 인증 및 실행을 위한 관리형 계층을 제공하여 에이전트를 위한 범용 커넥터의 역할을 효과적으로 수행합니다. 덕분에 개발자는 개별 API 인증을 관리하거나 맞춤 도구 래퍼를 만들 필요 없이 GitHub, Slack, Google Workspace, Notion 등과 같은 수많은 서비스와 상호작용하는 기능을 신속하게 에이전트에 탑재할 수 있습니다. Composio와 Google Gemini 모델을 결합하면 Gemini의 함수 호출 기능을 활용하여 이러한 도구를 지능적으로 선택하고 활용할 수 있으므로 에이전트를 통해 다양한 현실 세계의 작업을 수행할 수 있게 됩니다. Composio를 사용해 보세요.

권장사항 및 다음 단계

Google Gemini 모델로 AI 에이전트를 제작할 준비가 되셨나요? 방법은 다음과 같습니다.

적합한 프레임워크 선택 & 시작: 구체적인 요구 사항에 따라 LangGraph, CrewAI, LlamaIndex, Composio 또는 기타 프레임워크를 선택하세요.

목적 & 범위: 먼저 목표와 에이전트가 수행해야 할 작업을 명확히 설정하세요.

지속적으로 반복 및 구체화하기: 에이전트 개발은 반복을 요구합니다. 단순하게 시작하되 테스트를 자주 거치며 프롬프트와 도구, 로직을 구체화하세요.

고급 에이전트 패턴 살펴보기: 고급 에이전트 설계 리소스를 사용하여 자가 수정, 동적 계획 및 메모리와 같은 에이전트 패턴에 대해 알아보고, 더욱 강력한 에이전트를 제작해 보세요.

마스터 프롬프트 엔지니어링: Gemini의 에이전트 성능을 끌어내기 위해서는 효과적인 프롬프트가 필요합니다. 프롬프트 권장사항을 살펴보세요.

Learn & integrate: Dive into Function Calling and comprehensive end-to-end example on how to build Agents with Google Gemini Models.

이 발표 내용 및 모든 Google I/O 2025 업데이트는 5월 22일부터 io.google에서 확인하실 수 있습니다.