개발자와 연구자를 위한 맞춤형 모델로 확장하는 Gemma 제품군

4월 12, 2024
Tris Warkentin Director, Product Management
Jane Fine Senior Product Manager

지난 2월 저희는 Gemini 모델 제작에 사용된 동일한 연구와 기술을 이용해 개발한 경량의 최첨단 개방형 모델 제품군 Gemma를 발표했습니다. 인상적인 미세 조정 변형, Kaggle 노트북, 도구서비스로의 통합, MongoDB 같은 데이터베이스를 사용하는 RAG 레시피 등, 커뮤니티의 놀라운 반응은 정말 고무적이었습니다.

오늘은 Gemma 제품군에 처음으로 새로 추가되는 모델을 발표하게 되어 기쁘게 생각합니다. 이번 추가를 계기로 ML 개발자가 책임감 있게 혁신할 수 있는 가능성이 더욱 확대됩니다. 이번 추가에는 명령 추종뿐 아니라 코드 완성 및 생성 작업을 위한 CodeGemma와 연구 실험을 위해 효율성을 최적화한 아키텍처인 RecurrentGemma가 포함됩니다. 또한, 커뮤니티와 파트너로부터 청취한 소중한 의견을 토대로 개선을 하고자 Gemma와 약관에 대한 업데이트 내용을 공유해 드리겠습니다.


두 개의 첫 Gemma 변형 소개

CodeGemma: 개발자와 기업을 위한 코드 완성, 생성 및 채팅

CodeGemma는 Gemma 모델의 기반을 활용하여 커뮤니티에 강력하면서도 가벼운 코딩 기능을 제공합니다. CodeGemma 모델은 코드 완성 및 코드 생성 작업을 전문으로 하는 7B 사전 학습 변형, 코드 채팅 및 명령 추종을 위한 7B 명령 조정 변형, 로컬 컴퓨터에 맞는 빠른 코드 완성을 위한 2B 사전 학습 변형으로 제공됩니다. CodeGemma 모델은 다음과 같은 몇 가지 장점을 제공합니다.

  • 지능형 코드 완성 및 생성: 로컬에서 작업하든 클라우드 리소스를 활용하든 관계없이 코드 줄과 함수를 완성하고 전체 코드 블록도 생성할 수 있습니다. 

  • 정확도 향상: 웹 문서, 수학, 코드에서 주로 영어 데이터로 구성된 5,000억 개의 토큰을 기반으로 학습된 CodeGemma 모델은 구문적으로 더 정확할 뿐만 아니라 의미상으로도 더 유의미한 코드를 생성하여 오류와 디버깅 시간을 줄이는 데 도움이 됩니다. 

  • 다중 언어 숙련도: Python, JavaScript, Java 및 기타 인기 언어를 위한 매우 유용한 코딩 어시스턴트 역할을 합니다. 

  • 워크플로 간소화: CodeGemma 모델을 개발 환경에 통합하여 상용구 작성을 줄이고, 흥미롭고 차별화된 방식으로 중요한 코드에 더 빠르게 집중하도록 할 수 있습니다.
CodeGemma integrated within an existing AI dev project with
이 표는 단일 라인 및 다중 라인 코드 완성 작업 모두에서 CodeGemma의 성능을 다른 유사한 모델과 비교한 결과를 보여줍니다.

보고서에서 CodeGemma에 관해 자세히 알아보거나 이 빠른 시작 가이드에서 CodeGemma를 사용해 보세요.


RecurrentGemma: 연구자를 위해 더 큰 배치에서 효율적이고 더 빠르게 추론

RecurrentGemma순환 신경망과 로컬 어텐션을 활용하여 메모리 효율을 높여주는 모델로, 기술적으로 매우 독특합니다. RecurrentGemma의 고유한 아키텍처는 Gemma 2B 모델과 유사한 벤치마크 점수 성능을 달성하면서도 다음과 같은 몇 가지 장점을 제공합니다.

  • 메모리 사용량 감소: 메모리 요구 사항이 낮아 단일 GPU 또는 CPU같이 메모리가 제한된 기기에서 더 긴 샘플을 생성할 수 있습니다. 

  • 더 높은 처리량: 메모리 사용량 감소 덕분에 RecurrentGemma는 상당히 더 큰 배치에서 추론을 수행할 수 있으므로 초당 훨씬 더 많은 토큰을 생성할 수 있습니다(특히 긴 시퀀스를 생성할 때). 

  • 연구 혁신: RecurrentGemma는 고성능의 비(非) 트랜스포머 모델을 선보여, 딥 러닝 연구의 발전을 잘 보여줍니다. 
Graph showing maximum thoughput when sampling from a prompt of 2k tokens on TPUv5e
이 차트는 Gemma 같은 트랜스포머 기반 모델은 시퀀스가 더 길어질수록 속도가 느려지는 데 반해, RecurrentGemma가 어떻게 시퀀스 길이에 관계없이 샘플링 속도를 유지하는지 보여줍니다.

기반 기술을 이해하려면 이 논문을 확인해 보세요. 실용적인 탐색 분석을 위해 모델을 미세 조정하는 방법을 보여주는 노트북을 사용해 보세요.


Gemma를 기반으로 개발하여 기능 확장

새로운 모델 변형은 원래의 Gemma 모델과 동일한 원칙에 따라 다음을 제공합니다.

  • 공개적 가용성: 유연한 이용 약관과 누구나 이용할 수 있는 높은 접근성을 통해 혁신과 협업을 장려합니다. 

  • 고성능 및 효율적인 기능: 놀라울 정도로 빠른 완성과 생성에 맞는 최적화된 디자인과 코드별 도메인 전문 지식으로 개방형 모델의 기능을 발전시킵니다. 

  • 책임감 있는 디자인: 책임감 있는 AI에 대한 Google의 약속은 모델이 안전하고 신뢰할 수 있는 결과를 제공하도록 돕습니다. 

  • 다양한 소프트웨어와 하드웨어를 위한 유연성:

- CodeGemma와 RecurrentGemma 모두: JAX로 개발되고 JAX, PyTorch, Hugging Face Transformer, Gemma.cpp와 호환됩니다. 노트북, 데스크톱, NVIDIA GPU, Google Cloud TPU를 비롯한 다양한 하드웨어 전반에 걸쳐 로컬 실험과 비용 효율적인 배포를 지원합니다.  

- CodeGemma: 또한, Keras, NVIDIA NeMo, TensorRT-LLM, Optimum-NVIDIA, MediaPipe와도 호환되고 Vertex AI에서 사용 가능합니다. 

- RecurrentGemma: 앞서 언급한 모든 제품에 대한 지원은 향후 몇 주 내에 제공될 예정입니다.


Gemma 1.1 업데이트

새로운 모델 변형과 더불어 성능 개선 사항이 포함된 Gemma 1.1을 출시할 예정입니다. 또한 더 많은 유연성을 제공하기 위해 개발자 의견을 경청하고 버그를 수정하고 검색어를 업데이트했습니다.


지금 시작하세요

이러한 첫 Gemma 모델 변형은 오늘 Kaggle, Hugging Face, Vertex AI Model Garden에서 시작해 전 세계 다양한 장소에서 이용 가능합니다. 시작 방법은 다음과 같습니다.

  • 통합 옵션 살펴보기: 모델을 자주 사용하는 도구 및 플랫폼과 통합하기 위한 가이드와 리소스를 찾아보세요.

  • 실험과 혁신: 다음 프로젝트에 Gemma 모델 변형을 추가하고 그 기능을 살펴보세요. 


CodeGemmaRecurrentGemma 모델을 사용해 보고 Kaggle을 통해 의견을 나눠주세요. AI 기반 콘텐츠 제작 및 이해의 미래를 함께 만들어 나갑시다.