Vertex AI RAG Engine: Alat developer

JAN 15, 2025

Generative AI and Large Language Models (LLMs) are transforming industries, but two key challenges can hinder enterprise adoption: hallucinations (generating incorrect or nonsensical information) and limited knowledge beyond their training data. Retrieval Augmented Generation (RAG) and grounding offer solutions by connecting LLMs to external data sources, enabling them to access up-to-date information and generate more factual and relevant responses.

This post explores Vertex AI RAG Engine and how it empowers software and AI developers to build robust, grounded generative AI applications.


What is RAG and why do you need it?

RAG retrieves relevant information from a knowledge base and feeds it to an LLM, allowing it to generate more accurate and informed responses. This contrasts with relying solely on the LLM's pre-trained knowledge, which can be outdated or incomplete. RAG is essential for building enterprise-grade Gen AI applications that require:

  • Accuracy: Minimizing hallucinations and ensuring responses are factually grounded.

  • Up-to-date Information: Accessing the latest data and insights.

  • Domain Expertise: Leveraging specialized knowledge bases for specific use cases.


RAG vs Grounding vs Search

  • RAG: a technique to retrieve and provide relevant information to LLMs to generate responses. The information can include fresh information, topic and context, or ground truth.

  • Grounding: Ensure the reliability and trustworthiness of AI-generated content by anchoring it to verified sources of information. Grounding may use RAG as a technique.

  • Search: an approach to quickly find and deliver relevant information from a data source based on text or multi-modal queries powered by advanced AI models.


Introducing Vertex AI RAG Engine

Vertex AI RAG Engine is a managed orchestration service, streamlining the complex process of retrieving relevant information and feeding it to an LLM. This allows developers to focus on building their applications rather than managing infrastructure.

Diagram of Vertex RAG architecture

Keuntungan Utama Vertex AI RAG Engine:

  • Ease of Use: Get started quickly with a simple API, enabling rapid prototyping and experimentation.

  • Managed Orchestration: Handles the complexities of data retrieval and LLM integration, freeing developers from infrastructure management.

  • Penyesuaian dan Dukungan Open Source: Pilih dari beragam penguraian, pemotongan, anotasi, penyematan, penyimpanan vektor, dan model open source, atau sesuaikan komponen Anda sendiri.

  • Komponen Google Berkualitas Tinggi: Manfaatkan teknologi mutakhir Google untuk performa yang optimal.

  • Fleksibilitas Integrasi: Hubungkan ke berbagai database vektor, seperti Pinecone dan Weaviate, atau gunakan Vertex AI Vector Search.


Vertex AI RAG: Spektrum Solusi

Google Cloud menawarkan spektrum solusi RAG dan grounding, yang ditujukan untuk berbagai level kompleksitas dan penyesuaian:

  • Vertex AI Search: A fully managed search engine and retriever API ideal for complex enterprise use cases requiring high out-of-the-box quality, scalability, and fine-grained access controls. It simplifies connecting to diverse enterprise data sources and enables searching across multiple sources.

  • Fully DIY RAG: For developers seeking complete control, Vertex AI provides individual component APIs (e.g., Text Embedding API, Ranking API, Grounding on Vertex AI) to build custom RAG pipelines. This approach offers maximum flexibility but requires significant development effort. Use this if you need very specific customizations or want to integrate with existing RAG frameworks.

  • Vertex AI RAG Engine: The sweet spot for developers seeking a balance between ease of use and customization. It empowers rapid prototyping and development without sacrificing flexibility.


Kasus penggunaan Industri yang umum untuk RAG Engine:

  1. Financial Services: Personalized Investment Advice & Risk Assessment:

Masalah: Penasihat keuangan perlu dengan cepat menyintesis sejumlah besar informasi – profil klien, data pasar, pengajuan peraturan, dan penelitian internal – untuk memberikan saran investasi yang disesuaikan dan penilaian risiko yang akurat. Meninjau semua informasi ini secara manual akan menghabiskan banyak waktu dan rentan terhadap kesalahan.

Solusi RAG Engine: RAG engine bisa menyerap dan mengindeks sumber data yang relevan. Penasihat keuangan kemudian dapat melakukan kueri pada sistem dengan profil spesifik dan tujuan investasi klien. RAG engine akan memberikan respons ringkas berdasarkan data yang diambil dari dokumen yang relevan, termasuk kutipan untuk mendukung rekomendasi. Hal ini meningkatkan efisiensi penasihat, mengurangi risiko kesalahan manusia, dan meningkatkan personalisasi saran. Sistem ini juga bisa menandai potensi konflik kepentingan atau pelanggaran peraturan berdasarkan informasi yang ditemukan dalam data yang diserap.


2. Healthcare: Accelerated Drug Discovery & Personalized Treatment Plans:

Masalah: Penemuan obat dan pengobatan yang dipersonalisasi sangat bergantung pada analisis set data yang sangat besar dari uji coba klinis, makalah penelitian, rekam medis pasien, dan informasi genetik. Memilah-milah data ini untuk mengidentifikasi target obat yang potensial, memprediksi respons pasien terhadap pengobatan, atau membuat rencana pengobatan yang dipersonalisasi sangat tidak mudah.

Solusi RAG Engine: Dengan langkah-langkah privasi dan keamanan yang tepat, RAG engine bisa menyerap dan mengindeks literatur biomedis dan data pasien yang sangat banyak. Peneliti kemudian dapat mengajukan pertanyaan yang rumit, seperti “Apa saja potensi efek samping obat X pada pasien dengan genotipe Y?” RAG engine akan menyintesis informasi yang relevan dari berbagai sumber, memberikan peneliti insight yang mungkin terlewat dalam penelusuran manual. Bagi dokter, engine ini bisa membantu menciptakan rencana pengobatan yang dipersonalisasi berdasarkan karakteristik unik dan riwayat medis pasien, didukung oleh bukti dari penelitian yang relevan.


3. Legal: Enhanced Due Diligence and Contract Review:

Masalah: Tenaga profesional hukum menghabiskan banyak waktu untuk meninjau dokumen selama proses uji tuntas, negosiasi kontrak, dan litigasi. Menemukan klausul yang relevan, mengidentifikasi potensi risiko, dan memastikan kepatuhan terhadap peraturan sangatlah menyita waktu dan membutuhkan keahlian yang mendalam.

Solusi RAG Engine: RAG engine bisa menyerap dan mengindeks dokumen legal, hukum kasus, dan informasi peraturan. Tenaga profesional hukum dapat meminta sistem untuk menemukan klausul tertentu dalam kontrak, mengidentifikasi potensi risiko hukum, dan meneliti preseden yang relevan. Engine ini bisa menyoroti inkonsistensi, potensi liabilitas, dan hukum kasus yang relevan, sehingga secara signifikan mempercepat proses peninjauan dan meningkatkan akurasi. Hal ini mengarah pada tercapainya kesepakatan transaksi dengan lebih cepat, berkurangnya risiko hukum, dan penggunaan keahlian di bidang hukum secara lebih efisien.


Getting started with Vertex AI RAG Engine

Google menyediakan banyak referensi untuk membantu Anda memulai, termasuk:


Build grounded generative AI

Vertex AI's RAG Engine and suite of grounding solutions empower developers to build more reliable, factual, and insightful generative AI applications. By leveraging these tools, you can unlock the full potential of LLMs and overcome the challenges of hallucinations and limited knowledge, paving the way for wider enterprise adoption of generative AI. Choose the solution that best fits your needs and start building the next generation of intelligent applications.