Membangun Agen Fisik Generasi Berikutnya dengan Gemini Robotics-ER 1.5

Hari ini, kami membuat model penalaran termaterialisasi dalam robotika termutakhir kami, Gemini Robotics-ER 1.5, tersedia untuk semua developer. Ini adalah model Gemini Robotics pertama yang tersedia secara luas. Model ini berfungsi sebagai model penalaran tingkat tinggi untuk robot.

Model ini memiliki spesialisasi dalam kemampuan yang sangat penting untuk robotika, termasuk pemahaman visual dan spasial, perencanaan tugas, dan estimasi progres. Model ini juga bisa secara native memanggil alat, seperti Google Penelusuran untuk menemukan informasi, dan dapat memanggil model vision-language-action (VLA) atau fungsi yang ditentukan pengguna (UDF) pihak ketiga lainnya untuk mengeksekusi tugas.

Anda bisa mulai membangun dengan Gemini Robotics-ER 1.5 hari ini dalam versi pratinjau melalui Google AI Studio dan Gemini API.

Model ini dirancang untuk tugas yang sangat menantang bagi robot. Bayangkan jika Anda meminta robot, “Dapatkah Anda menyortir benda-benda ini dengan benar ke dalam tempat kompos, daur ulang, dan tempat sampah?” Untuk menyelesaikan tugas ini, robot perlu mencari panduan daur ulang lokal di internet, memahami objek di depannya, dan mencari tahu cara menyortirnya berdasarkan aturan lokal, lalu melakukan semua langkah untuk menyelesaikannya. Sebagian besar tugas sehari-hari, seperti tugas ini, membutuhkan informasi kontekstual dan beberapa langkah untuk menyelesaikannya.

Gemini Robotics-ER 1.5 adalah model pemikiran pertama yang dioptimalkan untuk jenis penalaran termaterialisasi seperti ini. Model ini mencapai performa termutakhir pada tolok ukur internal dan akademis, terinspirasi dari kasus penggunaan dunia nyata dari program penguji tepercaya kami.

GeminiRoboticsER1.5_Graph-ER+Gen-RD3_V001

Model Gemini Robotics-ER 1.5 adalah model tercanggih kami untuk penalaran termaterialisasi sembari mempertahankan performa yang kuat sebagai model dasar multimodal dengan tujuan umum. (Performa diukur sebagai agregasi pada serangkaian tolok ukur penalaran termaterialisasi/umum, baca laporan teknologi untuk detail selengkapnya)

Yang Baru di Gemini Robotics-ER 1.5

Gemini Robotics-ER 1.5 dirancang khusus untuk aplikasi robotika dan memperkenalkan beberapa kemampuan baru:

Penalaran spasial yang cepat dan kuat: Dapatkan pemahaman spasial termutakhir dengan latensi rendah dari model Gemini Flash. Model ini unggul dalam menghasilkan titik 2D yang presisi secara semantik, berlandaskan penalaran tentang ukuran, berat, dan kemampuan item, memungkinkan perintah seperti ‘tunjuk apa pun yang bisa Anda ambil’ untuk interaksi yang akurat dan responsif.

Mengelola perilaku agentik lanjutan: Manfaatkan penalaran spasial dan temporal lanjutan, perencanaan, dan deteksi keberhasilan untuk loop eksekusi tugas jangka panjang yang dapat diandalkan (mis., “atur ulang meja saya sesuai dengan gambar ini”). Ia juga bisa memanggil alat secara native seperti alat Google Penelusuran dan fungsi yang ditentukan pengguna (UDF) pihak ketiga (mis., “pisahkan sampah ke tempat sampah yang benar menurut aturan setempat”).

Anggaran pemikiran yang fleksibel: Anda kini memiliki kontrol langsung atas kompromi latensi vs akurasi. Ini berarti Anda bisa membiarkan model ‘berpikir lebih lama’ untuk tugas kompleks seperti merencanakan perakitan multi-langkah, atau meminta respons cepat untuk tugas reaktif seperti mendeteksi atau mengarahkan objek.

Filter keamanan yang lebih baik: Bangun dengan lebih percaya diri. Model ini meningkatkan keamanan semantik dan kini lebih baik dalam mengenali dan menolak pembuatan rencana yang melanggar batasan fisik (mis., melebihi kapasitas muatan robot).

Otak Agentik untuk Robot Anda

Anda bisa menganggap Gemini Robotics-ER 1.5 sebagai otak tingkat tinggi untuk robot Anda. Ia dapat memahami perintah bahasa natural yang kompleks, melakukan penalaran tugas jangka panjang, dan mengatur perilaku mutakhir. Ini berarti ia unggul tidak hanya dalam persepsi, memahami apa yang ada di tempat tersebut dan apa yang harus dilakukan.

Gemini Robotics-ER 1.5 bisa menguraikan permintaan kompleks seperti “bersihkan meja” menjadi sebuah rencana dan memanggil alat yang tepat untuk tugas tersebut, baik itu API hardware robot, model genggaman khusus, atau model vision-language-action (VLA) untuk kontrol motor.

Pemahaman Spasial Lanjutan

Agar robot bisa berinteraksi dengan dunia fisik di sekitarnya, robot harus dapat melihat dan memahami lingkungan tempat mereka berada. Gemini Robotics-ER 1.5 disesuaikan dengan baik untuk menghasilkan hasil spasial berkualitas tinggi, memungkinkan model menghasilkan titik 2D yang presisi untuk objek. Mari kita lihat beberapa contoh menggunakan Gemini GenAI SDK untuk Python untuk membantu Anda mulai menggunakan model ini dalam aplikasi Anda sendiri.

GeminiRoboticsER1.5_Graph-PointingBenchmark-RD3_V001 (1)

Gemini Robotics-ER 1.5 adalah model bahasa-visi yang paling presisi untuk akurasi penunjukkan.

Pembuatan Titik 2D

Diberikan gambar suasana dapur, Gemini Robotics-ER 1.5 bisa memberikan lokasi setiap objek (atau bagian dari objek). Informasi ini kemudian dapat digabungkan dengan sensor 3D robot untuk menentukan lokasi akurat objek di ruang tersebut, memungkinkan library perencanaan Anda menghasilkan rencana gerakan yang akurat.

Prompt:

Point to the following items in the image: dish soap, dish rack, faucet, rice cooker, unicorn. The points are in [y, x] format normalized to 0-1000. Only include objects that are actually present in the image."

Plain text

Perhatikan bagaimana kami meminta model untuk hanya menyertakan benda yang ada di dalam gambar - ini mencegah halusinasi, seperti menambahkan titik penunjuk untuk unicorn yang tidak ada, dan menjaga model selalu berpijak pada realitas yang bisa dilihatnya. Kita dapat memperluas teknik ini untuk menampilkan keadaan objek dalam streaming video, hanya menyoroti objek dengan keadaan tertentu, seperti wadah yang sedang terbuka atau tertutup, ketika terlihat di dalam bingkai. Di bawah ini adalah video yang mempromosikan model untuk menunjukkan “spidol hijau, nampan coklat, buku catatan hijau, laptop (terbuka), laptop (tertutup), kotak kacamata (terbuka), kotak kacamata (tertutup)”, yang merupakan kueri yang menggabungkan pemahaman spasial dan estimasi keadaan.

Penalaran Temporal

Meskipun menemukan objek sangatlah penting, penalaran spasial-temporal yang sesungguhnya melibatkan pemahaman relasi antara objek dan tindakan yang terjadi dari waktu ke waktu. Gemini Robotics-ER 1.5 unggul dalam hal ini dengan memproses video untuk memahami sebab dan akibat di dunia fisik. Misalnya, dalam video berikut ini, sepasang lengan robot memindahkan spidol hijau ke dalam nampan kayu, lalu memindahkan pena biru dan merah ke dalam wadah berbentuk silinder. Ketika kami meminta model untuk meninjau urutannya dan memberi tahu kami tugas apa yang dilakukan beserta urutannya, serta tugas apa yang terjadi di antara dua stempel waktu, kami menerima jawaban yang benar. Ini menunjukkan kemampuan penalaran tentang peristiwa yang terjadi dalam sebuah adegan, bukan hanya apa yang ada di dalamnya.

Prompt:

Describe in detail each step of finishing the task. Breaking it down by timestamp, output in json format with keys "start_timestamp", "end_timestamp" and "description".

Plain text

Respons:

[
  {
    "start_timestamp": "00:02",
    "end_timestamp": "00:13",
    "description": "The left robotic arm picks up the green marker from the table and places it into the wooden tray."
  },
  {
    "start_timestamp": "00:15",
    "end_timestamp": "00:22",
    "description": "The left robotic arm picks up the blue pen from the table and places it into the black mesh pen cup."
  },
  {
    "start_timestamp": "00:23",
    "end_timestamp": "00:28",
    "description": "The right robotic arm picks up the red pen from the table and places it into the black mesh pen cup, completing the task of organizing the writing utensils."
  }
]

Plain text

>perbesar ke detik 15 hingga 22 dan berikan perincian per detik tentang hal-hal yang terjadi dalam format yang sama

[
  {
    "start_timestamp": "00:15",
    "end_timestamp": "00:16",
    "description": "The left robotic arm begins moving towards the blue pen located on the table to the left of the pen cup."
  },
  ... (removed for brevity, please take a look at the video below)
    {
    "start_timestamp": "00:21",
    "end_timestamp": "00:22",
    "description": "The arm lowers the pen into the cup and releases it, placing it upright inside the container."
  }
]

Plain text

Outputnya akurat secara temporal, dan menempatkannya pada video asli menunjukkan bahwa model memiliki pemahaman yang tepat tentang gerakan robot.

Penalaran tentang kemampuan untuk mengatur tugas jangka panjang

Ketika pemikiran diaktifkan, model bisa melakukan penalaran tentang kueri penunjuk dan kotak pembatas yang kompleks. Berikut adalah demonstrasi langkah demi langkah penggunaannya dalam contoh pembuatan kopi. Ini menunjukkan pemahaman tentang “bagaimana” dan “di mana” yang dibutuhkan manusia atau robot untuk menyelesaikan tugas.

Prompt:

Identify where I should put my mug to make a cup of coffee. Return a list of JSON objects in the format: `[{"box_2d": [y_min, x_min, y_max, x_min], "label": <label>}]`, where the coordinates are normalized between 0-1000.

Plain text

Respons:

Where should I put the coffee pod?

Plain text

Respons:

Now, I need to close the coffee maker. Plot a trajectory of 8 points that indicates how the handle of the lid should move to close it. Start from the handle. Points are [Y,X] in normalized coordinates [0 - 1000]. Please output all points, including the trajectory points in the format. [{"point": [Y, X], "label": },  {"point": [Y, X], "label": }, ...].

Plain text

Respons:

I finished my coffee. Where should I put my mug now to clean up? Return a list of JSON objects in the format: [{"point": [y, x], "label": <label>}], where the coordinates are normalized between 0-1000.

Plain text

Inilah contoh lain dari penggabungan perencanaan dan landasan spasial untuk menghasilkan rencana yang “berlandaskan spasial”. Hal ini bisa dilakukan dengan prompt sederhana, "Jelaskan cara memilah sampah ke tempat sampah. Tunjuklah setiap objek yang Anda maksud. Setiap titik harus dalam format: [{"point": [y, x], "label": }], dengan koordinat yang dinormalisasi antara 0-1000." Respons berisi teks dan titik-titik yang disisipkan dan dapat dirender untuk membuat animasi ini.

Anggaran pemikiran yang fleksibel

Bagan ini menunjukkan serangkaian contoh perubahan anggaran pemikiran saat menggunakan model Gemini Robotics-ER 1.5 dan pengaruhnya terhadap latensi serta performa. Performa model meningkat dengan meningkatnya anggaran token pemikiran. Untuk tugas pemahaman spasial sederhana seperti deteksi objek, performanya tinggi dengan anggaran pemikiran yang sangat rendah, sementara penalaran yang lebih kompleks mendapat manfaat dari anggaran yang lebih besar. Hal ini memungkinkan developer menyeimbangkan kebutuhan akan respons berlatensi rendah dengan hasil akurasi tinggi untuk tugas yang lebih menantang.

GeminiRoboticsER1.5_Graph-TTB-RD2_V001 (2)

Gemini Robotics-ER 1.5 menggunakan penskalaan komputasi waktu inferensi untuk meningkatkan performa. Anggaran token pemikiran dapat disesuaikan. Hal ini memungkinkan developer menyeimbangkan kebutuhan antara tugas yang sensitif terhadap latensi dengan hasil akurasi tinggi untuk tugas penalaran yang lebih menantang.

Meskipun pemikiran diaktifkan secara default dengan model Gemini Robotics-ER 1.5, Anda bisa mengatur anggaran pemikiran, atau bahkan menonaktifkan pemikiran, dengan menyertakan opsi thinking_config dengan permintaan Anda. Anda dapat menemukan informasi selengkapnya tentang anggaran pemikiran Gemini di sini.

Catatan tentang Keamanan

Kami berkomitmen untuk membangun fondasi yang bertanggung jawab untuk aplikasi robotika Anda. Gemini Robotics-ER 1.5 telah membuat peningkatan yang signifikan dalam hal keamanan, dengan filter yang disempurnakan untuk keduanya:

Keamanan Semantik: Model ini dirancang untuk memahami dan menolak pembuatan rencana untuk tugas yang berbahaya atau merugikan, dengan kemampuannya yang dievaluasi secara ketat terhadap tolok ukur seperti ASIMOV Benchmark.

Kesadaran Batasan Fisik: Model ini sekarang jauh lebih baik dalam mengenali ketika sebuah permintaan akan melanggar batasan fisik yang Anda tentukan, seperti kapasitas muatan robot atau batas ruang kerja.

Namun, perlindungan tingkat model ini bukanlah pengganti teknik keamanan ketat yang diperlukan untuk sistem fisik. Kami menganjurkan “pendekatan keju Swiss” untuk keamanan, di sini beberapa lapisan perlindungan bekerja bersama. Developer bertanggung jawab untuk menerapkan praktik terbaik keamanan robotika standar, termasuk penghentian darurat, menghindari tabrakan, dan penilaian risiko secara menyeluruh.

Mulai Membangun Hari Ini

Gemini Robotics-ER 1.5 tersedia dalam pratinjau hari ini. Ia memberikan kemampuan persepsi dan perencanaan yang diperlukan untuk membangun mesin penalaran bagi robot Anda.

Luncurkan Google AI Studio untuk mulai bereksperimen dengan model.

Baca dokumentasi developer untuk panduan memulai dan referensi API lengkap.

Jelajahi notebook Colab kami untuk melihat implementasi praktis.

Pelajari Penelitian Lebih Dalam

Model ini adalah komponen penalaran dasar dari sistem Gemini Robotics yang lebih luas. Untuk memahami ilmu pengetahuan di balik visi kami untuk masa depan robotika, termasuk model tindakan menyeluruh (VLA) dan pembelajaran lintas-perwujudan, baca blog penelitian dan laporan teknis lengkap.