デベロッパーにとって Gemini 時代が次の章へ

12月 11, 2024
Shrestha Basu Mallick Group Product Manager Gemini API
Kathy Korevec Director of Product Google Labs

私たちは、最先端のモデル、コード作成を高速化するインテリジェントなツール、プラットフォームやデバイス間のシームレスな連携によって、デベロッパーが AI の未来を築けるようにしています。昨年 12 月に Gemini 1.0 をリリースして以来、何百万人ものデベロッパーが Google AI StudioVertex AI と 109 の言語で Gemini を使った開発を進めています。

本日は、インタラクティブ性が増してさらに没頭できるアプリケーションを実現する Gemini 2.0 Flash Experimental と、デベロッパーに代わってアクションを実行することでワークフローを強化する新しいコーディング エージェントについてお知らせします。


Gemini 2.0 Flash で開発する

Flash 2.0 は、Gemini 1.5 Flash の成功を土台として開発されました。速度は 1.5 Pro の 2 倍になり、新しいマルチモーダル出力などのパフォーマンスが向上しているほか、ネイティブ ツールの利用にも対応しています。また、オーディオや動画をリアルタイムにストリーミングするダイナミックなアプリケーションを開発するためのマルチモーダル ライブ API も導入しています。

本日より、試験運用版フェーズの間、デベロッパーは Google AI StudioVertex AIGemini API から、Gemini 2.0 Flash のテストや確認ができるようになっています。来年初頭には一般公開される予定です。

デベロッパーは、Gemini 2.0 Flash の次のような機能にアクセスできます。

1. パフォーマンスの向上

Gemini 2.0 Flash は 1.5 Pro よりも強力でありながら、Flash に期待されるスピードと効率を維持しています。また、主要なベンチマークで、マルチモーダル、テキスト、コード、動画、空間理解、推論のパフォーマンスが向上しています。空間理解能力が向上したことで、雑然とした画像に含まれる小さな物体に対しても、正確な境界ボックスを生成できます。また、物体の識別能力やキャプションを付ける能力も向上しています。詳細については、空間理解機能についての動画Gemini API ドキュメントをご覧ください。

Link to Youtube Video (visible only when JS is disabled)

2. 新たな出力モード

デベロッパーは、Gemini 2.0 Flash を使ってテキスト、オーディオ、画像をすべてまとめた応答を、1 回の API 呼び出しで生成できます。この新しい出力モードは早期テスターが利用でき、来年にはさらに多くの方にロールアウトする予定です。すべての画像とオーディオの出力で SynthID の見えない透かしが有効になる予定なので、誤情報や誤出典の懸念を減らすことができます。

  • 多言語ネイティブ オーディオ出力: Gemini 2.0 Flash には、ネイティブのテキスト読み上げオーディオ出力が搭載されています。モデルがを言うかだけでなく、どのように言うかまで細かく制御でき、8 つの高品質な音声とさまざまな言語やアクセントを選ぶことができます。実際にネイティブ オーディオ出力を聴いてみるかデベロッパー向けドキュメントで詳細をご確認ください。

  • ネイティブ画像出力: Gemini 2.0 Flash は、ネイティブに画像を生成でき、会話型のマルチターン編集にも対応しているので、以前の出力を基に作成したり、改善したりすることができます。テキストと画像を交互に出力することもできるため、レシピなどのマルチモーダル コンテンツに活用できます。詳しくは、ネイティブ画像出力についての動画をご覧ください。

Link to Youtube Video (visible only when JS is disabled)

3. ネイティブ ツールの利用

Gemini 2.0 は、ツールを利用できるようにトレーニングされています。ツールの利用は、エージェント エクスペリエンスを開発するための基本機能です。関数呼び出しによるカスタム サードパーティ関数に加えて、Google 検索やコード実行などのツールをネイティブに呼び出すことができます。Google 検索をネイティブ ツールとして使うと、事実に基づいた包括的な回答を得ることができるので、パブリッシャーへのトラフィックを増加させることができます。複数の検索が並列実行されるので、複数のソースから関連性の高い事実を同時に検索でき、それらを組み合わせて正確性を高めることによって、情報検索機能を向上させることができます。詳しくは、ネイティブ ツールの利用についての動画をご覧ください。ノートブックで開発を始めることもできます。

Link to Youtube Video (visible only when JS is disabled)

4. マルチモーダル ライブ API

カメラや画面からオーディオや動画をストリーミング入力することで、リアルタイム マルチモーダル アプリケーションを開発できるようになりました。中断や音声区間検出などの自然な会話パターンがサポートされています。1 回の API 呼び出しで複雑なユースケースを実現できるように、複数のツールをまとめる機能に対応した API になっています。詳しくは、マルチモーダル ライブ ストリーミングについての動画をご覧ください。ウェブ コンソールスターター コード(Python)を試すこともできます。

Link to Youtube Video (visible only when JS is disabled)

うれしいことに、Gemini 2.0 Flash を使って大幅に機能を進化させ、新たな体験のプロトタイプを作成しているスタートアップ企業があります。たとえば、tldraw のビジュアル プレイグラウンド、Viggle の仮想キャラクター作成とオーディオ ナレーション、Toonsutra の文脈に応じた多言語翻訳、Rooms のリアルタイム オーディオ追加などです。

最初からハイペースで Gemini 2.0 Flash を使った開発を進められるように、Google AI Studio3 つのスターター アプリ エクスペリエンスと、空間理解、動画分析、Google マップ探索を行うオープンソース コードをリリースしています。


AI コード アシスタンスを進化させる

AI コード アシスタンスは、単純なコード検索から、デベロッパーのワークフローに組み込まれた AI アシスタントへと、急速に進化しています。その最先端で使われているのが Gemini 2.0 で、皆さんに代わってタスクを実行できるコーディング エージェントを実現しています。

私たちの最新の研究によると、コード実行ツールを搭載した 2.0 Flash は SWE-bench Verified で 51.8% のスコアを達成しました。SWE-bench Verified は、現実のソフトウェア エンジニアリング タスクでエージェントのパフォーマンスをテストするベンチマークです。最高水準の推論スピードを持つ 2.0 Flash のおかげで、エージェントは数百のソリューション候補をサンプリングし、既存の単体テストと Gemini 自身の判断に基づいて最良のソリューションを選択できました。現在は、この研究を新しいデベロッパー プロダクトにする作業を行っています。


AI コード エージェント Jules の概要

バグ対応が終わったばかりであるにもかかわらず、長いバグのリストと向き合わなければならないことを想像してみてください。本日より、Python と Javascript のコーディング タスクを、Gemini 2.0 を使う試験運用版 AI コード エージェント、Jules にオフロードできます。Jules は非同期で動作し、GitHub ワークフローとも連携できるので、皆さんが本当に開発したいものに集中している間に、バグの修正などの時間のかかるタスクを済ませてくれます。Jules は問題に対処するため、包括的なマルチステップ プランを作成し、複数のファイルを効率的に変更してくれます。それだけでなく、pull リクエストを作成し、修正を直接 GitHub に反映してくれます。

これはまだ初期段階ですが、社内で Jules を使った経験から、デベロッパーに次のようなメリットが生まれることがわかっています。

  • 生産性の向上。問題やコーディング タスクを Jules に割り当てることで、効率的に非同期でコーディングを行うことができます。

  • 進捗の追跡。情報をリアルタイムに取得できるので、常に最新情報を把握し、注意が必要なタスクを優先することができます。

  • デベロッパーがすべてを管理。Jules が作成した計画を随時確認したり、適切と思われるフィードバックを提供したり、調整をリクエストしたりできます。Jules が書いたコードは簡単に確認でき、必要に応じてプロジェクトにマージできます。

本日より、一部の信頼できるテスターが Jules を利用できるようになっています。2025 年初頭には、その他の関心のあるデベロッパーも利用できるようになる予定です。labs.google.com/jules で登録を行うと、Jules の最新情報を入手できます。


Colab のデータ サイエンス エージェントでノートブックを作成

今年の I/O では、labs.google/code で試験運用版のデータ サイエンス エージェントを公開しました。これを使うと、誰でもデータセットをアップロードし、数分で知見を得ることができます。この機能はすべて Colab ノートブックで実現しています。うれしいことに、デベロッパー コミュニティから多くの肯定的なフィードバックをいただき、効果を確認することができました。たとえば、ローレンス バークレー国立研究所のある科学者は、データ サイエンス エージェントを活用し、世界的な熱帯湿地メタン排出プロジェクトに取り組んでいます。推定によると、その際の分析と処理にかかった時間は 1 週間から 5 分に短縮されています。

Colab では、このエージェント機能を Gemini 2.0 を使って組み込む作業が始まっています。分析の目的をわかりやすい言葉で説明するだけで、ノートブックが自動作成されるので、短時間で確認やデータ分析を行えるようになります。この新機能は、2025 年上半期に Colab ユーザーにロールアウトされる予定です。その前に早期アクセスしたいデベロッパーの皆さんは、信頼できるテスター プログラムに参加してください。

デベロッパーが未来を築く

Gemini 2.0 モデルを使うと、高機能な AI アプリを短時間で簡単に開発できるので、皆さんはユーザー エクスペリエンスの向上に集中することができます。今後数か月以内に、Android StudioChrome DevToolsFirebase などのプラットフォームにも Gemini 2.0 を導入する予定です。こちらから登録すると、Gemini Code Assist で Gemini 2.0 Flash を使えるようになるので、Visual Studio Code、IntelliJ、PyCharm などの一般的な IDE で高度なコーディング アシスタンス機能を利用できます。使ってみたい方は、ai.google.dev にアクセスしてください。Google AI for Developers をフォローすると、今後のアップデートについての情報を受け取ることができます。