2024 年 10 月 18 日、初回となる Web AI Summit が Google の主催で開催され、ウェブブラウザによるクライアントサイド機械学習モデルに取り組む世界トップ級の頭脳が集まりました。こういったソリューションは、最初にページを読み込んでしまえば、すべてがクライアント デバイスで完全にオフライン動作するので、低遅延推論、コスト削減、プライバシー向上といったメリットをユーザーにもたらすことができます。
このイベントには、Chrome や MediaPipe などの Google チームに加え、Intel、Hugging Face、Microsoft、LangChain といったサードパーティの担当者が登場しました。トークでは、コンシューマ向けパッケージ商品の検出からヘルスケア ソリューションまで、幅広い業界やテーマ分野が網羅され、ウェブ AI の広がりが示されました。
詳細については、この続きを読むことも、YouTube のプレイリストを見てキャッチアップし、トークをご覧いただくこともできます!
この歴史的なイベントには、22 か国、59 の都市、179 の Google オフィスから 1,100 件以上の登録があり、一日中満席の状態が続きました。すべての人がトークに魅了されているのを目の当たりにするのは、本当にすばらしいことでした。
ソフトウェア エンジニア、ビジネスの意思決定者、経営トップといったさまざまな人が参加し、技術的専門知識と戦略計画の間で有意義な相乗効果が生み出されました。
エキスパートの登壇者が Javascript デベロッパーに向けて貴重な知見をお話ししました。クライアントの要求を満たせる高度で複雑な AI 搭載機能に関する知識は、業界基準になりつつあるものです。以下のすべてのトークをチェックするか、コーヒー休憩の際にご覧ください。
Jason Mayes - Google、ウェブ AI リード
Jim Bankoski - Google、Chrome、エンジニアリング担当 VP
2024 年のウェブ AI の現状と Web AI Summit が生まれた理由をお話しします。オンデバイス機械学習で可能なこと、それが向かう未来を確認し、基礎知識を得てから、このシリーズの他のトークをお聞きください。すべての人を対象としたこのトークでは、生成 AI、LLM、拡散モデル、WebGPU、WebAssembly、そして WebNN などの新しい API といったテーマ分野に加え、すでにウェブ AI を活用している業界の例を紹介します。
Joshua Lochner - Hugging Face、ML エンジニア(Transformers.js)
エキサイティングな新しい JavaScript ライブラリ、Transformers.js について学びましょう。これを使うと、これまでにないウェブ アプリケーションを開発できます。Hugging Face の Python transformers ライブラリと同じ機能を持つように設計され、さまざまなタスクとモードの 120 以上のアーキテクチャをサポートしています。ユーザーは、1,000 以上の事前トレーニング済みモデルから選択したり、独自のモデルを変換してブラウザでローカルに実行できるようにしたりして、プライバシー保護、低遅延、スケーラブルな機械学習を実現します。最新の WebGPU サポートが追加されたことで、ブラウザから最新の GPU 機能を直接利用でき、高いパフォーマンスでモデルを実行できます。
Rob Kochman - Google、グループ プロダクト マネージャー(Chrome)
Rafael Cintron - Microsoft、プリンシパル ソフトウェア デザイン エンジニア
最近では、WebAssembly や WebGPU といった高度なウェブ テクノロジーにより、AI 機能が実際にブラウザで動作するようになっています。提案されたウェブ ニューラル ネットワーク(WebNN)API は、その勢いのままに、AI アクセラレータ ハードウェア(NPU)搭載デバイスを含むさまざまなデバイスで、AI ワークロードの実行を高速化および効率化することを目指しています。これらはすべてウェブ標準に基づいています。このセッションでは、WebNN の概要から始め、API の概要、デバイスのサポート、フレームワークのサポート、ブラウザの実装など、最近の進展について説明します。コミュニティからのフィードバックを得るため、今後の計画についても説明します。
Moh Haghighat - Intel、フェロー
Intel より、WebNN を紹介します。これは新しい統合 W3C ウェブ標準 API で、CPU、GPU、NPU などのさまざまなクライアント AI 実行エンジンに対応したオンデバイス ウェブ ML アクセラレーションに利用します。現時点で、WebNN は Chrome および Edge ブラウザのデベロッパー プレビュー版や一般的な ML フレームワーク(ONNX Runtime Web など)に組み込まれており、「ほぼネイティブ」のパフォーマンスと電力特性を実現しています。ウェブに新しいタイプのエクスペリエンスをもたらすエキサイティングな WebNN のデモと事前導入事例を紹介します。
Aidan Nelson - ニューヨーク大学、ML5.js、客員教員
このトークでは、TensorFlow.js をベースに開発されたオープンソース ライブラリ、ml5.js に注目します。ライブラリの目的は、アーティスト、クリエイティブ コーダー、学生といった幅広い人々に機械学習に親しんでもらうことです。このプロジェクトは、アクセシブルでインクルーシブなコーディングに注目した Processing と p5.js から着想を得て、ニューヨーク大学の ITP プログラムの共同事業として計画されています。ml5.js は、このミッションを機械学習の分野に拡大し、複雑な技術である機械学習を、クリエイティブな初心者やアーティストでも使えるようにすることを目指しています。
Charlie Ruan - カーネギー・メロン大学、学生研究者
このトークでは、高パフォーマンスなブラウザ内 LLM 推論エンジン、WebLLM について説明します。WebLLM を使うと、高速(WebGPU によるネイティブ GPU アクセラレーション)、プライバシー保護(100% クライアントサイドで計算)、利便性(環境設定不要)を備えた AI 対応ウェブアプリを開発できます。WebLLM には、デベロッパー向けの統合規格として OpenAI-API スタイルのインターフェースが搭載されているほか、チャット アプリケーションや効率的な構造化 JSON 生成をサポートし、UI フローとバックエンドの実行を分離するウェブワーカーやサービス ワーカーを組み込みでサポートしています。このトークでは、WebLLM の主な機能、全体的なアーキテクチャ、デベロッパーがこれを使って AI 対応ウェブ アプリケーションを開発する方法について説明します。
Jacob Lee - LangChain、創設者およびエンジニア
WebLLM、Transformers.js、Chrome AI などのプロジェクトがもたらす新しくエキサイティングな進展により、ブラウザを使ったローカル LLM がこれまで以上に身近になっています。これはウェブ開発のフロンティアを拡大する大きな可能性を秘めていますが、この小型モデルは最先端のホスト型モデルよりも制限が強いため、設計やプロンプトを慎重に検討する必要があります。
このトークでは、そういった制約への対処方法に注目します。具体的には、LangGraph.js の強力なツールキットを使って、小型モデルを最大限に活用する実用的なアプリを実装するテクニックを紹介します。LangGraph.js は、ステートフルな LLM アプリをオーケストレーションする新しいフレームワークです。
Ruofei Du - Google、インタラクティブ パーセプションおよびグラフィックス リード
Visual Blocks for ML は、高速 AI とマルチメディア プロトタイピングを実現するビジュアル プログラミング プラットフォームです。このトークでは、インタラクティブな AI パイプラインを構築し、インタラクティブにデータを拡張して、シンプルなドラッグ アンド ドロップ アクションを使ってライブデータでパイプラインをテストする方法を紹介します。また、コミュニティによるさまざまなパイプラインやカスタムノードにも注目し、インタラクティブ グラフィックス、大規模言語モデルチェーン、コンピュータ ビジョン、マルチモーダル ソリューションといった多様なアプリケーションを紹介します。最後に、すべてのウェブ AI 実践者の皆さんに、独自の ML パイプラインやカスタムノードによって貢献していただくことをお願いします。それにより、この共有プラットフォームがさらに充実し、革新的なユースケースが誕生します。
Charlie Gerard - CrowdStrike、シニア リサーチ エンジニア
最新の AI の進展は、主に大規模言語モデルと、新しい方法でのコンテンツの作成と消費に注目したものです。しかし AI は、インターフェースとのインタラクションを再考する機会も提供します。ウェブ デベロッパーが JavaScript とボディ トラッキングやオーディオ分類に注目したモデルを併用すれば、代替インタラクションを試し、さらに革新的なウェブ エクスペリエンスを作成するまたとないチャンスが生まれます。
Kenji Baheux - Google、Chrome、プロダクト マネージャー
Chrome で組み込み AI を実現する取り組みや教訓、次のステップを共有します。Prompt API をどう見ているか、要約や作文、書き換えといった高レベルなタスク API の状況、早期プレビュー版プログラムから得られた教訓、そして今後の展開について説明します。
Hugo Zanini - Nubank、テクニカル プロジェクト リード
世界の消費者向けパッケージ商品(CPG)トップ 10 企業がウェブ AI を活用し、ブラジルで店舗内取引マーケティング戦略を拡大しています。このトークでは、それがどのようにして同業他社にも役立つオープンソース プロジェクトへと発展したのかを紹介します。
Thomas Steiner - Google、Chrome、デベロッパー リレーションズ エンジニア
このトークでは、Chrome の組み込み API の最初の利用者となったデベロッパー リレーションズが学んだことをまとめます。AI による同義語検索アプリの例を挙げながら、プロンプトの微調整、確実な出力解析、最大限のパフォーマンスを得るためのアプリ最適化といった点を中心に、Prompt API を使う方法を紹介します。
Yuriko Hirota - Google、パートナー ソリューション エンジニア
Kazunari Hara - CyberAgent、デベロッパー エキスパート
クライアントサイド AI を活用すれば、AI を使うだけでなく、ユーザー エクスペリエンスを向上させることができます。このライトニング トークでは、その実用的な力を明らかにし、Google I/O 2024 で取り上げた実際のケーススタディを深く掘り下げます。日本のトップ ブログ サービスの 1 つである CyberAgent は、クライアントサイド AI のマジックを活用し、ユーザーが簡単にブログのタイトルを生成できるようにしています。革新的なユースケース設計とユーザー中心のアプローチを通じ、クライアントサイド AI の可能性を最大限に活用している CyberAgent に学びましょう。
David Li - Google、Chrome、プロダクト マネージャー
このトークでは、AI と Chrome 拡張機能の可能性を紹介します。Chrome 拡張機能は、ブラウザの制御、ウェブ コンテンツの監視、独自の UI の追加などに利用できます。AI と Chrome 拡張機能を組み合わせれば、ブラウジング エクスペリエンスの利便性が大きく向上し、生産性を上げることができます。このトークでは、WebStore の拡張機能が現在の AI をどのように活用しているか、そしてその最大の可能性はどこにあるかについてお話しします。
Evgeny Peshkov - GEENEE、CTO
画期的なバーチャル試着広告をすべての画面に導入し、ウェブ AI で有料メディアにパーソナライズ革命を起こす方法をご覧ください。
Tyler Mullen - Google、MediaPipe、スタッフ ソフトウェア エンジニア
MediaPipe のクロスプラットフォーム アプローチについて学び、AI パイプラインを構築してブラウザに導入しましょう。この手法のメリットとともに、このアプローチで強化された主なプロダクト(Google Meet など)を紹介します。さらに、最新の技術の進歩やデベロッパー API について説明します。これには、画像セグメンテーションなどの従来の機械学習タスクや、LLM 推論などの生成 AI タスクのソリューションが含まれています。最後に、いくつかのエキサイティングなデモを通して、未来の姿を少しだけお見せします!
Chris Slee - IncludeHealth、CTO
バーチャル理学療法を提供している IncludeHealth は、WebAI を活用して距離的、経済的な障壁を打破し、患者が時間や場所、デバイスを問わず、個人に合わせた綿密なケアを受けられるようにしています。
Richard Stotz - Google、Core ML、ソフトウェア エンジニア
ML と AI のための無料の Google スプレッドシート アドオンである Simple ML for Sheets をどのように開発したのかを紹介します。Simple ML for Sheets は、WebAssembly、Javascript、Chrome の新しい組み込み AI によるオンデバイス機械学習を活用し、すべてのユーザーのために高度な機械学習タスクを実現します。このトークでは、Simple ML for Sheets を市場で成功させることに貢献したツールや、ウェブで独自の ML を実現するために役立ったオープンソース ライブラリに注目します。
このイベントは、制作や運営に携わる多くの方々がいなければ実現できませんでした。イベントを実現してくださった Jason Mayes、Jenna Zheng、Marcus Chang の 3 人のイベント クリエイターに感謝します。もちろん、上記のすべてのプレゼンター、そして当日のヘルパーとアシスタントに加えて、イベント後に視聴できるように、スムーズに撮影していただいた AV チームにも深く感謝しています。
今回のイベントを見逃してしまった方は、上の動画をご覧ください。ウェブ AI ニュースレターも発刊していますので、ぜひ購読しましょう。次のイベントについては、このニュースレターでお知らせします。