去年 12 月,我们发布了 PaliGemma 2,这是 Gemma 系列中一款升级的视觉语言模型。此次发布推出了针对不同模型规模(30 亿、100 亿和 280 亿参数)的预训练检查点,这些检查点可以轻松地在广泛的视觉语言任务和领域(如图像分割、短视频字幕生成、科学问题回答以及与文本相关的任务)中进行微调,并且表现出色。
现在,我们非常激动地宣布推出 PaliGemma 2 mix 检查点。PaliGemma 2 mix 模型针对多种任务进行了调整。用户可以直接探索模型的能力,并且可以立即在常见的案例中应用该模型。
如果您已经在使用最初的 PaliGemma mix 检查点,则可以直接升级到 PaliGemma 2,而无需进行任何更改。该模型根据不同的提示执行不同的任务。请参阅官方文档了解不同的提示任务语法,并在我们的技术报告中进一步了解 PaliGemma 2 的开发过程。
结果:
结果:
结果:
结果:
结果:
结果:海滩
结果:一头牛站在海滩上,旁边有个写着“警告:小心离岸流”的牌子。
光学字符识别 (OCR)
结果:
警告
小心
离岸流
结果:
结果:
结果:一头牛站在海滩上,旁边有个警告标志。
结果:
警告:小心
离岸流
准备好探索 PaliGemma 2 的潜力了吗?以下是探索 mix 模型功能的方法:
PaliGemma 2 mix 在多个任务中表现出色,但通过在您自己的任务或领域中对 PaliGemma 2 进行调整,您甚至可以获得更佳结果。要学习如何操作,请深入了解我们的全面指导文档、查看 Keras 和 JAX 的官方示例笔记本,或使用 Hugging Face transformers 示例。我们期待看到您构建出的精彩作品!