隆重推出 PaliGemma 2:简单易微调的强大视觉语言模型

十二月 05, 2024
Daniel Keysers Research Engineer
Andreas Steiner Staff Software Engineer

开发能够“看见”的自定义先进 AI 技术曾是一项需耗费大量资源的复杂工作。但如今已不同以往。今年 5 月,我们推出了 PaliGemma,即 Gemma 系列中的首个视觉语言模型,朝着使一流视觉 AI 更易于使用的这一目标迈出了重要一步。现在,我们很高兴地推出可调视觉语言模型的新一代产品 PaliGemma 2。

PaliGemma 2 依托于高性能 Gemma 2 模型而构建,引入了强大的视觉处理能力,使其比以往任何时候都更易于微调,以此实现卓越性能。在 PaliGemma 2 的加持下,这些模型可以看见和理解视觉输入内容并与之交互,开辟了一个充满全新可能的世界。


PaliGemma 2 有什么新功能?

  • 可扩展性能:利用 PaliGemma 2 的多种模型规模(3B、10B、28B 参数)和分辨率(224px、448px、896px)优化任何任务的性能。

  • 长文本生成:PaliGemma 2 为图像生成与上下文相关的详细文本,不仅能实现简单的物体识别,还能描述动作、情绪和场景的整体叙事。

  • 拓展新视野:技术报告所述,我们的研究表明 PaliGemma 2 在化学公式识别、乐谱识别、空间推理和胸部 X 射线报告生成方面具有领先性能。

对于当前的 PaliGemma 用户而言,升级到 PaliGemma 2 轻而易举。PaliGemma 2 可作为直接替代方案,提供一系列模型规模,用户无需对代码进行重大修改,即可在大多数任务上立即获得性能提升。此外,PaliGemma 2 具有强大的灵活性,可简化针对特定任务和数据集的微调,使您能够根据您的确切需求定制其功能。

请参阅我们的技术报告,进一步了解 PaliGemma 2 的工作原理,包括使用更多参数和更大分辨率的最佳时机。


以 PaliGemma 的成功为基础而构建

自推出以来,Gemma 系列已迅速发展为一个充满活力的生态系统 Gemmaverse,拥有数以万计的模型和应用。这种迅猛发展证明了社区的独创巧思。借助 PaliGemma 而取得的早期创新成果,例如 ColPali 在视觉文档检索方面的进步RoboFlow 的微调技术以及实时对象跟踪方面的进展,无一不展现了 Gemmaverse 不断扩大的潜力。


立即开始体验吧

准备好探索 PaliGemma 2 的潜力了吗?具体方法如下:


我们非常高兴看到您使用 PaliGemma 2 构建的内容。加入充满活力的 Gemma 社区,将您的项目分享到 Gemmaverse,让我们一起继续探索 AI 的无限潜力。您的反馈和贡献对于塑造这些模型的未来并推动该领域的创新至关重要。