在Google ,我们相信协作和开放研究的力量可以推动创新,我们很高兴看到Gemma在推出后的短短几个月内就获得了数百万次下载,受到社区的欢迎。
这种热情的回应令人难以置信的鼓舞人心,因为开发人员已经创建了各种各样的项目,如印度语的多语言版本Navarasa ,以及设备上行动模型Octopus v2,开发人员正在展示Gemma的潜力,以创建有影响力和可访问的人工智能解决方案。
这种探索和创造精神也推动了我们CodeGemma和RecurrentGemma的发展, CodeGemma具有强大的代码完成和生成能力, RecurrentGemma提供了高效的推理和研究可能性。
Link to Youtube Video (visible only when JS is disabled)
Gemma是一系列轻量级、最先进的开放式模型,由用于创建Gemini模型的相同研究和技术构建而成。今天,我们很高兴能够通过推出PaliGemma进一步扩展Gemma家族,PaliGemma是一种功能强大的开放视觉语言模型( VLM ),并且随着Gemma 2的发布,我们可以先睹为快。此外,我们正在通过更新负责任的生成式人工智能工具包,进一步履行我们对负责任的人工智能的承诺,为开发人员提供新的和增强性工具,用于评估模型安全性和过滤有害内容。
PaliGemma是一款功能强大的开放式VLM ,灵感来自PaLI-3。PaliGemma建立在包括SigLIP视觉模型和Gemma语言模型在内的开放组件之上,旨在为各种视觉语言任务提供领先水平的微调性能。这包括图像和短视频字幕、可视化问答、理解图像中的文本、对象检测和对象分割。
我们提供多种分辨率的预训练和微调检查点,以及专门针对混合任务进行调整的检查点,以便立即探索。
为了促进开放式探索和研究, PaliGemma可通过多平台和资源提供实现。使用Kaggle和Colab笔记本电脑等免费选项,立即开始探索。寻求突破视觉语言研究界限的学术研究人员也可以申请Google Cloud学分来支持他们的工作。
立即开始使用PaliGemma。您可以在GitHub、 Hugging Face模型 、 Kaggle、 Vertex AI Model Garden和ai.nvidia.com (通过TensoRT-LLM加速)上找到PaliGemma ,通过JAX和Hugging Face Transformers轻松集成。( Keras集成即将推出)您还可以通过此拥抱面部空间与模型进行交互。
我们很高兴地宣布,下一代Gemma型号Gemma 2即将推出。Gemma 2将提供新的尺寸,适用于广泛的人工智能开发人员用例,并具有专为突破性性能和效率而设计的全新架构,可提供以下优势:
敬请期待Gemma 2在未来几周的正式发布!
出于这个原因,我们正在扩展我们的Responsible Generative AI Toolkit ,通过发布开源LLM Comparator来帮助开发人员进行更强大的模型评估。LLM 比较器是一种新的交互式和可视化工具,用于执行有效的并行评估,以评估模型回复的质量和安全性。要查看LLM比较器的实际操作,请查看我们的演示,其中展示了Gemma 1.1和Gemma 1.0之间的比较。
我们希望这个工具将进一步推进工具包的使命,即帮助开发人员创建不仅具有创新性,而且安全负责的人工智能应用程序。
随着我们不断扩大Gemma的开放模型系列,我们仍然致力于营造一个协作环境,让尖端的人工智能技术和负责任的开发齐头并进。我们很高兴看到您使用这些新工具构建了什么,以及我们如何共同塑造人工智能的未来。