随着新数字平台和服务的出现,我们所面临的保护用户在线信息安全的挑战变得越来越复杂,新技术需要新的隐私解决方案。在 Google,我们继续对隐私增强技术 (PET) 进行投资,这是一系列尖端工具,可通过保证个人信息隐私和安全,帮助解决数据处理的关键任务。
在过去十年中,我们将 PET 集成入我们的整个产品套件中,借助这些技术帮助应对社会所面临的挑战,并通过开源项目向世界各地的开发者和研究人员免费提供了诸多 PET。
今天,我们很高兴向大家分享我们在差异化隐私方面工作的最新进展,差异化隐私是一个数学框架,能实现以隐私保护的方式分析数据集,以帮助确保个人信息绝不会遭到泄露。
大多数用户都不知道差异化隐私这一 PET 技术,但这项技术是当今一些最广泛使用的技术功能幕后的功臣之一。不过,与许多 PET 一样,由于诸多原因,行业采用差异化隐私可能存在挑战性:复杂的技术集成、针对大型应用可扩展性有限、计算资源成本高等。
我们很高兴地宣布,我们在过去一年中完成了全球最大的差异化隐私应用,覆盖了近 30 亿台设备,帮助 Google 改进了 Google Home、Android 版 Google 搜索和 Messages 等产品。利用这项技术,我们能够改善这些产品的整体用户体验。
例如,我们能够找出 Google Home 中 Matter 设备崩溃的根本原因,从而帮助提高客户满意度。Matter 是行业标准,可简化整个智能家居生态系统中智能家居设备的设置和控制。随着 Google Home 继续增加对新设备类型的支持,我们的团队利用我们的差异隐私工具解锁的洞察,发现并快速修复了 Home 应用的一些连接问题。
这 30 亿台设备的部署是我们经过六年多对“shuffler”模型的研究才得以实现的,该模型可以有效地在“本地”和“中心”模型之间重新排列数据,从而对更大的数据集实现更准确的分析,同时仍然保持最强的隐私保障。
五年多前,我们开始执行一项使命,即通过发布我们的基础差异化隐私库首个开源版本,以实现 PET 访问的民主化。我们的目标是将我们内部使用的许多相同技术免费提供给所有人,从而降低全球开发者和研究人员的准入门槛。
为了履行我们的承诺,我们在两年前开放了首款全同态加密 (FHE) 转译器的源代码,并一直不断消除进入门槛。我们在联邦学习和其他隐私技术(如安全多方计算)方面也采取了相同的做法,安全多方计算技术允许双方(例如两个研究机构)将各自的数据合并,并在不泄露底层信息的情况下分析合并数据。
自 2019 年以来,我们通过以新的编程语言发布这些库,扩大了这些库的访问范围,以吸引尽可能多的开发者。今天,我们宣布发布适用于 Java 虚拟机 (JVM) 的 PipelineDP 版本,名为 PipelineDP4j。这项工作是我们与 OpenMined 共同完成的工作的延续。PipelineDP4j 使开发者可以使用 Java 作为基准语言执行高度并行的计算,同时为已经使用 Java 的开发者降低进入差异化隐私领域的门槛,从而为差异化隐私的新应用打开了大门。随着该 JVM 版本的发布,我们现在支持 Python、Java、Go 和 C++ 等热门开发者语言,可能已覆盖全球一半以上的开发者。
此外,我们的一些最新差异化隐私算法现在可以为 Google 趋势等独特工具提供支持。我们的模型开发之一现在可使 Google 趋势能够对低流量区域提供更多数据洞见。对于差异化隐私(以及一般的大多数隐私保证),数据集需要满足最低阈值,以确保个人数据不被泄露。我们的新产品可以帮助研究人员和当地记者等专业人士获得有关较小城市或地区的更多数据洞见,从而了解最重要的主题。例如,如果有记者在卢森堡查询有关葡萄牙语内容的结果,该记者现在可以获取以前无法获得的数据洞见。
各行业和政府越来越多地采用差异化隐私,这是以私密方式处理用户数据的重大进步。然而,这种广泛采用也可能导致机制设计和实施错误的风险增加。该领域开发的大量算法使得对这些算法的实施情况执行手动检查变得不切实际,并且也缺乏灵活的工具,能够在没有重要假设的情况下测试各种技术。
为了让从业人员能够测试给定机制是否违反差异化隐私保证,我们发布了一个库,名为 DP-Auditorium。该库仅使用机制本身为样本,而无需访问应用的任何内部属性。
有效的隐私保证测试需要两个关键步骤:评估固定数据集的隐私保证,以及探索数据集以找到“最坏情况”下的隐私保证。DP-Auditorium 引入了适用于这两方面的通用接口,促进了高效测试,并始终优于现有的黑盒访问测试仪。最重要的是,这些接口的设计具有灵活性,使研究团体能够作出贡献和扩展,从而不断增强工具的测试能力。
我们将继续加强对 PET 的长期投资,并致力于帮助开发者和研究人员安全地处理和保护用户数据和隐私。