새로운 디지털 플랫폼과 서비스가 등장함에 따라 사용자의 정보를 온라인에서 안전하게 보호하는 일이 점점 더 복잡해지고 있습니다. 새로운 기술에는 새로운 개인정보 보호 솔루션이 필요하기 때문입니다. Google은 PET(개인정보 보호 강화 기술)에 꾸준히 투자하고 있습니다. PET는 개인 정보가 비공개로 안전하게 유지되도록 보장함으로써 데이터 처리라는 중요한 과제를 해결하는 데 도움이 되는 최첨단 도구 제품군입니다.
지난 10년 동안 저희는 Google 제품군 전체에 PET를 통합하여 사회적 문제를 해결하는 데 사용했으며 오픈소스 프로젝트를 통해 전 세계 개발자와 연구자가 다수의 제품을 무료로 사용할 수 있도록 했습니다.
오늘, 차등적 개인정보 보호에 대한 업데이트를 공유하게 되어 매우 기쁩니다. 차등적 개인정보 보호는 개인 정보가 절대 노출되지 않도록 하기 위해 개인정보를 보존하는 방식으로 데이터 세트를 분석할 수 있게 해주는 수학적 프레임워크입니다.
차등적 개인정보 보호는 대부분의 사용자에게 알려지지 않은 PET지만, 오늘날 가장 널리 사용되는 일부 기술 기능의 이면에서 큰 역할을 하는 없어서는 안 될 이름 없는 영웅이라 할 수 있습니다. 그러나 많은 PET와 마찬가지로, 복잡한 기술적 통합, 대규모 애플리케이션에 대한 제한적 확장성, 고비용의 컴퓨팅 리소스 등 여러 가지 이유로 업계에서 차등적 개인정보 보호를 채택하기 어려울 수 있습니다.
작년에 30억 대에 가까운 기기에 차등적 개인정보 보호를 적용하는 새로운 이정표에 도달했음을 알려드리게 되어 기쁩니다. 이는 저희가 알기로 세계 최대 규모이며 덕분에 Google은 Google Home, Android의 Google 검색, 메시지 등의 제품을 향상시킬 수 있었습니다. 이 기술을 사용해 이러한 제품에 대한 전반적인 사용자 경험을 개선할 수 있었습니다.
예를 들어, Google Home에서 Matter 기기의 충돌 근본 원인을 파악하여 고객 만족도를 높이는 데 도움이 되었습니다. Matter는 스마트 홈 생태계 전반에서 스마트 홈 기기의 설정 및 제어를 간소화하는 산업 표준입니다. Google Home이 새로운 기기 유형에 대한 지원을 계속 추가함에 따라, 저희 팀은 차등 개인 정보 보호 도구에서 얻은 통찰력을 사용하여 Home 앱의 일부 연결 문제를 발견하고 신속하게 패치했습니다.
이 30억 대의 기기 배포는 "셔플러" 모델에 대한 6년 이상의 연구를 통해 가능했습니다. 이 모델은 "로컬" 모델과 "중앙" 모델 간에 데이터를 효과적으로 셔플하여 가장 강력한 개인 정보 보호 보장을 유지하면서도 더 큰 데이터 세트에 대한 보다 정확한 분석을 달성합니다.
5년여 전 저희는 기초적인 차등적 개인정보 보호 라이브러리의 첫 번째 오픈소스 버전을 출시하여 누구나 PET에 접근할 수 있도록 하겠다는 임무에 착수했습니다. 그 목표는 Google에서 내부적으로 사용하는 것과 동일한 기술 다수를 누구나 무료로 사용할 수 있도록 함으로써 전 세계 개발자와 연구자의 진입 장벽을 낮추는 것입니다.
이러한 노력의 일환으로 저희는 2년 전에 최초의 FHE(Fully Homomorphic Encryption) 트랜스파일러를 오픈소스로 제공했으며 그 과정에서 지속적으로 진입 장벽을 제거했습니다. 또한 제휴 학습과 기타 개인정보 보호 기술(예: 안전한 다자간 계산 - 예컨대 두 연구 기관 같은 두 당사자가 기본 정보를 공개하지 않고도 각자의 데이터를 조인하고 결합된 데이터에 대한 분석을 수행할 수 있음)에 대한 연구 성과도 오픈소스로 제공했습니다.
2019년부터는 가능한 한 많은 개발자에게 닿기 위해 새로운 프로그래밍 언어로 결과물을 게시함으로써 이러한 라이브러리에 대한 접근성을 확장했습니다. 오늘은 PipelineDP4j라는 JVM(Java Virtual Machine)용 버전의 PipelineDP를 발표합니다. PipelineDP4j는 OpenMined와 함께 수행한 공동 작업을 발전시킨 결과물입니다. PipelineDP4j는 개발자가 Java를 기본 언어로 사용하여 병렬 처리 가능한 계산을 실행할 수 있도록 해줍니다. 또한 이미 Java로 작업 중인 개발자를 위해서는 진입 장벽을 낮춤으로써 차등적 개인정보 보호라는 새로운 응용 분야로 진입하는 문을 활짝 열어줍니다. 이 JVM 버전이 추가됨에 따라, 이제 가장 인기 있는 개발자 언어인 Python, Java, Go, C++도 포괄하게 되어 저희는 전 세계 모든 개발자 중 절반 이상에게 닿을 수 있게 되었습니다.
또한 Google의 최신 차등적 개인정보 보호 알고리즘 중 일부는 이제 Google 트렌드 같은 고유한 도구의 강화에 도움을 주고 있습니다. Google에서 개발한 모델 중 하나를 통해 Google 트렌드에서 볼륨이 적은 언어에 대해 더욱 유용한 정보를 제공할 수 있습니다. 차등적 개인정보 보호뿐만 아니라 일반적으로 대부분의 개인정보 보호 보장 기술의 경우, 개인 데이터가 드러나지 않도록 하기 위해 데이터 세트는 최소 기준점을 충족해야 합니다. 저희가 새로 제공하는 솔루션은 연구자와 현지 기자 같은 전문가가 소도시나 작은 지역에 대해 유용한 정보를 더 많이 얻고 그들이 가장 관심을 두고 있는 주제를 조명하는 데 도움을 줄 수 있습니다. 예를 들어, 룩셈부르크에서 한 기자가 포르투갈어 검색 결과에 대한 쿼리를 작성하면 이전에는 이용할 수 없던 유용한 정보에 접근할 수 있습니다.
업계와 정부 모두에서 차등적 개인정보 보호 채택이 점점 더 증가하는 추세는 사용자 데이터를 비공개 방식으로 처리하는 기술이 중대한 발전을 이루었음을 보여줍니다. 그럼에도, 이처럼 광범위한 채택은 잘못된 메커니즘 설계와 구현이라는 더 큰 위험으로 이어질 수도 있습니다. 이 분야에서 개발된 방대한 양의 알고리즘은 구현을 수동으로 검사하는 것을 비현실적인 일로 만듭니다. 상당한 가정 없이는 다양한 기법을 테스트할 수 있는 유연한 도구가 부족합니다.
실무자가 특정 메커니즘이 차등적 개인정보 보호 보장을 위반하는지 그 여부를 테스트할 수 있도록 DP-Auditorium이라는 라이브러리를 출시합니다. 이 라이브러리는 애플리케이션의 내부 속성에 액세스하지 않고도 메커니즘 자체의 샘플만 활용합니다.
개인정보 보호 보장을 위한 효과적인 테스트에는 두 가지 주요 단계가 수반됩니다. 하나는 고정 데이터 세트에 대한 개인정보 보호 보장 평가이고 나머지 하나는 데이터 세트를 탐색하여 '최악의' 개인정보 보호 보장을 찾는 것입니다. DP-Auditorium은 두 구성요소 모두를 위한 다용도 인터페이스를 도입하여 효율적인 테스트를 용이하게 하고 기존 블랙박스 액세스 테스터의 성능을 계속해서 능가합니다. 가장 중요한 점은, 이러한 인터페이스가 유연하게 설계되어 있어 연구 커뮤니티에서 기여하고 확장할 수 있으며, 그에 따라 도구의 테스트 기능을 계속 향상시킬 수 있다는 것입니다.
PET에 대한 오랜 투자를 바탕으로 계속 개발에 전념하고 개발자와 연구자가 사용자 데이터 및 개인 정보를 안전하게 처리하고 보호할 수 있도록 지원을 이어가겠습니다.