机器之心报道
机器之心编辑部
在充分保护隐私的同时尽可能多地挖掘数据价值,不仅理论上可行,实践中也有越来越多的团队为之努力并取得进展。
数字经济时代,数据作为新的生产要素和战略性资源,是科技进步、政策制定和经济发展的重要动力。但是,只有在隐私和安全得到保障的前提下,数据的价值才能最大化。
近年来,随着《网络安全法》《数据安全法》和《个人信息保护法》的颁布与实施,国家、行业、地方相继出台了一系列数据安全相关配套性政策文件,完善数据要素治理制度,保障数据流通交易安全。特别是 2022 年底发布的「数据二十条」,进一步推动了公共数据、企业数据、个人数据合规高效流通使用,数据「可用不可见」「可控可计量」成为法定要求。
在推动数据二十条理念落地的途径中,隐私计算作为平衡数据流通与价值释放的关键「技术解」,得到了越来越多的重视。在 2022 年 Gartner 技术成熟度曲线列出的 25 项值得关注的新兴技术中,有 6 项与隐私计算相关,足见其价值与潜力。
图片来源:gartner.com
今年 1 月,工信部、国家网信办、国家发改委等 16 部门印发《关于促进数据安全产业发展的指导意见》,明确提出加强隐私计算、数据流转分析等关键技术攻关,加强数据质量评估、隐私计算等产品研发。
隐私计算产业也在加速崛起。中国信息通信研究院报告指出,预计到 2025 年,中国的隐私计算市场规模将达到百亿元人民币。
隐私计算技术发展情况
隐私计算是隐私保护计算(Privacy-preserving Computation)的简称,它能够在保证数据提供方不泄露原始数据的前提下,对数据进行分析、处理和使用,是一个广义的概念,涉及人工智能、密码学、数据科学等众多学科和领域的交叉融合,涵盖了安全多方计算、同态加密、差分隐私、零知识证明、联邦学习、可信执行环境等众多技术子项,以及这些技术子项的组合及相关产品方案。
根据目前中国业界共识,隐私计算主要分为以安全多方计算为代表的密码学路径、以机密计算为代表的可信执行环境(硬件)路径,以及以联邦学习为代表的人工智能路径。
安全多方计算(Secure Multi-Party Computation)
由图灵奖得主姚期智院士于 1982 年通过提出和解答「百万富翁问题」而创立。安全多方计算能保证各参与方仅获得正确计算结果,无法获得除计算结果之外的任何信息,是多种密码学基础工具的综合应用,除混淆电路、秘密分享、不经意传输等密码学原理构造的经典多方安全计算协议外,其他所有用于实现多方安全计算的密码学算法(如同态加密、零知识证明),都可以构成多方安全计算协议。经过 30 多年的理论研究,安全多方计算在技术上已趋成熟,在需要识别共同客户或兴趣但又要保护其他数据的场景下,例如医疗领域进行共同研究,或是企业之间分享数据以提高业务效率,已经发挥出重要的应用价值。
机密计算(Confidential Computing)
机密计算的基本原理是将需要保护的数据或代码存储在可信执行环境(Trusted Execution Environment,TEE)中,对这些数据和代码的任何访问都必须经过基于硬件的访问控制,防止其在使用中未经授权被访问或修改,从而实现对数据处理流程的可验证与控制,增强数据的安全性。其中,可信执行环境定义为可在数据机密性、数据完整性和代码完整性三方面提供一定保护水平的环境,也包括云环境。机密计算可追溯至 2002 年 ARM 推出 TrustZone 技术,2015 年Intel 推出 SGX 技术标志着机密计算进入快速发展阶段,如今 AMD、华为等厂商也推出了各自的机密计算技术。
使用联邦学习在多个移动端联合训练机器学习模型。图片来源:Wikipedia
联邦学习(Federated Learning)
联邦学习由 Google 在 2016 年提出,其核心思想是允许两个或多个参与方在数据不出域的情况下,协同完成模型的构建与使用,强调「数据不动模型动,数据可用不可见」,适用于参与用户多、数据特征多且分布广泛的联合计算应用场景。根据参与计算的数据在数据方之间分布的情况不同,可以分为横向联邦学习、纵向联邦学习和联邦迁移学习。通常情况下,联邦学习需要与其他隐私保护技术联合使用,才能在计算过程中实现对数据的保护。
中国互联网巨头隐私计算产业落地情况
目前,隐私计算正处于飞速发展阶段,单点技术持续优化,在实际应用中呈现出多技术融合的态势,以应对不同场景下的数据安全和隐私保护需求。根据 Gartner《2022 隐私技术成熟度曲线》报告,预计未来 5-10 年隐私计算技术会被大规模商业化应用,到 2025 年 60% 以上的大型组织将在数据分析、商业智能或云计算中使用一种或多种隐私计算技术。
随着技术增益与商业落地场景逐步丰满,大数据、人工智能、区块链、云服务等类型的企业纷纷入局隐私计算,各类玩家在积极推高技术渗透率与拓展应用边界的过程中,一同构成中国隐私计算产业图景。
其中,腾讯、蚂蚁、阿里、百度、字节跳动等互联网巨头有强大的技术实力,庞大的用户群与合作伙伴,坐拥海量高价值数据,是隐私计算入局者中不可忽视的力量。这些企业不仅能推动隐私计算技术加速发展,催生出新的产业机会与发展空间,还有望重塑企业与用户之间的关系,甚至影响行业力量对比与市场格局。
腾讯
腾讯早在 2009 年便自主研发大数据处理平台, 2015 年发布高性能计算框架 Angel,支持 10 亿维度的算法训练和非结构化数据处理,被广泛用于微信支付、QQ、腾讯视频等业务。为了更好应对数据安全和隐私保护需求,腾讯积极探索隐私计算技术,在 2019 年组建了专门的研发团队,并发力内部人才培养。2021 年,腾讯第四代大数据平台「天工」发布,旨在以安全的形式打通数据孤岛,打造安全、智能、统一的新型数据基础设施。其中,隐私计算作为核心技术,确保机器学习和大数据分析在各个场景中落地时调用数据的安全。
天工平台的核心产品 Angel PowerFL 安全联合计算平台,是腾讯聚焦隐私计算前沿技术领域的落地成果,目前已通过中国金融认证中心(CFCA)、中国信通院等权威组织机构评测,在金融、广告、医疗、政务等场景落地,并取得了较好的应用效果。另一个核心产品腾讯云安全隐私计算平台,是一个基于联邦学习、多方安全计算、区块链、TEE 等安全技术的分布式计算平台,依托 Angel PowerFL 能力支持,围绕强安全、高性能、强稳定、易使用四大核心能力特性,使原始合作数据不出本地便可实现联合建模、安全求交(PSI)、隐匿查询、安全统计分析等功能,助力产品应用层全方位满足行业需求与用户的痛点,已实际应用于跨机构数据合作、银行信贷、保险、政务、在线教育等多个场景。
腾讯 Angel PowerFL 隐私计算团队也是国内较早开展隐私计算与联邦学习技术研究和应用的团队,在大数据、分布式计算、分布式机器学习、分布式消息中间件、多方安全计算、应用密码学等领域都有丰富的研发和应用经验,已发表近 10 篇隐私计算研究论文,提交了 60 多件隐私计算技术发明专利申请,有多个商用隐私计算和联邦学习的平台产品目前已经通过腾讯云对外开放。团队连续三年获得隐私计算业内最具影响力的权威奖项,分别是 2020 年 iDASH 国际隐私计算大赛可信计算赛道冠军、2021 年 iDASH 联邦学习赛道冠军、2022 年 iDASH 同态加密赛道冠军。
目前,腾讯隐私计算汇聚了来自腾讯大数据、腾讯安全、腾讯计费、腾讯云、腾讯广告 AI,华中科技大学的密码学、隐私计算、大数据和机器学习领域的技术专家。通过结合腾讯多元的科技能力,深度融合联邦学习、安全多方计算、区块链等技术,帮助客户打破数据孤岛,激活数据使用的最大价值。未来将继续融合隐私计算与云上 AI 安全技术,并与其他企业和机构合作,推动隐私计算更广泛的落地。
蚂蚁
蚂蚁集团从 2016 年起布局隐私计算,在技术研发、产品服务、生态共建等方面取得诸多成果。蚂蚁拥有业内第一的隐私计算专利数量,并且提出了可信密态计算、受控匿名化等新的技术。产品和服务方面,开源可信隐私计算框架隐语(SecretFlow),支持目前几乎所有主流的隐私计算技术,并且积极支持互联互通;开源可信执行环境隐私计算操作系统 Occlum,兼容 Linux 环境的 API,使现有应用几乎不需改造即可运行于可信执行环境,大幅降低 TEE 应用开发门槛;商用方面,蚂蚁隐私计算一体机,提供集软硬件全栈可信于一体的系统平台,为组织机构之间的数据联合计算提供一站式安全解决方案;大规模多方安全计算商用平台蚂蚁链摩斯,是业内首家通过多方安全计算产品测评(信通院 MPC 测评)和首批通过金标委 MPC 测评的产品,截止 2022 年 2 月已服务 150 余家行业客户。生态方面,蚂蚁也积极推动国际国内的行业标准制定,是多项重要标准的牵头机构。
阿里
阿里集团在隐私计算领域广泛涉足,旗下的阿里安全、阿里云和达摩院均开展相关研究。阿里安全的双子座实验室专注于同态加密、安全多方计算等方向,其研发技术已广泛应用于阿里系业务,部分技术达到业界领先。阿里云在 2020 年首次发布基于芯片安全的可信虚拟化实例,2021 年发布 DataTrust 隐私增强计算平台,基于同态加密与可信执行环境,在保障数据安全和隐私的同时支持多方数据协同分析与预测,不受数据规模或复杂性影响,是国内首个公有云原生加密计算产品。达摩院在 2022 年发布了 FederatedScope 联邦学习框架并开源,支持在丰富应用场景中进行大规模、高效率的联邦学习异步训练,能兼容 PyTorch、Tensorflow 等不同设备运行环境,大幅降低了联邦学习在科研与实际应用中的开发难度和成本。
百度
百度 2012 年便发布《数据安全策略》,2018 年成立数据隐私保护委员会,目前隐私计算作为底层基础技术,在百度智能云、百度安全、百度超级链等平台上部署,并结合多种技术推出解决方案实现应用落地。百度智能云还与区块链平台融合,通过将区块链技术纳入云计算与隐私计算的过程,推动隐私计算在各种场景中落地。百度大脑旗下的大数据服务平台百度点石,基于联邦学习、多方安全计算、可信执行环境等主流隐私计算技术,安全高效实现数据赋能,助力客户提升数据价值。百度点石安全计算平台(MesaTEE)是百度安全在隐私计算面向企业落地的重要平台。基于百度飞桨开发的开源联邦学习框架 PaddleFL,让企业之间的合作能够在数据层面安全开展。PaddleFL 提供多种联邦学习策略及其在计算机视觉、自然语言处理、推荐算法等领域的应用。
字节跳动
字节跳动在隐私计算领域布局较为集中,最主要的产品是 Fedlearner 联邦学习平台。该项目于 2019 年启动,最初是针对单个企业进行定制化适配,基于神经网络纵向联邦学习技术,帮助企业提高广告投放效率,后续通过迭代,逐步在电商、互联网金融和教育领域落地。2020 年,Fedlearner 开源,支持多类联邦学习模式,整个系统包括控制台、训练器、数据处理、数据存储等模块,各模块对称部署在参与联邦的双方集群上,透过代理互相通信实现训练。字节跳动作为隐私计算联盟(CCC)成员之一,也参与推动隐私计算市场的发展,影响技术和法规标准,协助提高下一代互联网的计算信任度和安全性。
结语
随着数据安全合规流通成为必然,隐私计算作为当下实现数据「可用不可见」的唯一技术解,对未来的科技产业以及实体经济的关键领域将产生重要影响。除了典型的金融、医疗等场景,隐私计算也被探索用于越来越多的行业与领域。
例如,电力公司通过隐私计算,可实现对电网数据的全生命周期进行保护,使得数据能够安全上云,或外包给计算服务方进行计算,实现电力企业的降本增效。广告平台使用隐私计算对用户数据进行加密,让原始数据不可识别,从而在不揭示个人信息的前提下完成广告定向和个性化推荐,运用联邦学习等技术,可以在不共享原始用户数据的前提下多方共同训练一个机器学习模型,还能在用户终端内完成个性化推荐,确保推荐效果的同时最大限度保护用户隐私。未来,创新的隐私保护方案,包括用于移动设备的可信执行环境,能在移动个性化推荐服务中实现令人满意的用户体验并保护用户隐私,真正实现双赢。出行领域,隐私计算使运营商与服务提供商可在加密状态下使用线上数据,对城市交通状况与出行需求进行分析与预测,为交通调度与新业务创新提供基础,同时保护用户隐私和数据安全。
我们已经看到,充分释放数据的价值能够推动革命性的创新,试想一个个比 ChatGPT 更加智能的产品进入生活,了解我们的兴趣与习惯,提供定制化服务,让工作和生活变得前所未有的便利与个性化。在这一过程中,隐私计算将作为新技术应用中不可或缺的一部分,让数据在创造价值的同时保持安全可控,守护人们对隐私保护的合理预期。
参考资料
Gartner《2022 年新兴技术成熟度曲线》
中国信息通信研究院《隐私计算白皮书(2022年)》
《网络安全技术和产业动态》2022年第10期,总第28期
CB Insights China《2022年中国隐私计算技术与市场发展研究报告》