全文共3013字,阅读大约需6分钟。
一
背景
自2020年中共中央国务院将数据正式列为五大生产要素之一以来,各行业对于数据共享和利用方式的探索和实践不断深入。在过去两年中,多项政策鼓励卫生健康等领域探索数据驱动的产品与服务创新。在近期召开的第五届中国智慧医院建设与发展大会上,多位医疗主管机构领导与医院领导也对医院间数据互联互通、共享利用寄予了更多期望。
同时,我们注意到医疗数据涉及患者隐私,原始或脱敏数据出域可能造成额外的数据安全风险与责任。如2022年末发布的《苏州市数据条例》中明确指出数据处理者是数据安全责任主体。因此,寻求保障医疗数据全生命周期安全的方案,特别是共享利用中的安全性,是当前医疗领域的技术突破点之一。
本次大会中,绿盟科技集团首席创新官刘文懋博士针对上述痛点,发表了《隐私计算技术赋能智慧医疗发展》主题演讲,本文对演讲中的主要观点进行梳理,希望能使来自医疗领域乃至其它行业的读者更清晰认识隐私计算相关技术的效果与价值。
二
隐私计算技术
隐私计算技术起源于上世纪80年代姚期智院士的百万富翁问题。经过40多年技术积累及计算机性能飞速发展,近年来已从理论走向实践。简言之,隐私计算技术包括三类方法:基于分布式机器学习的联邦学习方案、基于密码学的多方安全计算方案和基于可信硬件的可信执行环境方案。
在原始明文数据不出域的情况下,联邦学习可完成对多方数据的协同机器学习建模与预测等任务,能够通用性的助力现有基于人工智能的业务。
多方安全计算可完成对多方数据的任意计算,可用于一般性的数据分析,也可用于复杂的机器学习任务,但效率相对较低。
可信执行环境可提供一个无法攻破的数据保险箱,在其内可完成安全存储与安全计算,性能损失极少,该方案需要基于特殊的可信硬件。特别的,基于可信执行环境的技术在代码迁移、性能折损、易于理解等方面的优势使其成为一个万精油方案,而近期国产可信硬件的逐渐成熟也使该方案更符合信创相关需求。
三
隐私计算助力医疗数据安全共享
如前文所述,医疗领域数据高敏感与高价值双方面的特性使其天然与隐私计算技术相契合。众所周知,医疗领域内存在大量数据流动场景,如地方医院与主管机构间的数据上报、医院间的数据分享、医院内科室间的数据调取以及医院与第三方机构或高校的科研合作等。
3.1 地区医疗主管机构
可控开放
主管机构由于数据监管的需要,通常收集了地区公立医疗机构的全部医疗临床信息;然而挖掘这些数据的潜力不仅需要专业的医疗知识,而且存在很多数据安全隐患;有条件、可控制的挖掘这座数据金矿是一条必由之路。实践中我们注意到,大量医生有着发表科研成果的需求,然而医生们通常只能使用本科室的历年数据。以苏州地区某三甲医院为例,其2022年发表的文章中,无单篇文章使用超过300例病例样本。
如图1所示,基于隐私计算中的多方安全计算或可信执行环境技术,能够在主管机构侧建设一套科研数据共享系统,并允许医院通过相应关联系统接入。此时,医生可在审批完备的基础上,借助系统“可用不可见”(即只能看到数据的结构信息,而不能看到具体的值信息)的完成全量数据的实验分析,显著提升地区医学科研水平。特别的,如基于可信执行环境技术,支持的分析方案种类更丰富且效率更高。
图1 基于隐私计算的科研数据开放利用
专批专用
部分医疗机构在建设诸如流调等业务系统时,可能需要用到主管机构的全量数据;此时由于系统与数据分属于不同部门,如将系统部署在主管机构,则存在权属不明、责任不明、系统运维等现实挑战;如将数据放入医疗机构,则会存在数据泄露、数据窃取的风险,即很难保障数据出域后唯一用于审批相关用途。
如图2所示,基于隐私计算中的多方安全计算技术,可由主管机构提供安全的数据调用方式,在医疗机构修改数据调用方案的基础上,完成密文数据出域,做到严格的一次一用。基于隐私计算的可信执行环境技术,则可让医疗数据或业务系统存放于安全可控的黑匣子中,各方都无需担心物理或黑客攻击造成的信息泄露问题;特别的,此类方案通常不需要显著修改代码。
图2 基于多方安全计算的专批专用方案
可控销毁
由新冠疫情带来的影响正在逐渐消失,近期多地主管机构开始进行健康码等数据销毁工作。然而,由于数据使用时的多方共享,绝对意义上的数据销毁变得十分困难且难以证明。
基于隐私计算中的可信执行环境技术,可将全量数据存放于可控环境中,并在不侵犯知识产权的基础上接入第三方程序,同时对数据调用过程进行严格审计,明确各方的销毁任务,最终运维人员可在不可见的基础上完成全量数据销毁,全流程的数据保护为完成任务提供了可靠技术保障。
图3 基于可信执行环境的可控数据销毁
3.2 地区医疗机构
科研合作
如上所述,医生普遍有着科研的需求,而病例样本缺失成为科研最大的“拦路虎”。实践中我们注意到,以2022年苏州某三甲医院发表的论文为例,有约1/3的文章作者们来自不同医疗机构,但只有不到4%的文章涉及到多机构间的联合数据分析。我们发现这主要是医疗脱敏数据出域所需要的严格审批限制所造成的结果。
如图4所示,基于隐私计算中的联邦学习和多方安全计算技术,可将数据出域申请降低为科研合作申请。这些技术使各方无需实际进行明文数据出域,所有出域数据都为密文状态,专用于特定科研合作。借助隐私计算,可以更好地支持跨机构间的科研合作,共同创造更优秀的医学研究成果。
图4 基于隐私计算的多机构科研合作
出域控制
许多第三方商业公司需要医院数据开展业务,如商业保险公司分析客户投保费用或赔付,药企招募合适志愿者进行药物临床效果检测等。这些都需要医院提供部分病人数据,而数据出医院后就失去了管控能力,容易导致数据泄露事件给医院带来麻烦。
基于隐私计算的可信执行环境技术,能够提供一份安全的环境用于数据使用。此时,如图5所示,当安全环境放入医院处时,则可由隐私计算技术保障第三方公司的软件或商业知识产权不被医院窃取;而安全环境如放于商业公司处,则等同于为出域数据构建了一份医疗数据保险箱,保障出域的数据仍在审计管控范围内。
图5 基于可信执行环境的医疗数据出域控制技术
数据加固
有别于主管机构处普遍有着严格的数据保护措施,不同医院的信息化建设水平却参差不齐,同时医生的数据安全意识普遍较低。这就使得医院侧存储了大量敏感数据,而恶意的运维人员或者由于安全意识不强而导致的外部物理攻击,有可能造成极大的数据安全风险。上述问题,实质上是由于数据安全的负责者无法时刻监管着数据的一线操作人员。
如图6所示,基于可信执行环境技术,可以对医院侧的全量数据构建数据保险箱,做到数据的使用权与所有权分离。通过设定使用方式,能够严格限制运维人员的操作权限,并让物理攻击者只能窃取到加密后的信息,同时外部黑客无法完成系统级入侵或白盒攻击,最终让数据的管理者免除数据泄露的担忧。
图6基于可信执行环境的医院数据加固
绿盟科技致力于网络安全领域的探索与实践,并对隐私计算等前沿技术进行了多年的技术积累与实践探索,于2022年9月与国产可信芯片厂商海光联合发布了隐私计算产品,于2023年2月联同苏州市卫生计生统计信息中心、深圳大学发表了《隐私计算在科教卫生领域应用白皮书》。
今后,除了持续挖掘隐私计算在医疗等领域的实际需求外,绿盟科技也将致力于对医疗等领域的数据共享利用标准进行完善补缺,为数据要素的深度挖掘利用添砖加瓦。
点击“阅读原文”,查看《隐私计算在科教卫生领域应用白皮书》