差分隐私的应用之数据合成小议

数据合成是一种最通用的、最有商用前景的隐私保护应用。数据合成的目标是通过一个满足差分隐私的算法发布一个完整的合成数据库,之后所有的查询请求将通过合成数据库来直接回答,从而避开带有隐私信息的原数据库。该设计的优点是:(1)普适性,因为发布的是完整数据库,所以支持大部分查询操作和数据挖掘应用;(2)复用性,合数据库可以一直使用,而不用担心过多的回答会加重隐私泄漏。最早的数据合成算法的思路是首先从数据库生成列联表,然后通过拉普拉斯机制随机加噪生成带噪列联表,最后还原出一个带噪的合成数据库。但是,这一思路在面向高维数据时会产生严重的问题:(1)列联表的大小是数据维度的指数倍,这导致高维带噪列联表很难被计算出来;(2)由于列联表的大小远大于数据库,因此信息在列联表中的分布极其稀疏,在加入噪音后,列联表的信噪比将变得非常低,使得其无法反映原数据库的有用信息。

对于这两个问题的研究一直没有停止过。有人采用了多种采样技术来降低生成带噪列联表的计算代价,但是这算法并不能有效解决低信噪比问题。也有人提出了种通过粗化列联表来降低计算代价和提高信噪比的方式。例如,对于“年龄”这一属性,可以将其从200个可能取值粗化成两个取值:“0至50”和“50以上”。然而,粗化列联表本身就会引起信息流失,所以它依然没能很好地解决问题。哈特(Hard)等人提出了一种基于乘更新(multiplica-tive weight update)法的自适应算法,用于生成适用于某个已知查询集的合成数据。但是该方法在一般情况下的时间复杂度是数据维度的指数倍,所以并不具备可扩展性。

目前,该子领域最新的成果是PrivBayes算法,其核心思想是通过建立一个贝叶斯网络找到一系列低维边界图来较好地逼近高维列联表,然后将所有计算和加噪都在低维空间中进行,从而有效解决高维列联表带来的计算复杂度高和信噪比低的问题。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();