智库精读 | 当人工智能越来越普及，我们如何面对AI数据伦理问题？--粉丝服务平台-粉丝头条-fensifuwu.com

智库精读 | 当人工智能越来越普及，我们如何面对AI数据伦理问题？

日期： 2023-02-28 16:19:58 来源：中经传媒智库收集编辑：

图片来源：摄图网

（以下内容摘自《人工智能伦理与治理——未来视角》一书）

站在行业角度，人工智能主要的伦理问题涉及四个方面：透明可解释标准、公平性评价、隐私保护、安全。此外，人机协作、责任划分等问题也不可忽略。

AI科技伦理成为行业“必选项”，国家顶层设计亦有强调。十九届四中全会审议通过的《中共中央关于坚持和完善中国特色社会主义制度、推进国家治理体系和治理能力现代化若干重大问题的决定》要求健全科技伦理治理体制；“十四五规划和2035年远景规划纲要”提出健全科技伦理体系，完善相关法律法规和伦理审查规则；“数据安全法”明确要求数据处理活动遵循社会公德和伦理价值；2022年3月发布的《关于加强科技伦理治理的指导意见》要求企业根据实际情况建立科技伦理（审查）委员会，从事AI等科技活动涉及科技伦理敏感领域的，应当设立伦理委员会。

三个阶段

2016 年至今，从原则到实践，AI科技伦理成为“必选项”经历了如下三个阶段。

1）原则爆发阶段，全球各大行业和一些知名企业及研究机构提出自己的AI伦理原则。哈佛大学法学院伯克曼 • 克莱因互联网和社会研究中心的报告《有原则的人工智能：基于伦理及权利的人工智能原则共识归纳》（Principled Artificial Intelligence: Mapping Consensus in Ethical and Rights-Based Approaches to Principles for AI）对此有详细介绍。

2）共识寻求阶段，加强AI国际治理，经济合作与发展组织（Organization for Economic Cooperation and Development，OECD）等机构主张推动建立国际公认的伦理框架准则。

3）伦理实践阶段，很多企业都在讨论如何把AI原则贯彻到日常技术实践中。如Google Cloud为打造负责任的AI而采取措施；微软设立负责任AI办公室，全面推进负责任AI的落地实施。

AI伦理原则有两个嵌入实践的思路。一个思路是借鉴传统的隐私保护，把伦理嵌入AI全生命周期。具体而言，是把伦理价值、原则、要求和程序融入AI、机器人和大数据系统的设计、开发、部署过程。另一个思路是考虑公平、安全、透明（可解释）、责任等价值。

目前，伦理嵌入设计是全新的概念，涉及哪些基本原则，有哪些落地方式，还需要进一步探索。已有的行业实践包括设立伦理委员会，组织培训、审查从而确保设计活动中考虑伦理的要求；构建“AI模型说明书”，推动AI算法的透明性和可解释性。例如，谷歌推出的“模型卡”工具集（Model Card Toolkit），IBM 的 AI 事实清单等等。

行业实践还包括树立伦理即服务战略，寻找AI伦理问题的技术解决方案。AI伦理服务是AI领域最新发展趋势，针对可解释、公平、安全、隐私等方面的伦理问题，研发、开源技术工具。目前，谷歌、IBM、微软等大型科技公司正大力布局，开发旨在解决伦理问题的技术工具并集成到云、算法平台上。此外，AI伦理创业公司也不断涌现，提供技术方案来应对伦理问题，实现可信、负责任的AI。

三个通用方式

关于 AI 数据伦理治理的实践，企业界有如下三个通用的方式。

1）寻找隐私防护的机器学习方法。AI训练需要大量的数据，数据中往往包含用户的个人隐私信息，利用一些技术，AI模型可以实现训练、开发与隐私保护之间的平衡。联邦学习、安全多方计算、区块链等技术或方案是其中的代表。

联邦学习能够在数据不出本地的情况下实现联合训练AI模型的效果，保护隐私和信息安全。从研究的角度，联邦学习和传统机器学习方法相比，准确率没有太大差别。目前联邦学习已经处于大规模商用的前期，但需要解决效率、成本、能耗、配置门槛等问题。

2）利用合成数据训练AI模型。合成数据是生成对抗网络的典型应用，代表性的模型是生成对抗网络（Generative Adversarial Networks，GAN）。GAN由生成网络和鉴别网络组成，前者负责产生合成数据，后者负责鉴别，在持续迭代中不断优化GAN。

目前，在医疗领域，可以利用“深度合成”技术合成医疗影像数据，为AI诊疗系统提供必需的训练数据，解决隐私保护、数据不足等问题。合成数据在2020年发展非常迅猛，在腾讯研究院和腾讯优图实验室发布的《AI生成内容发展报告2020》中，更是将2020年定位为“深度合成”元年。

3）构建无偏见训练数据集。AI大咖Yann LeCun曾发推称数据偏见导致了AI偏见，引发了关于数据是不是算法偏见唯一来源的大辩论。Yann LeCun推文译文为：机器学习系统的偏差，原因在于数据的偏差。如果模型在FlickFaceHQ数据集上进行预训练，该数据集里基本都是白人照片，会让每个人看起来很白。如果换成来自塞内加尔的数据集，训练完全相同的系统，那必然是每个人看起来都像非洲人。

当时热议的是Pulse算法，它可以把低分辨率图片转换成高分辨率图片。研究人员发现该算法会把模糊的黑人、亚裔人种的照片都还原为白人。这场争论的启示是：数据是AI最核心的要素，AI的很多偏见和歧视都源于数据。当然算法的设计选择、学习与交互过程等也可能带来偏见，但当前算法歧视最主要的来源还是数据，而且算法的运行可能把数据集中的微小偏见放大。所以AI数据伦理治理一个非常核心的问题是，需要在AI设计开发的源头上就构建无偏见的训练数据集，这需要各界一起探索相应的标准来指导技术实践。

《人工智能伦理与治理——未来视角》

编者：未来论坛

出版时间：2023年1月

出版社：中国工信出版集团/人民邮电出版社

扫码了解AI应用背后的挑战

｜中经传媒智库 CBJTHINKTANK 原创文章｜

往期推荐

高翔：赓续民族精神的伟大时代

你有在看吗↓

服务粉丝

智库精读 | 当人工智能越来越普及，我们如何面对AI数据伦理问题？

文章推荐

相关阅读

36氪研究院 | 2023年AIGC之ChatGPT行业研究报告

投了很多钱，数据项目为什么还是失败了？

【Android 原创】一个懒人的破解方式

谷歌的地位，会被ChatGPT彻底动摇吗？

印度火车票务平台遭遇大规模数据泄露，涉及超3100万人

《杭州市公共数据授权运营实施方案(试行)》公开征求意见，数据要素市场加速推进

安恒信息助力“中国数谷”建设

7大专项助力证券公司落实网络安全三年提升计划

第六届中国人工智能与大数据海南高峰论坛举行，安恒信息出席活动

【技术分享】探讨恶意软件检测中的对抗性样本

聚合标签

热门文章

百元茅台没人买，千元茅台有人追。十年前，有人花百元买了一万股茅台，后出手追中石油，如今，茅台一飞冲天，中石油深套十年。炒股，不要见异思迁，价值投资是首选。#股票#

谁说定期存款提前支取不划算？存中原银行“惠农宝”放心随便取

张小龙:交了8千万税无北京户籍孩子连私立也不让上

万字详解：ROE连续十年超过20的明星公司全面分析（附：详细名单）

“复活”半年后　京东拍拍二手杀入公益事业

离职时没有做满一个月，公司还需要帮纳当月社保吗？

最新文章

智库精读 | 当人工智能越来越普及，我们如何面对AI数据伦理问题？

智库焦点 | 3月31日起实施！境外上市备案管理制度规则落地，有哪些变化？

智库焦点 | 两部门发布新规，强化重要货币市场基金监管！影响几何？

智库信号 | 横琴、前海两合作区金融支持方案发布，有哪些利好；公务员省考有变化，十省份放宽35岁限制

智库关注 | 社评：政企协力构建合规发展模式，为AI产业发展“护航”

智库焦点｜楼市重磅！房地产市场再迎利好，住房租赁“金融17条”落地