服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

智库精读 | 当人工智能越来越普及,我们如何面对AI数据伦理问题?

日期: 来源:中经传媒智库收集编辑:

图片来源:摄图网

(以下内容摘自《人工智能伦理与治理——未来视角》一书)


站在行业角度,人工智能主要的伦理问题涉及四个方面:透明可解释标准、公平性评价、隐私保护、安全。此外,人机协作、责任划分等问题也不可忽略。


AI科技伦理成为行业“必选项”,国家顶层设计亦有强调。十九届四中全会审议通过的《中共中央关于坚持和完善中国特色社会主义制度、推进国家治理体系和治理能力现代化若干重大问题的决定》要求健全科技伦理治理体制;“十四五规划和2035年远景规划纲要”提出健全科技伦理体系,完善相关法律法规和伦理审查规则;“数据安全法”明确要求数据处理活动遵循社会公德和伦理价值;2022年3月发布的《关于加强科技伦理治理的指导意见》要求企业根据实际情况建立科技伦理(审查)委员会,从事AI等科技活动涉及科技伦理敏感领域的,应当设立伦理委员会。







三个阶段


2016 年至今,从原则到实践,AI科技伦理成为“必选项”经历了如下三个阶段。


1)原则爆发阶段,全球各大行业和一些知名企业及研究机构提出自己的AI伦理原则。哈佛大学法学院伯克曼 • 克莱因互联网和社会研究中心的报告《有原则的人工智能:基于伦理及权利的人工智能原则共识归纳》(Principled Artificial Intelligence: Mapping Consensus in Ethical and Rights-Based Approaches to Principles for AI)对此有详细介绍。


2)共识寻求阶段,加强AI国际治理,经济合作与发展组织 (Organization for Economic Cooperation and Development,OECD)等机构主张推动建立国际公认的伦理框架准则。


3)伦理实践阶段,很多企业都在讨论如何把AI原则贯彻到日常技术实践中。如Google Cloud为打造负责任的AI而采取措施;微软设立负责任AI办公室,全面推进负责任AI的落地实施。


AI伦理原则有两个嵌入实践的思路。一个思路是借鉴传统的隐私保护,把伦理嵌入AI全生命周期。具体而言,是把伦理价值、原则、要求和程序融入AI、机器人和大数据系统的设计、开发、部署过程。另一个思路是考虑公平、安全、透明(可解释)、责任等价值。


目前,伦理嵌入设计是全新的概念,涉及哪些基本原则,有哪些落地方式,还需要进一步探索。已有的行业实践包括设立伦理委员会,组织培训、审查从而确保设计活动中考虑伦理的要求;构建“AI模型说明书”,推动AI算法的透明性和可解释性。例如,谷歌推出的“模型卡”工具集(Model Card Toolkit),IBM 的 AI 事实清单等等。


行业实践还包括树立伦理即服务战略,寻找AI伦理问题的技术解决方案。AI伦理服务是AI领域最新发展趋势,针对可解释、公平、安全、隐私等方面的伦理问题,研发、开源技术工具。目前,谷歌、IBM、微软等大型科技公司正大力布局,开发旨在解决伦理问题的技术工具并集成到云、算法平台上。此外,AI伦理创业公司也不断涌现,提供技术方案来应对伦理问题,实现可信、负责任的AI。







三个通用方式


关于 AI 数据伦理治理的实践,企业界有如下三个通用的方式。


1)寻找隐私防护的机器学习方法。AI训练需要大量的数据,数据中往往包含用户的个人隐私信息,利用一些技术,AI模型可以实现训练、开发与隐私保护之间的平衡。联邦学习、安全多方计算、区块链等技术或方案是其中的代表。


联邦学习能够在数据不出本地的情况下实现联合训练AI模型的效果,保护隐私和信息安全。从研究的角度,联邦学习和传统机器学习方法相比,准确率没有太大差别。目前联邦学习已经处于大规模商用的前期,但需要解决效率、成本、能耗、配置门槛等问题。


2)利用合成数据训练AI模型。合成数据是生成对抗网络的典型应用,代表性的模型是生成对抗网络(Generative Adversarial Networks,GAN)。GAN由生成网络和鉴别网络组成,前者负责产生合成数据,后者负责鉴别,在持续迭代中不断优化GAN。


目前,在医疗领域,可以利用“深度合成”技术合成医疗影像数据,为AI诊疗系统提供必需的训练数据,解决隐私保护、数据不足等问题。合成数据在2020年发展非常迅猛,在腾讯研究院和腾讯优图实验室发布的《AI生成内容发展报告2020》中,更是将2020年定位为“深度合成”元年。


3)构建无偏见训练数据集。AI大咖Yann LeCun曾发推称数据偏见导致了AI偏见,引发了关于数据是不是算法偏见唯一来源的大辩论。Yann LeCun推文译文为:机器学习系统的偏差,原因在于数据的偏差。如果模型在FlickFaceHQ数据集上进行预训练,该数据集里基本都是白人照片,会让每个人看起来很白。如果换成来自塞内加尔的数据集,训练完全相同的系统,那必然是每个人看起来都像非洲人。


当时热议的是Pulse算法,它可以把低分辨率图片转换成高分辨率图片。研究人员发现该算法会把模糊的黑人、亚裔人种的照片都还原为白人。这场争论的启示是:数据是AI最核心的要素,AI的很多偏见和歧视都源于数据。当然算法的设计选择、学习与交互过程等也可能带来偏见,但当前算法歧视最主要的来源还是数据,而且算法的运行可能把数据集中的微小偏见放大。所以AI数据伦理治理一个非常核心的问题是,需要在AI设计开发的源头上就构建无偏见的训练数据集,这需要各界一起探索相应的标准来指导技术实践。

《人工智能伦理与治理——未来视角》
编者:未来论坛
出版时间:2023年1月
出版社:中国工信出版集团/人民邮电出版社


扫码了解AI应用背后的挑战







|中经传媒智库  CBJTHINKTANK  原创文章|


往期推荐




高翔:赓续民族精神的伟大时代








  你有在看吗↓ 

相关阅读

  • 36氪研究院 | 2023年AIGC之ChatGPT行业研究报告

  • 头图来源 | 视觉中国2022年11月,智能对话机器人模型ChatGPT上线,用户可与该AI系统就日常生活,或协助写代码、文案创作、解决具体难题等相对复杂领域进行持续聊天,其回答有序且专
  • 投了很多钱,数据项目为什么还是失败了?

  • “实施数据项目时有五大常见错误。”好文4749字 | 8分钟阅读作者:马尤尔·乔希(Mayur P. Joshi) 苏宁 罗伯特·奥斯汀(Robert D. Austin) 阿南德·孙达拉姆(Anand K. Sundaram)
  • 【Android 原创】一个懒人的破解方式

  • 作者论坛账号:低调(d-iao)何为懒?对于我来说 基本上一个版本如果好好的 我会用到烂为止都不会去更新。再则只要不影响使用 我不会去优化到极致,除非我走心了。所以今天的教学
  • 谷歌的地位,会被ChatGPT彻底动摇吗?

  • 当下,尽管ChatGPT和生成式AI被炒得火热,但这类工具在达到谷歌等老牌搜索引擎的规模、稳健性和可靠性之前,还需要在实践、技术和法律层面克服重大的难题。ChatGPT已经引起一波热
  • 安恒信息助力“中国数谷”建设

  • 2月24日,杭州高新区(滨江)举行数字经济创新提质暨“中国数谷”建设推进大会。安恒信息在会上签署数据安全产业发展战略合作协议,助力“中国数谷”建设。2023年是全面贯彻落实党
  • 7大专项助力证券公司落实网络安全三年提升计划

  • “金吾卫”,汉唐时期拱卫京师之卫队,司巡察警戒之责。安恒信息金融解决方案团队借用金吾卫之名,以行业解决方案为盾,全力护航金融客户网络安全、数据安全。接下来,我们将推出《金
  • 【技术分享】探讨恶意软件检测中的对抗性样本

  • 卷积神经网络(CNN)体系结构正越来越多地应用于新领域,例如恶意软件检测,该领域能够从可执行文件中提取原始字节来学习恶意行为。这些架构无需进行特征工程即可达到令人印象深刻

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章