《建立标准,发现和管控人工智能存在的偏差》摘译


2022年3月,美国国家标准与技术研究所(NIST)发布《建立标准,发现和管控人工智能存在的偏差》报告。
赛迪智库信息化与软件产业研究所对报告进行了编译,期望对我国有关部门有所帮助。


报告认为,人工智能中的偏差问题会对个人、组织和社会产生一系列负面影响,需要采取社会技术的系统方法加以应对。报告介绍了人工智能偏差的概念,分析了由此产生的各类危害与挑战,并建议从数据集、测试评估验证环节、人为因素三个关键维度制定初步的人工智能治理社会技术框架,进而提出了相应的操作指南。


一、人工智能偏差:背景和术语


(一)人工智能偏差相关概念


1、人工智能偏差的定义


统计性定义:在技术系统中,偏差通常都被理解为一种统计现象。与随机误差不同,偏差是一种通过对统计结果进行系统性扭曲从而破坏其代表性的效应。国际标准化组织(ISO)将偏差更广泛地定义为:“参考值偏离事实的程度”。因此,当AI系统表现出系统性的失准行为时,就可被认定存在偏差。这种统计性视角并未充分涵盖或揭示AI系统中存在偏差所造成的全部风险。


法律性定义:对人工智能偏差的讨论不能脱离美国法律体系中针对偏差的处理办法,以及偏差与解决歧视和公平性的法律法规之间的关系。目前,对于不允许的歧视性偏差,法院一般会采取差别对待或差异性影响两种方式进行定义。监管机构与法院尚没有统一的办法来衡量所有不允许的偏差。


认知和社会背景:人工智能系统设计和开发的团队将他们的认知偏差带入流程,致使偏差普遍存在于各项假设中。若系统性偏差存在于制度层面,则会影响到机构或团队的结构和决策流程的掌控者,带来人工智能生命周期中的个人和群体启发性偏差与认知/感知偏差。同时,终端用户、下游决策者和政策制定者做出的决策也会受到这些偏差的影响。由于影响人类决策的偏差通常是隐性且无意识的,因此无法轻易地通过人为控制或意识纠正进行限制。


2、人工智能偏差的类别


图1:人工智能偏差的类别


系统性偏差:系统性偏差也被称为制度性偏差或历史性偏差,源自特定机构的程序或做法,其运作方式致使某些社会群体处于优势地位或受到青睐,而其他社会群体则处于劣势地位或受到贬抑,如制度性种族主义和性别歧视。这些偏差来源于人工智能使用的数据集,乃至贯穿人工智能生命周期,存在于更广泛的社会制度规范和流程中。


统计性和计算性偏差:统计性和计算性偏差源自样本不能代表总体所导致的误差。这些偏差由系统性错误而非随机性错误所导致,而且在没有偏见、偏袒或歧视意图的情况下也可能发生。这些偏差存在于开发人工智能应用所使用的数据集和算法过程中,当算法针对某一类型的数据进行训练且无法进行外延时,偏差就会产生。


人为偏差:人为偏差反映的是人类思维中的系统性误差,这些误差源于启发性原理数量有限以及基于简单判断进行数据预测。人为偏差往往是隐性的,而且很可能与个人或群体如何感知信息以进行决策或填补缺失或未知信息有关,仅仅提高对偏差的认识并不能确保对它的限制。这类偏差无处不在,贯穿人工智能生命周期中的机构、群体和个人决策过程,乃至人工智能应用部署后的使用过程。


(二)人工智能偏差的危害


一方面,当利用人工智能提供决策支持时,若没有人工操作员对其进行相关约束,机器学习模型常常会由于“认知不确定性”和“偶然不确定性”等影响而造成糟糕表现。而且目前用来捕捉这些模型的有害影响及其他后果的方法既不精准也不全面。


另一方面,机器学习系统能否依照人类社会的价值观进行学习和操作仍是一个亟待研究和关注的领域。系统性偏差和隐性偏差可能通过训练时使用的数据,以及支撑人工智能委托、开发、部署和使用方式的制度安排与做法而带入。


(三)应对人工智能偏差危害的新视角:社会技术视角


传统堆叠技术解决方案并不能充分反映人工智能系统的社会影响,仅从计算角度试图解决偏差存在局限性。因此,要将人工智能扩展到公共生活的方方面面,需要将人们的视角从纯技术角度拓展为实质上的社会技术视角,站在更宏大的社会制度层面来思考人工智能。


(四)更新后的人工智能生命周期


为了使人工智能相关技术人员将人工智能生命周期过程与人工智能偏差类别联系起来,有效促进对偏差的发现和管控,本文给出了一个四阶段人工智能生命周期(图2)。


图2:人工智能开发生命周期


二、减轻人工智能偏差面临的挑战与建议


(一)人工智能偏差中的数据集


1、数据集方面存在的挑战


人工智能的设计和开发高度依赖大规模数据集,这种需求可能会引导研究人员、开发人员和从业人员更在乎数据集的可用性或可得性,而无论其合适与否。结果是,当现成的、却不能完全代表目标总体样本的数据集被反复用作训练数据时,系统性偏差也可能会表现为可得性偏差。


2、数据集方面的改进建议


应对统计性偏差:应对人工智能偏差的一个主要趋势是关注建模过程中所使用数据集的全面统计特征。对于算法模型来说,常见的算法技术都假设变量是单峰的。然而,数据却往往是异构和多峰的。因此,无论模型是用于基准测试、预测还是分类,必须记录和交流人工智能结果的适用性存在的局限。


应用社会技术方法:人工智能建模需要结合地区具体地理特征,因此,需要对机器学习应用中数据集的使用加以调整,以适应其部署环境中的所有社会技术因素。


关注人为因素与数据集的相互作用:构建人工智能应用基础模型时,设计和开发团队关于使用哪些数据集的决定和假设会加剧数据集中存在的系统性、制度性偏差。同时,在数据选择、管理、准备和分析过程中,人为偏差也会造成一定影响。


(二)对人工智能偏差进行测试评估、确认及验证时的注意事项


1、TEVV(测试评估、确认及验证)方面存在的挑战


机器学习过程中的预测不确定性:机器学习存在两种类型的预测不确定性:“认知不确定性”和“偶然不确定性”。“认知不确定性”常在参数计算中出现。由于数学问题上的解值具有非唯一性,当真实数据与训练数据的分布不匹配时,可能会影响已部署的深度学习系统的行为,导致有害偏差。


大型语言模型的发展带来挑战:大型语言模型在深度学习中的重要性不断增加,但其在“认知不确定性”和“偶然不确定性”方面造成了重大挑战。依赖大量未经整理的网络数据会增加偶然不确定性。


2、TEVV(测试评估、确认及验证)方面的改进建议


减少算法偏差:在机器学习中,若缺少算法应用于具体任务的背景信息,给模型或算法指定偏差本身是没有意义的。例如,在自然语言处理的背景中,仇恨言论检测模型使用方言标记作为毒性预测因子,这可能导致对少数民族群体的偏差。


完善公平性指标:目前的研究表明,公平性简化成一个简明的数学定义是困难的,同时观察性的公平性指标尚有待发展。公平性是动态的、社会性的、特定于应用和环境的,而不仅是一个抽象或普遍的统计问题。


(三)人工智能偏差中的人为因素


1、人为因素方面存在的挑战


设计与开发环节的实验环境与现实存在差距:AI系统的设计和开发是为了在特定的现实世界环境中使用,但往往在理想化的场景中进行测试。一经部署,最初的意图、理念或影响评估都可能发生偏移。不同的部署环境意味着需要考虑一系列新的风险。在决定构建AI系统之前,需先与可能受到这些技术部署影响的广大相关方群体进行接触,这一点至关重要。


2、人为因素方面的改进建议


引入影响评估过程:一种名为算法影响评估的方法旨在确保以合乎伦理和负责任的方式进行人工智能技术开发。其中,发现和应对潜在的偏差是评估过程中的重要步骤。算法影响评估提供了一个高级结构,使机构能够框定每种算法或每次部署的风险,同时考虑到每个用例的具体情况。同时,参与影响评估还可以作为一种强制机制,迫使有关机构主动阐明一切风险,然后在发生任何危害时生成相应的缓解措施文件。此外,影响评估应是一个长期、迭代的任务,必须以合理的节奏反复进行影响评估。


三、结论


本文广泛论述了人工智能偏差有关的风险,并提出了相应的应对措施。本文基于研究发现,提出如下要点:


1.制定详尽的技术指南需要时间和来自不同相关方的参与,包括与人工智能应用设计、开发和部署相关的群体,也包括可能受到人工智能系统部署影响的群体。


2.采用社会技术视角可以优化人工智能生命周期的流程。人们应将社会价值观付诸实践,并围绕人工智能的构建和部署方式制定出新的规范。为此,需了解计算因素、统计性因素与系统性偏差、人为偏差发生交互作用的机制。


3.为人工智能偏差制定的初步的社会技术框架可按照三个关键领域进行划分和讨论。

完整内容,请关注公众号ID:ccid-2014

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章