为什么解决人工智能偏见离不开人口特征数据？

人工智能（AI）可能产生有偏见的结果，这已不是什么新鲜事。其算法基于人类的设计选择，而人类选择很少能做到价值中立。

我们还要求算法复刻以往的决策模式并产生结果，这种情况下也可能会出现成见。但是，如果我们不希望以后还走过去的老路，尤其是涉及到公平的情况下，我们该怎么做？

人工智能产生不公平的结果仅是一种可能性，因此我们不应该就此摒弃它，或者像一些知名技术专家建议的那样，将其搁置。我们要做的正好相反。

认识到人工智能有延续不平等的倾向，就能让我们在争取公平的斗争中更进一步。无论如何，减轻人工智能偏见无疑会比纠正人类偏见更容易。

这是因为人工智能缺失的公平性是可以被系统化和量化的，而且比人类决策更加透明。人类决策往往会受到无意识的偏见和错误观念的影响。

人工智能并不创造偏见。相反，它可以作为一面镜子，映射出偏见的影子。鉴于其问题是可以被看到并测量的，阻止人工智能偏见比阻止人类偏见也更加容易。

必须将人工智能的公平性视为优先事项

但首先，我们必须正视这面镜子里的影子。政府和企业需要将人工智能的公平性作为优先事项，因为算法影响着从就业、借贷到医疗卫生的一切决策。

目前，美国和欧盟正在通过美国平等就业机会委员会（EEOC）的监管以及欧盟的《人工智能法案》（AI Act）和《人工智能责任指令》（AI Liability Directive），限制人工智能偏见事件的增加。

首要的关注重点应该是一些特定行业，例如信贷、医疗卫生、就业、教育、住房所有权、执法和边境管制等，其中的人工智能偏见可能会让人们无法获得应有的重要服务。在这些领域，刻板印象和偏见经常帮助维持不公平的现状，而这可能会导致人们预期寿命缩短、失业、无家可归和贫困等问题。

对人工智能偏见的控制必须从采用前的算法结果测试就开始。当算法评估者只在意用于决策的数据，而非结果公平性时，人工智能偏见错误最常发生。

在大多数情况下，由于人工智能模型的复杂性及其所触及的现实生活场景，我们并不总能预测到人工智能的建议可能产生的不同影响。而人工智能的建议就是其表现偏见的地方。

为了可靠地控制偏见，我们需要让私营部门或政府建立诸如年龄、性别、种族、残疾、婚姻状况、家庭组成、健康和收入等敏感数据的中央数据库，对照这些数据测试人工智能驱动模型并纠正偏见。

这种“人工智能公平性”数据集将使得企业招聘时能够在发布岗位要求前就审查其中的偏见。大学招生时则可以主动分析人工智能的建议，以了解求学者的经济地位、性别、种族或残疾对其录取结果的影响。

数据并不总是中立的

直到前不久，很多人都以为消除偏见的方法就是完全从算法中删除性别和种族信息。如果算法不知道候选人的种族或性别，就不会基于此做出决定。这一假设被证明是错误的。有许多案例表明，算法仍然能从匿名数据的其他方面确定候选人的种族和性别。

以借贷为例。如果去掉性别和种族数据，人工智能仍将对白人男性更有利。据统计，白人男性有更稳定的收入历史和更可观的资产，而这本身就是不公平就业的结果。

由于信贷算法试图复制以往的贷款模式，它就更有可能拒绝为非白人和非男性人群提供贷款，因为算法基于以往的偏见结果和缺失的数据判断这些人还贷的可能性相对更低。

另一个例子：银行还会把贷款人是否愿意提供手机号码作为其是否会还债的一个考察指标。由于统计数据显示，女性更不愿意留下手机号码，她们在借贷时就会处于明显的不利地位。

AI的准确性也很重要

人工智能的结果也需要进行准确性测试，否则会使结果出现偏差。例如，当谈及生成性人工智能，如ChatGPT时，我们目前既看不到也没有要求其结果能达到某种准确性和真实性水平，这就为人工智能偏见的传播提供了另一个途径。聊天机器人无法测试输入数据的事实根基，只是简单地模仿人类聊天模式，无论其是否可取。

如果我们把敏感信息放回数据集，以此分析不公平结果的共有特征，我们将能够更有效地解决人工智能偏见。但这也意味着需要通过人工智能本身来发现人工智能在公平方面的缺陷。

本文作者：

Sian Townson，奥纬咨询合伙人

Michael Zeltkevic，奥纬咨询执行合伙人兼全球能力总负责人

本文原载于世界经济论坛Agenda博客