算法的性别偏见

来自维基学院

大多数人都认为AI算法所计算出来的结果是中立且客观的,但实际上这是一种错误的迷思,AI算法会因为许多原因导致结果产生偏误、偏见。例如:“训练AI的数据库内容本身有所偏误、资料不周全未涵盖所有可能的范围、间接资料无法代表所欲计算的资讯、有目的性的操作使AI的运作出的结果产生有意的偏误...等等。”而当人们认为使用AI所计算出的结果是客观中立时,将可能导致忽略AI产生的结果内依旧含有偏见及偏差,使弱势族群、团体陷入更加不利的处境。

迷思[编辑 | 编辑源代码]

算法建立于数据基础之上,而数据本身具有的迷思如下:迷思一,“大数据”的“大”指的不是数量,而是数据来源众多。迷思二,数据越即时且精细越好,然而当中却包含许多噪声。迷思三,平台产业收集数据就等同数据分析,但收集数据的最初目的才是关键因素,而非数据分析结果。迷思四,数据是客观的,实则不然其存在数据收集过程中的遗漏值、无效作答、剔除值等等都涉入主观意识的成分。迷思五,数据收集、储存、分析由少部分人负责,随时代演进人人都将涉略。迷思六、大数据是万能的,然而数据本身不具价值,数据价值是由使用者赋予的,赋予的过程就有偏误的产生。总上所述可以发现数据并非是完全客观中立的事实,而是会因为各式各样因素而产生偏差的存在。[1]

算法中的偏见如何产生[编辑 | 编辑源代码]

一般而言对于算法多数人都认为是客观中立的存在,但从上段所述可以发现实际上则不然,但那这些偏差又是怎么产生的呢?根据Robert Kowalski (1979)中所描述算法是由逻辑元素+控制元素所组合而成的。

逻辑元素:是一种用来解决问题的知识

控制元素:决定问题解决的策略,借此决定要运用什么样的知识

逻辑元素是指涉算法如何将资料运算出我们所需求事物的公式,控制元素便是那些我们认为什么样的资讯是有助于产生所需事物,而有目的性提供的资料。而控制元素的资料是由人们去选择提供给AI进行运算,自然可能会使AI客观中立运算出来的结果,因资料提供的不均或偏差而产生出偏差的结果。以下是关于偏差产生的可能分类:

1.     数据库数据偏差:人们在提供AI资料时会因为有意或无意的原因导致资料并非是平均散布的提供。例如:“在国外脸部辨识系统白人辨识正确率比黑人辨识正确率高,而原因便是提供给AI学习的数据库中大多数图片皆是白人男性。”[2]另一种例子则是,AI所使用的数据库来源本身就有偏误,如:“亚马逊公司使用AI进行面试以确保客观中立性,然而该AI用来训练什么样的员工适合录取的数据库,是以过往面试录取员工的资料,这也导致AI的训练本身就含有偏差。”[3]

2.     替代数据:AI在判断事物时需要搜集数据才能够进行判断,然而并非所有数据都有办法产生直接数据进行分析,因此有时便会有替代/间接数据来运算,但所使用的替代数据本身就含有原先的偏误。例如:“在警察欲利用AI运算犯罪率较高的地区,以便增加该地区的巡逻次数时,所利用的数据便是以过往的犯罪纪录及犯罪地点来进行运算,然而执法行为本身便会产生新数据,而这些数据又成为该地区被密切关注的有力理由。”

3.     目的性:AI需要运算出什么样的结果或资料是人们所设定的,因此人们会因为其所需要的目的性而改变AI运算时的资料及方式。例如:“再犯预测系统当中因其目的性是为了让所有可能犯罪的罪犯都无法假释出狱,因此在AI系统的设定中便使得黑人平均再犯率比起白人平均再犯率来得高上许多,然而若是当初的目的性被变更为不使冤狱产生,AI便可能产生完全不同的数据。”

从上列叙述可得知AI的偏误并非是AI的运算本身有所问题,而是提供给AI的资料可能因为提供者的目的性、意识形态、疏忽,导致AI所运算出来的结果也含有偏误。[4][5]

危害[编辑 | 编辑源代码]

算法性别偏见产生的危害,由应该做到却没有做到的AI伦理议题(正义、良善、不伤害、自主、可解释/可问责原则)做延伸。

一,正义原则,分析算法的过程到结果,有无违反正义。例如:“谁从中获取利益、将数据资料卖给第三方是否符合正义原则。”

二,良善原则,发明目的是否用来促进人类福祉。例如:“蓝鲸游戏。”

三,不伤害原则。例如:“电子化地图先以大范围扫描,再由当地人去做修正地图标记,使地图精确性提高,后续却被用来作为军事化用途,这样的间接伤害是否伟反了不伤害原则。”算法的应用有没有产生性别偏见加深的现象,例如:“男性-医师/女性-护理师,词汇连结出现的次数频率是否上升。”[6]

四,可解释原则,包含解释性与可问责性。例如:“2017年少女Molly自杀后,父母从手机中发现女儿的社群平台有大量的自杀相关广告、文章,父母质疑社群推荐大量自杀文章致使女儿产生自杀意图。因此对该社群平台提告,后续法官判决该平台应对此算法造成的事件负责。”[7]

解决办法[编辑 | 编辑源代码]

算法性别偏见的解决办法依其性质,可分为技术性和社会性。技术性解决方法如下:方法一,用技术反制技术,例如:McAfee Deepfakes labs对抗深伪技术[8]。方法二,提升侦测资讯是不是人工生成的技术,借此提高拟真事物的辨识度,作为进一步判断资讯真伪、资讯正确度的依据。社会性解决方法如下:方法一,收集反数据,也就是那些被忽略的资料。方法二,针对数据分析所隐藏的不平等结果,其背后的文化假设和偏见如何构成对其想像得客观性提出质疑,并开发合适的算法。方法三:发展数据伦理,使数据科学走向正义、公平、不伤害为前提互利的状态。方法四:下一代数据科学家的养成,除了熟悉算法机制之外,也培养反思造成数据科学偏见产生的历史、文化和背景脉络的能力。[5]

参考资料[编辑 | 编辑源代码]

  1. 多少數據能稱為「大數據」呢?淺談大數據的六大迷思!. 
  2. AI 演算法為什麼會有性別歧視?Google 有解釋了. 
  3. 亞馬遜 AI 在履歷篩選中歧視女性?AI 犯錯不是第一次了. 
  4. 當 AI 學會了性別與種族歧視. 
  5. 5.0 5.1 機器的偏見:藏在演算法裡的歧視. 
  6. AI與偏見的距離?. 
  7. 英國14歲少女莫莉輕生,調查認定社群媒體提供不安全內容釀成悲劇. 
  8. 「用 AI 反制 AI」科技破解 Deepfake 可行嗎?.