演算法的性別偏見
大多數人都認為AI演算法所計算出來的結果是中立且客觀的,但實際上這是一種錯誤的迷思,AI演算法會因為許多原因導致結果產生偏誤、偏見。例如:「訓練AI的資料庫內容本身有所偏誤、資料不周全未涵蓋所有可能的範圍、間接資料無法代表所欲計算的資訊、有目的性的操作使AI的運作出的結果產生有意的偏誤...等等。」而當人們認為使用AI所計算出的結果是客觀中立時,將可能導致忽略AI產生的結果內依舊含有偏見及偏差,使弱勢族群、團體陷入更加不利的處境。
演算法建立於數據基礎之上,而數據本身具有的迷思如下:迷思一,「大數據」的「大」指的不是數量,而是數據來源眾多。迷思二,數據越即時且精細越好,然而當中卻包含許多雜訊。迷思三,平台產業收集數據就等同數據分析,但收集數據的最初目的才是關鍵因素,而非數據分析結果。迷思四,數據是客觀的,實則不然其存在數據收集過程中的遺漏值、無效作答、剔除值等等都涉入主觀意識的成分。迷思五,數據收集、儲存、分析由少部分人負責,隨時代演進人人都將涉略。迷思六、大數據是萬能的,然而數據本身不具價值,數據價值是由使用者賦予的,賦予的過程就有偏誤的產生。總上所述可以發現數據並非是完全客觀中立的事實,而是會因為各式各樣因素而產生偏差的存在。[1]
一般而言對於演算法多數人都認為是客觀中立的存在,但從上段所述可以發現實際上則不然,但那這些偏差又是怎麼產生的呢?根據Robert Kowalski (1979)中所描述演算法是由邏輯元素+控制元素所組合而成的。
邏輯元素:是一種用來解決問題的知識
控制元素:決定問題解決的策略,藉此決定要運用什麼樣的知識
邏輯元素是指涉演算法如何將資料運算出我們所需求事物的公式,控制元素便是那些我們認為什麼樣的資訊是有助於產生所需事物,而有目的性提供的資料。而控制元素的資料是由人們去選擇提供給AI進行運算,自然可能會使AI客觀中立運算出來的結果,因資料提供的不均或偏差而產生出偏差的結果。以下是關於偏差產生的可能分類:
1. 資料庫數據偏差:人們在提供AI資料時會因為有意或無意的原因導致資料並非是平均散佈的提供。例如:「在國外臉部辨識系統白人辨識正確率比黑人辨識正確率高,而原因便是提供給AI學習的資料庫中大多數圖片皆是白人男性。」[2]另一種例子則是,AI所使用的資料庫來源本身就有偏誤,如:「亞馬遜公司使用AI進行面試以確保客觀中立性,然而該AI用來訓練什麼樣的員工適合錄取的資料庫,是以過往面試錄取員工的資料,這也導致AI的訓練本身就含有偏差。」[3]
2. 替代數據:AI在判斷事物時需要蒐集數據才能夠進行判斷,然而並非所有數據都有辦法產生直接數據進行分析,因此有時便會有替代/間接數據來運算,但所使用的替代數據本身就含有原先的偏誤。例如:「在警察欲利用AI運算犯罪率較高的地區,以便增加該地區的巡邏次數時,所利用的數據便是以過往的犯罪紀錄及犯罪地點來進行運算,然而執法行為本身便會產生新數據,而這些數據又成為該地區被密切關注的有力理由。」
3. 目的性:AI需要運算出什麼樣的結果或資料是人們所設定的,因此人們會因為其所需要的目的性而改變AI運算時的資料及方式。例如:「再犯預測系統當中因其目的性是為了讓所有可能犯罪的罪犯都無法假釋出獄,因此在AI系統的設定中便使得黑人平均再犯率比起白人平均再犯率來得高上許多,然而若是當初的目的性被變更為不使冤獄產生,AI便可能產生完全不同的數據。」
從上列敘述可得知AI的偏誤並非是AI的運算本身有所問題,而是提供給AI的資料可能因為提供者的目的性、意識形態、疏忽,導致AI所運算出來的結果也含有偏誤。[4][5]
演算法性別偏見產生的危害,由應該做到卻沒有做到的AI倫理議題(正義、良善、不傷害、自主、可解釋/可問責原則)做延伸。
一,正義原則,分析演算法的過程到結果,有無違反正義。例如:「誰從中獲取利益、將數據資料賣給第三方是否符合正義原則。」
二,良善原則,發明目的是否用來促進人類福祉。例如:「藍鯨遊戲。」
三,不傷害原則。例如:「電子化地圖先以大範圍掃描,再由當地人去做修正地圖標記,使地圖精確性提高,後續卻被用來作為軍事化用途,這樣的間接傷害是否偉反了不傷害原則。」演算法的應用有沒有產生性別偏見加深的現象,例如:「男性-醫師/女性-護理師,詞彙連結出現的次數頻率是否上升。」[6]
四,可解釋原則,包含解釋性與可問責性。例如:「2017年少女Molly自殺後,父母從手機中發現女兒的社群平臺有大量的自殺相關廣告、文章,父母質疑社群推薦大量自殺文章致使女兒產生自殺意圖。因此對該社群平臺提告,後續法官判決該平臺應對此演算法造成的事件負責。」[7]
演算法性別偏見的解決辦法依其性質,可分為技術性和社會性。技術性解決方法如下:方法一,用技術反制技術,例如:McAfee Deepfakes labs對抗深偽技術[8]。方法二,提升偵測資訊是不是人工生成的技術,藉此提高擬真事物的辨識度,作為進一步判斷資訊真偽、資訊正確度的依據。社會性解決方法如下:方法一,收集反數據,也就是那些被忽略的資料。方法二,針對數據分析所隱藏的不平等結果,其背後的文化假設和偏見如何構成對其想像得客觀性提出質疑,並開發合適的演算法。方法三:發展數據倫理,使數據科學走向正義、公平、不傷害為前提互利的狀態。方法四:下一代數據科學家的養成,除了熟悉演算法機制之外,也培養反思造成數據科學偏見產生的歷史、文化和背景脈絡的能力。[5]