算法歧視?大數(shù)據(jù)折射人類社會(huì)偏見與陰暗
在未來的算法開發(fā)過程中應(yīng)該對算法開發(fā)者進(jìn)行適當(dāng)?shù)摹八惴▊惱怼苯逃?,并且確定一些算法的“基本準(zhǔn)則”,如同“機(jī)器人永不能傷害人類一樣”。
IG奪冠的喜訊讓互聯(lián)網(wǎng)沸騰,玩家們奔走相告,競相慶祝。作為IG戰(zhàn)隊(duì)老板的王思聰隨即在微博抽獎(jiǎng),隨機(jī)抽113位用戶每人發(fā)放一萬元現(xiàn)金為獎(jiǎng)勵(lì)。
可是抽獎(jiǎng)結(jié)果出乎意料,獲獎(jiǎng)名單中有112名女性獲獎(jiǎng)?wù)吆?名男性獲獎(jiǎng)?wù)?,女性獲獎(jiǎng)?wù)弑嚷适悄行缘?12倍。然而根據(jù)官方數(shù)據(jù)顯示,在本次抽獎(jiǎng)中,所有參與用戶的男女比率是1:1.2,性別比并不存在懸殊差異。
(獲獎(jiǎng)?wù)呙麊?,來源自微博@夜的咖啡)
于是不少網(wǎng)友開始質(zhì)疑微博的抽獎(jiǎng)算法,甚至有用戶主動(dòng)測試抽獎(jiǎng)算法,將獲獎(jiǎng)人數(shù)設(shè)置大于參與人數(shù),發(fā)現(xiàn)依然有大量用戶無法獲獎(jiǎng)。
這些無法獲獎(jiǎng)的用戶很有可能已經(jīng)被抽獎(jiǎng)算法判斷為“機(jī)器人”,在未來的任何抽獎(jiǎng)活動(dòng)中都可能都沒有了中獎(jiǎng)的機(jī)會(huì)。網(wǎng)友們紛紛開始測算自己是否為“垃圾用戶”,微博的“算法事件”一時(shí)滿城風(fēng)雨。
這已經(jīng)不是第一次人們質(zhì)疑算法背后的“公正性”。在大數(shù)據(jù)時(shí)代,人類會(huì)有越來越多的利益分配和大數(shù)據(jù)直接相關(guān);誰都不想在求職中被大數(shù)據(jù)自動(dòng)判斷為“缺乏競爭力的求職者”或者在法庭審判上被大數(shù)據(jù)抓進(jìn)監(jiān)獄。
然而事實(shí)卻是,在算法決策的“黑匣子”面前,人類無法了解到算法的決策過程,而只能夠了解到結(jié)果。
縱觀近幾年,眾多科技公司的算法都被檢測出歧視,谷歌的搜索算法將黑人標(biāo)記為“大猩猩”;微軟公司的人工智能聊天機(jī)器人Tay出乎意料的被“教”成了一個(gè)集反猶太人、性別歧視、種族歧視等于一身的“不良少女”……這些事件都引起了軒然大波,并且最終也導(dǎo)致了算法被叫停。
為什么大數(shù)據(jù)算法會(huì)歧視?
上梁不正下梁歪
在計(jì)算機(jī)領(lǐng)域,有一句非常有名的縮寫是GIGO(Garbage in, Garbage Out),翻譯過來就是說,輸入的如果是垃圾數(shù)據(jù),那么輸出的也將會(huì)是垃圾數(shù)據(jù)。而在大數(shù)據(jù)領(lǐng)域也有類似的說法,《自然》雜志曾用BIBO表示Bias In, Bias Out,也就是說偏見進(jìn),偏見出。
大數(shù)據(jù)可以理解成是社會(huì)的明鏡,能夠折射出人類社會(huì)中意識(shí)到的和沒意識(shí)到的偏見。如果整個(gè)社會(huì)對某少數(shù)族裔或者性別有偏見,那么大數(shù)據(jù)也將在結(jié)果中展現(xiàn)出這種偏見。
亞馬遜公司曾經(jīng)在2014年開發(fā)了一套“算法篩選系統(tǒng)”來幫助亞馬遜在招聘的時(shí)候篩選簡歷,開發(fā)小組開發(fā)出了500個(gè)模型,同時(shí)教算法識(shí)別50000個(gè)曾經(jīng)在簡歷中出現(xiàn)的術(shù)語讓算法學(xué)習(xí)在不同能力分配的權(quán)重。但是久而久之,開發(fā)團(tuán)隊(duì)發(fā)現(xiàn)算法對男性應(yīng)聘者有著明顯的偏好,當(dāng)算法識(shí)別出“女性”(women and women’s)相關(guān)詞匯的時(shí)候,便會(huì)給簡歷相對較低的分?jǐn)?shù),比如:女子足球俱樂部等;算法甚至?xí)苯咏o來自于兩所女校的學(xué)生降級(jí)。
這個(gè)算法最終被路透社曝光,而亞馬遜公司也停止了算法的開發(fā)和使用,但是為什么看似人畜無害的算法會(huì)變壞呢?
亞馬遜全球員工構(gòu)成
通過上圖不難發(fā)現(xiàn),亞馬遜公司的整體員工構(gòu)成以男性為主,而從路透社整理的自2017年起這些公司公布的數(shù)據(jù)中得知,像谷歌、蘋果、微軟、Facebook這些公司,整體上男性占了2/3,而單獨(dú)挑出技術(shù)崗位,男性比例則達(dá)到了將近4/5。
亞馬遜用來訓(xùn)練算法的“老師(簡歷數(shù)據(jù))”本身就帶有很強(qiáng)的性別偏好,而年幼無知的算法則只能邯鄲學(xué)步,從以往的簡歷數(shù)據(jù)學(xué)習(xí),自然而然就學(xué)到了這個(gè)偏好,算法清楚的將互聯(lián)網(wǎng)產(chǎn)業(yè)的性別偏好擺在了臺(tái)面上。
也就是說,算法的歧視是從人類社會(huì)學(xué)來的。數(shù)據(jù)不夠,沒法湊現(xiàn)行算法中很難存在絕對公平。
眾所周知的是,當(dāng)算法學(xué)習(xí)的數(shù)據(jù)量越大時(shí),算法的錯(cuò)誤會(huì)越少,而且結(jié)果會(huì)越趨向于精準(zhǔn)。就算人類能夠開發(fā)出一套篩選系統(tǒng)排除帶偏見的數(shù)據(jù),將不帶偏見的數(shù)據(jù)輸入算法中給算法學(xué)習(xí),算法也無法達(dá)到絕對公平。
因?yàn)榉侵髁骺偸菗碛懈俚臄?shù)據(jù),而主流永遠(yuǎn)擁有更多的數(shù)據(jù)。所以當(dāng)兩套算法相比較的時(shí)候,數(shù)據(jù)少的一方的錯(cuò)誤會(huì)更多,而數(shù)據(jù)多的一方錯(cuò)誤會(huì)更少。久而久之,兩套算法之間的還是會(huì)拉開差距。
舉個(gè)例子:如果你加入IG,同時(shí)訓(xùn)練兩款游戲,CS1.6和英雄聯(lián)盟,而你在此之前從沒有涉獵過相似的游戲。在加入訓(xùn)練之后,每天讓你在完全相同的心理和生理狀態(tài)下玩3個(gè)小時(shí)的CS1.6和3個(gè)小時(shí)的英雄聯(lián)盟,剩下的時(shí)間吃飯睡覺,如果其他條件相同的情況下,你玩這兩個(gè)游戲的水平應(yīng)該是以相同的速度穩(wěn)步提升。
但是實(shí)際情況是,CS1.6這款游戲已經(jīng)過時(shí),玩CS1.6的人很少,你只能通過和少數(shù)玩家一起對戰(zhàn),在對戰(zhàn)中提升水平,學(xué)習(xí)到的地圖槍法相對固定,無法準(zhǔn)確的衡量自己的水平提高的程度,并且玩家數(shù)量的缺乏讓你的水平在有限范圍內(nèi)提高,容易達(dá)到瓶頸。
但英雄聯(lián)盟就不同,它是一款非?;鸨挠螒?,每天有無數(shù)的玩家能夠和你對戰(zhàn),在每次對戰(zhàn)中你都能夠?qū)W到最新的戰(zhàn)法,對英雄的熟練程度穩(wěn)步提高,并且足夠數(shù)量的玩家能夠形成訓(xùn)練梯隊(duì),在對戰(zhàn)中能夠你能夠清楚的了解到自己的水平提升情況,而且永遠(yuǎn)能夠遇到比自己強(qiáng)的玩家。久而久之,雖然每天都是花相同的時(shí)間玩兩款游戲,但是水平卻會(huì)產(chǎn)生巨大的差距。
現(xiàn)行算法中沒有任何算法的準(zhǔn)確率和公正率是百分之百的,這是一個(gè)算法學(xué)習(xí)領(lǐng)域暫時(shí)還未能解決的問題。
在不遠(yuǎn)的未來可能有依靠少量數(shù)據(jù)學(xué)習(xí)的算法,但是當(dāng)算法被應(yīng)用到現(xiàn)實(shí)中的時(shí)候,算法還是有可能會(huì)根據(jù)實(shí)際情況調(diào)整偏好,傾向于主流人群。
不能向“算法歧視”低頭
公平是每個(gè)人的事不公平的算法帶來的歧視是無形、不易察覺而又影響深遠(yuǎn)的,這種歧視影響到算法控制的所有領(lǐng)域。
如果不是本次懸殊的抽獎(jiǎng)比率的差距,很少有人會(huì)意識(shí)到自己已經(jīng)被劃歸為機(jī)器人,而被標(biāo)記為機(jī)器人之后,少數(shù)群體也就被算法完全孤立了,在一個(gè)本來可以廣泛參與的社交軟件中,少數(shù)群體成為了旁觀者,所有的抽獎(jiǎng)活動(dòng)都與他們無關(guān),而且他們不知道如何消除自己身上的標(biāo)簽。
久而久之,如果沒有人關(guān)注并且發(fā)聲,少數(shù)群體只能選擇離開這個(gè)平臺(tái)。
關(guān)于如何解決算法歧視問題,科技界眾說紛紜,有人曾提出算法要公正透明,能夠讓公眾監(jiān)督算法。但是算法不屬于每一個(gè)人都有能力和愿意去監(jiān)督的,它有其專業(yè)性的壁壘。現(xiàn)在已經(jīng)有不少的科學(xué)家在努力開發(fā)出一套“公平公正”的算法系統(tǒng),算法的未來可期。
然而不容置疑的是科技公司以及組織不應(yīng)該將“帶有明顯歧視性質(zhì)的算法”在不經(jīng)測試之下,應(yīng)用到現(xiàn)實(shí)情景中。
如果要將算法應(yīng)用到更廣泛的領(lǐng)域,就需要根據(jù)各行各業(yè)的情況定制算法并且對不同情況下的公平進(jìn)行合理的定義,以保證人類社會(huì)中的法律規(guī)則、制度以及司法決策行為受到程序正義(Procedural Justice)和正當(dāng)程序約束。
而在未來的算法開發(fā)過程中應(yīng)該對算法開發(fā)者進(jìn)行適當(dāng)?shù)?strong>“算法倫理”教育,并且確定一些算法的“基本準(zhǔn)則”,如同“機(jī)器人永不能傷害人類一樣”。
參考文獻(xiàn):
- [1] 張玉宏秦志光肖樂(2017).大數(shù)據(jù)算法的歧視本質(zhì).自然辯證法研究.
- [2]Jeffrey Dastin(2018). Amazonscraps secret AI recruiting tool that showed bias against women. Reuters.
- [3]量子位(2018). AI學(xué)會(huì)了人類的“傲慢與偏見”,比如性別歧視.
- [4]Moritz Hardt(2017).How Big Datais unfair. Medium
- [5]Hannah Devlin(2016). Discriminationby algorithm: scientists devise test to detect AI bias.The Guardian
- [6]曹建峰(2017).人工智能:道德外包與“黑箱”中的算法歧視.騰訊研究院.
作者:ST輕內(nèi)容創(chuàng)作人|羅錦霖
編輯:蔣佳君
來源:公眾號(hào):S-Tech(ID:S-Tech1014)
題圖來自Unsplash,基于CC0協(xié)議
- 目前還沒評(píng)論,等你發(fā)揮!