發(fā)布時間:2017/5/24 20:34:41 來源:人民網(wǎng) 編輯:中國家裝家居網(wǎng)

概要:機器學(xué)習(xí)算法和人工智能系統(tǒng)正影響著人們生活的許多領(lǐng)域——瀏覽新聞、觀看電影、獲取信貸,甚至資本投資。
智庫跟蹤 | 蘭德:人工智能的偏差和錯誤風(fēng)險
前言:機器學(xué)習(xí)算法和人工智能系統(tǒng)正影響著人們生活的許多領(lǐng)域——瀏覽新聞、觀看電影、獲取信貸,甚至資本投資。出于對效率和速度的考慮,算法已經(jīng)有權(quán)在這些領(lǐng)域作出決定并采取行動。當然,它也給人們帶來了就業(yè)方面的擔(dān)憂。蘭德公司在報告中闡述了算法決策的一些缺點,包括算法錯誤和偏差問題,并研究了解決這些問題的一些方法。報告強調(diào)了在公共政策中使用算法決策所固有的風(fēng)險和復(fù)雜性,指出技術(shù)與非技術(shù)方法的結(jié)合可能是最需要的補救措施。
機器學(xué)習(xí)算法和人工智能系統(tǒng)正影響著人們生活的許多領(lǐng)域——瀏覽新聞、觀看電影、獲取信貸,甚至資本投資。出于對效率和速度的考慮,算法已經(jīng)有權(quán)在這些領(lǐng)域作出決定并采取行動。當然,它也給人們帶來了就業(yè)方面的擔(dān)憂。蘭德公司在報告中闡述了算法決策的一些缺點,包括算法錯誤和偏差問題,并研究了解決這些問題的一些方法。
報告第一章介紹了隨著人工智能的發(fā)展,算法偏差和錯誤風(fēng)險不斷增加。第二章定義并仔細審議了算法的概念,重點關(guān)注了復(fù)雜算法中的不正確或不公平行為,側(cè)重于人工智能對社會和政策的影響。第三章關(guān)注的是算法底層的錯誤行為,而不是特例,提出了解決這些問題的可選方案,以及算法決策過程的問責(zé)措施,包括最近發(fā)展的有關(guān)公平、可測量和透明的機器學(xué)習(xí)。第四章給出了一些如何了解和加強應(yīng)對算法偏差挑戰(zhàn)的觀察和建議。
一、算法的定義和評估
1、定義
經(jīng)過幾個世紀的發(fā)展,算法的定義也發(fā)生了很大的變化。最初,算法關(guān)注的是可靠的一步一步的程序計算;后來引入了可計算性和可計算功能,形成了算法思想;再后來引入了學(xué)習(xí)算法,在微觀層面引入了機械的順序計算程序,許多最初的算法試圖模仿生物行為。人工智能最大的目標是使用先進的學(xué)習(xí)算法,建立自動人工智能的能力,使其超過人類的智能。
人工智能先驅(qū)的工作為機器學(xué)習(xí)算法奠定了基礎(chǔ),是今天使用的絕大部分自動系統(tǒng)的根基。這些自動化系統(tǒng)通常專注于學(xué)習(xí)解決“簡單”的任務(wù),如自動語音和圖像識別。該系統(tǒng)的常見術(shù)語為狹義人工智能。舉個例子,這些工作是最先進的深度學(xué)習(xí)技術(shù)(用于現(xiàn)代圖像和語音識別)的基礎(chǔ)。
正在進行的“大數(shù)據(jù)”革命也被看作促進學(xué)習(xí)算法廣泛應(yīng)用的有力催化劑。大數(shù)據(jù)提供了源源不斷的多模數(shù)據(jù),這對通過學(xué)習(xí)算法提取有價值的洞察力是必需的。使用強大的算法是唯一能夠弄懂日常數(shù)量、種類龐雜的數(shù)據(jù)的可持續(xù)的方法。
算法的文化概念往往混雜了從盲目的計算程序(如靜態(tài)計算)到高級的自動學(xué)習(xí)與推理程序(用于諸如IBM沃森的系統(tǒng))的全譜算法。這種算法的文化概念就像草率的速記,鼓勵公眾將算法看作一個整體的、不透明的、近似神學(xué)的構(gòu)造。許多影響公共生活的關(guān)鍵算法也被認為是專利或商業(yè)秘密。這種對于算法不透明、不知情的理解妨礙了公眾在人工智能方面的話語權(quán)。
然而,學(xué)習(xí)算法是一個有些不同的存在。它同時具有實施的正確性功能(算法設(shè)計者傾向于關(guān)注的內(nèi)容)和學(xué)習(xí)行為的正確性功能(用戶關(guān)心的內(nèi)容)。最近的一個例子就是微軟的人工智能聊天機器人——Tay。Tay背后的算法使得其能在與推特用戶的交流過程中使人信服。而其在受控環(huán)境中的廣泛測試并沒有引起軒然大波。Tay行為的一個重要特征是通過攝取用戶數(shù)據(jù)來學(xué)習(xí)和響應(yīng)用戶的傾向。這個特征使得推特用戶有可能操縱Tay的行為,使其發(fā)表一系列的攻擊性言語。無論是其經(jīng)驗還是數(shù)據(jù)都沒有考慮到新的上下文語境的新意。
這種類型的漏洞不是唯一的例子。學(xué)習(xí)算法往往容易受到訓(xùn)練數(shù)據(jù)的影響。這些算法的特點就是具有適應(yīng)變化的輸入數(shù)據(jù)的能力。但算法對于響應(yīng)輸入數(shù)據(jù)的適配同時也為惡意用戶提供了一個攻擊途徑。在學(xué)習(xí)算法中,數(shù)據(jù)攝取漏洞是一個反復(fù)出現(xiàn)的問題。
2、算法的“不端行為”審議
隨著人工智能體在決策過程中發(fā)揮的作用越來越大,更應(yīng)關(guān)注它容易出現(xiàn)的錯誤及“不端行為”。
“行為不端”的算法,是對導(dǎo)致不正確、不公平或危險的后果的人工智能體的一種隱喻。最初,它是指使用計算機系統(tǒng)完成各種任務(wù)的偏差,包括工作日程管理、就業(yè)匹配、航線路徑規(guī)劃、移民法律援助自動化等。
算法系統(tǒng)在半自動商業(yè)預(yù)定系統(tǒng)(SABRE)和國 家居 民匹配項目(醫(yī)療方面)的使用中都出現(xiàn)了偏差和問題。互聯(lián)網(wǎng)的發(fā)展和個人計算機的廣泛使用,擴大了這些問題的范圍。算法開始更多地介入我們與信息之間的互動。谷歌就是一個典型的案例。谷歌的搜索和廣告投放算法消化了大量用戶生成的數(shù)據(jù)來優(yōu)化用戶(包括普通用戶和廣告商)服務(wù)。這樣的系統(tǒng)首先暴露了學(xué)習(xí)算法對廣泛個人消費的分析結(jié)果。
研究顯示,谷歌搜索和廣告算法系統(tǒng)存在“算法誹謗”,會不正確地關(guān)聯(lián)人或群體,這些不正確的關(guān)聯(lián)影響了谷歌精準投放廣告業(yè)務(wù)。例如,僅僅是搜索某種類型的名詞就會導(dǎo)致推送刑事司法服務(wù)方面的廣告。
在新興的數(shù)據(jù)和算法新聞領(lǐng)域,許多錯誤的算法影響了人們線上/線下生活的方方面面。IBM著名的“危險”AI沃森,在其學(xué)習(xí)算法攝入一些不好的數(shù)據(jù)后也不得不人為糾正其說臟話的習(xí)慣。還有一些報告揭示了Waze交通路由算法在城市交通模式中的負面影響。
另外一些研究關(guān)注治理、公共政策和復(fù)雜的社會問題中算法的影響。在這些領(lǐng)域里,人工智能體不得不面對另一個層面的復(fù)雜性和危險——其不良表現(xiàn)將產(chǎn)生深遠、大范圍、波及世代的后果。
有報告說明了算法決策在法律領(lǐng)域的傳播是如何剝奪公民正當權(quán)益的。最近的報告顯示了全國量刑聽證中廣泛使用的刑事風(fēng)險評估算法中出現(xiàn)了嚴重的系統(tǒng)偏差。
最近一篇有影響力的文章探討了大數(shù)據(jù)是否會導(dǎo)致算法公平或中立行為這個最根本的問題,認為如果不改革大數(shù)據(jù)和相關(guān)算法的應(yīng)用,答案是明確的否定。
有專家在論文中討論了算法和大數(shù)據(jù)如何規(guī)避我們所能預(yù)料的法律隱私風(fēng)險。標準的避免算法偏差影響的方法是從學(xué)習(xí)算法中隱藏敏感數(shù)據(jù)字段(如性別和種族)。
最近,算法設(shè)計者和研究人員已開始通過技術(shù)方法,認證和消除算法偏差的影響。
3、案例研究:刑事司法制度中的人工智能
美國刑事司法系統(tǒng)越來越多地訴諸算法工具。人工智能代理有助于減輕管理這樣一個大系統(tǒng)的負擔(dān)。但這些工具中任何系統(tǒng)算法偏差都會帶來很高的錯誤及其累計風(fēng)險。
人工智能算法已經(jīng)用于全國各地的量刑假釋聽證系統(tǒng)。但是,這個系統(tǒng)將黑人罪犯的評級定為高于非黑人——即使非黑人犯有有更嚴重的罪行。這暗示了一個系統(tǒng)性的種族偏見。
警察部門也開始將工作訴諸預(yù)測警務(wù)和分配資源的算法工具。雖然該算法是合理有效的,但也不能避免導(dǎo)致不公平的結(jié)果。
二、 重點問題:影響因素和補救措施
上文分析了算法出現(xiàn)偏差的角度主要有三種:第一個也是最基本的角度是數(shù)據(jù)的攝取問題,關(guān)鍵是在學(xué)習(xí)中要考慮人類活動本身會存在偏差——學(xué)習(xí)包括好的和壞的兩方面;第二個角度是,應(yīng)用于政策或社會問題時,很難定義基本事實和確定強有力的指導(dǎo)原則,除了對性能指標進行優(yōu)化,學(xué)習(xí)算法還需要將社會可接受性措施進行優(yōu)化;第三個角度是,在社會行為空間中進行的判斷往往是模糊的,不是非黑即白的兩元標準。
有一個已經(jīng)發(fā)展了數(shù)世紀的系統(tǒng)可以應(yīng)對受制于模糊的社會規(guī)范和互相矛盾的報告或數(shù)據(jù)而產(chǎn)生的政策問題,那就是法律。有專家指出,雖然加密貨幣和算法(“智能”)協(xié)議可能優(yōu)于執(zhí)行二元產(chǎn)權(quán),但其在現(xiàn)實世界中的產(chǎn)權(quán)是模糊的、有爭議的。類似的情況也出現(xiàn)在我們認為合理的算法——算法行為有時被定義得并不準確。法律已經(jīng)演變?yōu)閷δ:龔?fù)雜事務(wù)的審判。
美國法律也承認,表面上合理的程序可能會產(chǎn)生不利的、與預(yù)期完全不同的影響。對于產(chǎn)生這種與預(yù)期完全不同的影響的理解僅僅是在算法研究界慢慢傳播。
1、 其它技術(shù)因素
(1)樣本大小差異
機器學(xué)習(xí)算法是統(tǒng)計估計方法。這些方法估計誤差的措施通常與數(shù)據(jù)樣本大小成反比。這意味著對于低代表性的事件種類,這些方法通常會更容易出錯。
(2)被欺騙的獎勵功能
機器學(xué)習(xí)和人工智能理論中的獎勵功能來自行為心理學(xué)習(xí),是目前人工學(xué)習(xí)系統(tǒng)學(xué)習(xí)正確行為的主要手段。在人工智能學(xué)習(xí)過程中,獎勵功能量化了我們對其行動和決定的獎懲。學(xué)習(xí)這些算法,然后適應(yīng)人工智能體的參數(shù)和行為,就可以以最大限度地提高其總回報。因此,人工智能行為設(shè)計往往將設(shè)計減少到足夠激勵獎勵功能的程度,而這種行為主義的學(xué)習(xí)方式可以被欺騙。
(3)文化差異
機器學(xué)習(xí)算法通過選擇電訊或與各種行為相關(guān)聯(lián)的數(shù)據(jù)中的顯著特征(變量)來工作。文化調(diào)和的行為可能導(dǎo)致不公平行為發(fā)生。
(4)混雜的變量
算法設(shè)計者通常選擇從其處理過的數(shù)據(jù)中刪除敏感變量,試圖使系統(tǒng)結(jié)果無偏差。系統(tǒng)設(shè)計師的一個常見的說法是,“系統(tǒng)不會有偏差,因為它沒有考慮(一些敏感的變量)。”機器學(xué)習(xí)方法經(jīng)常通過概率推斷隱藏變量。而研究表明,傳統(tǒng)的數(shù)據(jù)隱私和匿名方法不再可行,這是因為現(xiàn)代的機器學(xué)習(xí)算法能夠“簡單粗暴”地重新識別數(shù)據(jù)。
2、補救措施
(1) 統(tǒng)計方法和算法
目前有一個不斷發(fā)展的領(lǐng)域,專注于公平、負責(zé)任、透明的機器學(xué)習(xí),致力于采用技術(shù)途徑保證算法公平及認證并糾正機器學(xué)習(xí)算法中偏差的影響。
有專家建議在使用主觀數(shù)據(jù)時,使用修正度量或相似度計算。在比較數(shù)據(jù)集中的主觀數(shù)據(jù)時,這些相似度計算意味著執(zhí)行嚴格的公平性約束。一些專家提出了若干算法審計程序,將算法輸出與期望的公平行為進行比較。
(2) 因果推理算法
在更廣泛的、更長的時間范圍內(nèi),一些專家正在探索將因果或反事實推理用于機器學(xué)習(xí)算法中。這是非常重要的,因為自動因果推理系統(tǒng)在判斷算法決策過程的質(zhì)量時,可呈現(xiàn)清晣的因果敘述。算法決策的精確因果推理是最可靠的審計跟蹤算法。對偶然因素進行審計的算法,可為結(jié)論提供更清楚的解釋或理由。這對判斷系統(tǒng)的不當結(jié)果(統(tǒng)計學(xué)不相稱結(jié)果)是至關(guān)重要的。
(3) 算法素養(yǎng)和透明度
在對抗算法偏差方面,使受過良好教育的公眾理解算法可能會導(dǎo)致不公平的結(jié)果將是有益的。這與要求用戶了解所有算法的內(nèi)部工作原理(顯然不可行)是不一樣的。只需灌輸一種健康的“知情懷疑論”,對減少自動化偏差帶來的影響就可能已經(jīng)足夠。
將算法素養(yǎng)和透明度結(jié)合起來可能非常有效。在這里,透明度通常是指確保使用中的任何算法都容易被理解——這并不是一直可行的。將由人工智能體經(jīng)手處理的決策和實施行動進一步公開應(yīng)該是可行和有用的。
(4) 人事方法
對于機器學(xué)習(xí)和人工智能算法中偏差的技術(shù)研究仍處于初級階段。算法中的偏差和系統(tǒng)錯誤問題,可能取決于算法設(shè)計者和數(shù)據(jù)科學(xué)家與眾不同的思維方式。這些從業(yè)者通常是較少接觸社會或公共政策問題的工程師和科學(xué)家。算法設(shè)計人員的構(gòu)成往往缺乏多樣性。這些算法設(shè)計者作出了大量的設(shè)計選擇,其中一些可能會產(chǎn)生深遠的影響。算法開發(fā)人員的多樣性有助于提高對潛在的各類問題的敏感性。
雖然如此,彌補算法偏差的驅(qū)動力應(yīng)該在健康的監(jiān)管約束中得到鍛煉。任何一種補救措施都需要算法更緊密地遵守社會定義的價值觀,包括言論自由、審查制度、公平或其它可接受的道德標準等。
三、結(jié)論
本文說明了算法的各種不同影響帶來的挑戰(zhàn),為什么我們希望擴展“算法依賴”,以及可能減輕未來風(fēng)險的最佳選擇是什么。只要人工智能體在我們生活中扮演著越來越重要的角色并且不受監(jiān)管,算法和人工智能的錯誤與偏差風(fēng)險將繼續(xù)存在。
應(yīng)對不受管制的人工智能體趨向三大類方法:完全避免算法、使底層算法透明、對算法輸出進行審計。完全避免算法幾乎是不可能的,沒有其它方法可以處理當前的數(shù)據(jù)洪流。算法透明則需要讓更多受過教育的公眾能夠理解算法。但深度聯(lián)結(jié)學(xué)習(xí)的最新進展表明,即使我們可以解構(gòu)一個算法的流程,對于獲得有用的感知它可能仍然過于復(fù)雜。
有學(xué)者最近的研究認為,第三種選擇——算法審計——可能是前進的方向。某些審計忽略了人工智能體內(nèi)部的工作,并根據(jù)結(jié)果的公平性進行判斷。這與我們經(jīng)常對人類的判斷類似:由其輸出(決策和行動),而不是內(nèi)容和代碼庫的獨特性(思想)決定。這一選擇對政策制定者最有幫助,而且為人工智能體建立了一個結(jié)果主義道德標準。在這一框架下,監(jiān)管就會變得更加容易。
像這樣的討論有時會人格化人工智能體:機器是否開始像我們一樣思考?我們?nèi)绾闻袛嗪鸵龑?dǎo)他們?人工智能體目前的進展可能會使算法人格化的觀點更加普遍。這可能對培育公眾不基于偏見,像理解人類一樣理解人工智能體,產(chǎn)生意想不到的好處。
內(nèi)容框架
第一章 介紹
第二章 算法:定義與評估
1、 算法定義
2、 “行為不端”的算法:一個簡要的評議
3、 案例研究:刑事司法制度中的人工智能體
第三章 重點問題:影響因素和補救措施
1、 其它技術(shù)因素
2、 補救措施
第四章 結(jié)論
關(guān)鍵圖表

圖1 每級事件執(zhí)行率:兩個亞群,相同犯罪率、不同警戒級別
歡迎企業(yè)家加入未來科技學(xué)院,共同提升企業(yè)科技競爭力
一日千里的科技進展,層出不窮的新概念,使企業(yè)家,投資人和社會大眾面臨巨大的科技發(fā)展壓力,前沿科技現(xiàn)狀和未來發(fā)展方向是什么?現(xiàn)代企業(yè)家如何應(yīng)對新科學(xué)技術(shù)帶來的產(chǎn)業(yè)升級挑戰(zhàn)?
未來科技學(xué)院將通過舉辦企業(yè)家與科技專家研討會,未來科技學(xué)習(xí)班,企業(yè)家與科技專家、投資人的聚會交流,企業(yè)科技問題專題研究會等多種形式,幫助現(xiàn)代企業(yè)通過前沿科技解決產(chǎn)業(yè)升級問題、開展新業(yè)務(wù)拓展,提高科技競爭力。
未來科技學(xué)院由人工智能學(xué)家在中國科學(xué)院虛擬經(jīng)濟與數(shù)據(jù)科學(xué)研究中心的支持下建立,成立以來,已經(jīng)邀請國際和國內(nèi)著名科學(xué)家、科技企業(yè)家300多人參與學(xué)院建設(shè),并建立覆蓋2萬余人的專業(yè)社群;與近60家投資機構(gòu)合作,建立了近200名投資人的投資社群。開展前沿科技講座和研討會20多期。 歡迎行業(yè)、產(chǎn)業(yè)和科技領(lǐng)域的企業(yè)家加入未來科技學(xué)院