國際品牌資訊
您的位置:首頁 >資訊 >

研究人員聲稱AI命名實體識別模型存在偏差

時間:2020-08-14 15:56:08 | 來源:

Twitter研究人員聲稱發現了命名實體識別中人口統計學偏差的證據,這是生成自動知識庫的第一步,或者是由搜索引擎等服務利用的存儲庫。他們說,他們的分析表明,人工智能在識別特定人群的名字方面表現更好,并且偏見體現在語法,語義以及單詞使用在整個語言環境中的變化。

知識庫實質上是包含有關實體(人物,地點和事物)信息的數據庫。2012年,Google啟動了一個知識庫,即“知識圖譜”,以利用從Wikipedia,Wikidata和CIA World Factbook等來源收集的數千億個事實來增強搜索結果。Microsoft提供了一個知識庫,其中包含超過15萬篇由支持專業人員為其客戶解決問題的支持人員撰寫的文章。但是,雖然知識庫的有用性沒有爭議,但研究人員斷言,用來表示實體的嵌入對某些人群表現出偏見。

為了顯示和量化這種偏見,合著者在合成生成的測試語料庫上評估了流行的命名實體識別模型和來自常用自然語言處理庫(包括GloVe,CNET,ELMo,SpaCy和StanfordNLP)的現成模型。他們對測試數據集的各種模型進行了推理,以提取人的名字,并測量正確提取的名字的準確性和可信度,并重復使用或不使用大寫字母的實驗。

名稱集合包括八個不同種族,族裔和性別組(例如,黑人,白人,西班牙裔,穆斯林,男性,女性)的123個名稱。集合中的每個人口統計指標都以15個以上的“顯著”名稱表示,這些名稱來自1974年至1979年在馬薩諸塞州注冊的流行名稱(歷史上一直用于研究算法偏差)和ConceptNet網絡項目,該網絡旨在幫助算法了解單詞的含義。研究人員使用這些數據通過Winogender Schemas項目(其最初旨在識別自動化系統中的性別偏見)的模板生成了2.17億個合成句子,并結合了來自“更現實”數據集的289個句子,以增強魯棒性。

實驗結果表明,除ELMo以外,所有模型中男性和女性白人名字的準確性最高,除了ELMo提取的穆斯林男性名字準確性最高外,與非白人名字相比,更大比例的白人名字具有更高的模型置信度。例如,盡管GloVe的穆斯林女性名字準確度僅為81%,而白人女性名字準確度為89%。CNET的黑人女性姓名準確率僅為70%,而白人男性姓名準確率則為96%。

研究人員說,績效差距部分歸因于訓練數據中的偏見,訓練數據中的男性名字比女性名字“顯著”多,白人比非白人名字多。但是他們還認為,這項工作揭示了具有性別和種族等名稱的命名實體識別系統的準確性不均,他們進一步聲稱這一點很重要,因為命名實體識別不僅支持知識庫,還支持問答系統和搜索結果排名。

“我們知道我們的工作受到來自各種人口統計信息的姓名的限制,我們承認個人不一定會像這項工作那樣將自己的姓名與人口統計信息相結合……但是,如果某些部分的命名實體的人口有系統地被錯誤地識別或貼錯標簽,其損害將是雙重的:如果他們屬于不同的類別,他們將無法從在線曝光中獲得盡可能多的收益,并且他們不太可能被包含在未來的迭代中訓練數據,從而延續了惡性循環,”研究人員寫道。“雖然偏見方面的許多研究都只關注人口統計學的一個方面

在未來的工作中,研究人員計劃調查以其他語言訓練的模型是否也偏向于更可能在該語言流行的文化中使用的命名實體。他們認為,這可能會導致評估不同語言的命名實體識別模型,理想情況下,命名實體代表了更大的人口多樣性。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如有侵權行為,請第一時間聯系我們修改或刪除,多謝。
九州体育网