為什么不能是「她」?AI也要反性別偏見

提到性別偏見,別以為只有人才會產生偏見,事實上作為非生命體的AI系統,也可能因為設計者的疏忽,或者社會語料庫本身的性別不公因素,而流露出性別偏見傾向。這當然不是設計者的本意,可是這種現象無可避免地會對部分用戶造成觀感不適。
特倫托大學的研究人員以身力行,借用名為"MuST-SHE"的測試集,來評估AI語音翻譯系統的輸入文本數據集是否存在具有性別差異的語句,而AI又是否將這種性別差異從翻譯加工成果中體現出來。
分門別類!為不同翻譯語料類型找準定位
在機器翻譯過程中,性別偏見可以歸因于語言表達上之于男女性別的差異。那些有專屬性別語法系統的語言,如羅曼斯語,依賴于性別詞性和句法變化來區分出性別差異。而這對于英語和中文都是不適用的,比如說,中文是一種“自然性別”系的語言,它只通過代詞(如:“她”和“他”)、固有性別的詞語(如:“男孩”和“女孩”)和性別專用名詞(如:“媽媽”和“夫人”)來反映性別差異。
如果AI翻譯系統不能捕捉到這些細微差別,可能導致對不同性別群體的不準確描述。為了盡可能抹消這種區別,研究人員專門創建了一個被稱為MuST-SHE的多語言測試集,旨在揭露潛藏在語言翻譯系統后的性別偏見。

機器人在吸收歧視性數據集后,也會表現出歧視傾向
MuST-SHE是基于TED演講數據集篩選得出的一個數據子集,其中包括大約1000份音頻、文本和翻譯素材,這些翻譯素材都取自開源MuST-C語料庫,有專門的語料注釋了與性別相關的定性差異。這些素材被細分為兩類:
第1類:當性別差異性僅取決于說話人本身的性別時(即沒有相應的語境樣本支持),翻譯素材的形成需從音頻信號中獲取消除性別歧義的必要信息樣本。
第2類:所得的翻譯素材有直接消除歧義信息的樣本支持,其中包含比較清晰的語境提示,如性別指定性詞組、代詞和專有名詞都能說明說話者的性別。

每一類的第一框都是正確語料例子
第二框是錯誤例子作為參照物
基于語料庫中的每一條翻譯引用,研究人員都特意創建了一個反面語料例子,除了“他/她”不分、“男/女”不分之外,反面的翻譯素材與原文的涵義其實完全相同。在將兩種語料信息輸入AI翻譯系統后,研究結果表明,在性別的正式表達預料方面,原語料庫中的翻譯范例被AI駁回,認為其是“存在部分錯誤的”,而反面語料例子則被認為是“正確的”。這種結果差異可以用來衡量語音識別系統處理性別現象的能力。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 特斯拉Optimus Gen3量產在即,哪些環節最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 4 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 5 Tesla AI5芯片最新進展總結
- 6 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 7 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 8 2026,人形機器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 10 AI Infra產業鏈卡在哪里了?


分享













