機器學習:亟須糾正的4大類“偏差”
偏見是指個人對他人或其他群體所持有的缺乏充分事實依據(jù)的認識和態(tài)度,而機器學習中的偏差則是由缺乏足夠的特征和用于訓(xùn)練模型的相關(guān)數(shù)據(jù)集不全面引起的。機器學習算法在訓(xùn)練中嚴格按照其數(shù)學構(gòu)造和數(shù)據(jù)執(zhí)行任務(wù),準確完成人類所輸入的內(nèi)容,因此,機器學習模型的偏差通常是由設(shè)計和收集相關(guān)數(shù)據(jù)的人的“偏見”造成的。
數(shù)據(jù)科學家在構(gòu)建算法并對機器學習進行訓(xùn)練時,源自其本身某種程度的偏見會不可避免地蔓延到AI模型中,比較幸運的是,機器學習的偏差能夠被檢測和規(guī)避。不過,相關(guān)的研究人員仍需保持警惕。本文總結(jié)了需要了解和防范的4種不同類型的機器學習偏差以供參考。
1. 樣本偏差
樣本偏差是訓(xùn)練數(shù)據(jù)的問題。當用于訓(xùn)練模型的數(shù)據(jù)不能準確地表現(xiàn)模型將運行的環(huán)境時,就會產(chǎn)生樣本偏差。沒有任何一種算法可以與整個宇宙環(huán)境的數(shù)據(jù)交互,并在這個宇宙環(huán)境中被訓(xùn)練,所以,選擇一個足夠大且具備代表性的宇宙子集來減輕樣本的偏差成為一門科學。盡管這門科學容易理解,但并非所有的數(shù)據(jù)科學家都接受過抽樣技術(shù)的訓(xùn)練。
舉一個自動駕駛汽車的例子。當訓(xùn)練一個在白天和夜晚都能使汽車自動駕駛的算法時,如果只選取了白天的數(shù)據(jù)進行訓(xùn)練,這就等于在模型中引入了樣本偏差,用白天和夜晚的數(shù)據(jù)訓(xùn)練算法才可以消除樣本偏差的來源。
2. 偏見偏差
偏見偏差是由受文化和刻板印象影響的數(shù)據(jù)所引發(fā)的結(jié)果。可以想象一下,假設(shè)有一個計算機視覺算法正在接受訓(xùn)練來理解工作中的人們,而該算法暴露于數(shù)以千計的訓(xùn)練數(shù)據(jù)圖,其中許多圖像顯示的是正在寫代碼的男性和在廚房干活的女性,那么,該算法很可能會將編碼員等同于男性,將家務(wù)員等同于女性。這就是偏見偏差,因為很顯然女性也能夠?qū)懘a,而男人也可以做飯。
這里的問題是,被選取的訓(xùn)練數(shù)據(jù)有意識地或無意識地反映了社會的刻板印象。要避免這樣的情況出現(xiàn),可以忽略性別和職業(yè)之間的統(tǒng)計關(guān)系,并使算法接觸均衡分布的示例。這顯然需要對刻板印象和偏見足夠敏感,而這則取決于人類對模型設(shè)定的表達行為的預(yù)期,僅靠數(shù)學無法克服這類偏差。負責標記和注釋訓(xùn)練數(shù)據(jù)的工作人員必須接受相關(guān)的訓(xùn)練,以避免他們將自己對社會的偏見或刻板印象引入到訓(xùn)練數(shù)據(jù)中。
3. 計量偏差
如果用于觀察或測量的設(shè)備存在問題,這會使系統(tǒng)價值失真,這種偏差趨向于使數(shù)據(jù)朝某個特定的方向偏離。例如,用帶有彩色濾光片的相機拍攝的每幅訓(xùn)練數(shù)據(jù)圖像都會出現(xiàn)顏色完全失真的情況,如此,用于訓(xùn)練算法的圖像數(shù)據(jù)實際上也沒有系統(tǒng)地表現(xiàn)出算法將運行的環(huán)境。
這種偏差無法通過簡單地擴大數(shù)據(jù)收集來避免,有效的途徑是,選取多個測量裝置并讓接受過訓(xùn)練的人員來比較這些裝置的輸出內(nèi)容。
4. 算法偏差
最后一種類型的偏差與數(shù)據(jù)無關(guān),屬于算法的數(shù)學性質(zhì)。一方面,具備高方差的模型可以很容易擬合到訓(xùn)練數(shù)據(jù)中并能接納復(fù)雜性,然而,這種模型對雜訊(又稱噪音noise)十分敏感;另一方面,具備高偏差的模型則更加剛硬,對數(shù)據(jù)和噪聲的變化不那么敏感,但容易丟失復(fù)雜性。因此,數(shù)據(jù)科學家需要在這兩個屬性之間達到適當?shù)钠胶狻?/p>
數(shù)據(jù)科學家能通過了解這四種類型的AI偏差構(gòu)建出更好模型和選取更好的訓(xùn)練數(shù)據(jù)。AI算法是由人類構(gòu)建的,訓(xùn)練數(shù)據(jù)也是由人類收集、篩選、標記和注釋的,因此,數(shù)據(jù)科學家需要敏銳地識別出這些偏差,并使用一種貫徹和迭代的方式來不斷測試模型,并吸納訓(xùn)練有素的研究員協(xié)助,最終規(guī)避這些機器學習的偏差。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-5.20立即下載>> 【限時免費】物理場仿真助力生物醫(yī)學領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國機器人產(chǎn)業(yè)大會
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國機器人行業(yè)年度評選
-
精彩回顧立即查看>> 【在線會議】液冷服務(wù)器信號完整性及冷卻液關(guān)鍵電參數(shù)測試
推薦專題
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩(wěn)、細節(jié)炸,設(shè)計師慌了
- 3 6000億美元估值錨定:字節(jié)跳動的“去單一化”突圍與估值重構(gòu)
- 4 Tesla AI5芯片最新進展總結(jié)
- 5 連夜測了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續(xù)扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰(zhàn)略
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享













