對網絡暴力Say NO!AI算法如何辨“好壞”?
社交平臺、短視頻平臺等公共網絡場所,已經成為網絡暴力行為的高發地。

在剛結束的冬奧會上,就有不少人通過網絡平臺的評論和私信功能,對冬奧選手進行詆毀、侮辱攻擊、散布不實謠言,對冬奧觀賽和社區氛圍造成了極大的傷害。
事實上,網絡暴力由來已久。
由于網絡暴力往往處于灰色地帶,大部分暴力行為都尚未構成誹謗和侮辱,因此很難對網絡暴力實施者處以刑罰或者行政處罰。
網民的言論只要不超越法律底線,有權自由發表言論。
為了應對網絡暴力行為,全球大多數的社交平臺都采用了言論投訴、評論過濾、評論/私信關閉、好友關注過濾等功能,在一定程度上緩解網絡霸凌的問題。
但限制性的功能類似于黑名單,并不能完全將網絡暴力扼殺在搖籃,只能在惡意語言/圖片/視頻出現后進行封堵,不幸的是負面影響已經擴散開來。
那么,能否采用技術的手段從源頭就識別網絡暴力行為呢?
01
以AI技術制止網絡暴力
成為全球研究者共同的選擇
2016年,以“賈斯汀·比伯退出Instagram”為導火索,Instagram首次推出了負面評論過濾功能。之后,Instagram還通過機器學習來處理含有攻擊性信息的照片。
2019年,Instagram又推出兩大反網絡暴力功能,即言論提醒和自主選定黑粉功能,用來幫用戶抵制網絡暴力。
其中,言論提醒功能利用AI技術,在冒犯性言論發表之前,向發言者發出提醒。比如:當某用戶輸入了“你又丑又蠢。”并點擊發布時,AI會發出“請為Instagram保持一個友好環境”的提醒。

“通過獲得這種干預,人們有機會反思和撤銷他們的評論,使收件人避免收到有害評論通知。”Instagram主管Adam Mosseri表示,“經測試,我們發現這項功能確實有引導作用,能使一些用戶撤銷評論或修改評論內容。”
近日,抖音也推出了類似的防網暴功能,并升級為AI技術和人工審核相結合的方式,對違規用戶進行引導和幫助。
當用戶發布違規或低質評論之后,抖音會對該評論進行模型匹配和校驗,用戶會立即收到評論彈窗警示,提示“該評論可能對他人造成負面影響”,給用戶一個回心轉意的機會。
當然,彈窗可以跳過并繼續發布評論,但將不會被其它人看見,此時評論會進入正常審核邏輯,真正的違規評論依然會被處理。
此外,抖音在防網暴系統中還新增了名為“心情暖寶寶”的平臺助手。
如果用戶多次違規發布私信、評論,AI算法可以自動匹配觸發“心情暖寶寶”,用消息對話嘗試緩解用戶的抑郁情緒,甚至引導用戶去人工求助、線下就診。

此外,用戶也可以自主在推薦、搜索、評論等場景減少負面內容推薦。
除了識別謾罵/騷擾信息等明顯的負向內容,如:反諷攻擊、答非所問、垃圾廣告導流這類“陰陽怪氣”的內容,在不同討論語境下也會引發不同情緒,這更為AI算法識別帶來了極大挑戰。
對此,2018年知乎就通過AI技術嘗試處理陰陽怪氣的言論。“瓦力”作為知乎社區治理的算法機器人之一,能在0.3秒內識別判斷內容是否為不友善、答非所問、陰陽怪氣等多種需被折疊的答案。

“我們基于對于用戶切實體驗的累積觀察,與算法團隊一起,從情感傾向性、親密關系、文本特征三方面入手,訓練出能夠識別陰陽怪氣的算法模型。
目前‘瓦力’對陰陽怪氣評論文本的識別準確率,已非常接近社區最大公約數,比很多人工判斷都更準。”知乎運營總監孫達云表示。
所謂“社區最大公約數”指的是社區共識,即長久積淀下來知乎和用戶共同認可的一種公約,知乎稱之為知友們對價值判斷的最大公約數,比如“知乎不讓罵人”,比如“對優質內容的界定”等。
知乎在過去多年中所累積的“舉報”等帶有用戶篩查性質的行為語料和豐富的社區管理經驗,使得知乎得以邁出關鍵一步:用社區最大公約數作為判定尺度。
在算法方面,通過400多個前沿的深度學習模型識別過億內容,現在的知乎平臺,可以智能地進行傾向性識別、爆照識別、風險圖片識別等等。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













