近日,人工智能領域的先驅、圖靈獎得主楊立昆(Yann LeCun)在離職 Meta 后首次公開證實,該公司于 2025 年 4 月發布的大語言模型 Llama 4 在關鍵基準測試中存在造假行為。
他直言不諱地指出,測試結果被修飾了一點,為了獲得更好的成績,團隊針對不同的基準測試使用了不同的模型變體。這一遲來的坦白,不僅坐實了數月前開發者社區的廣泛質疑,更揭開了 Meta 人工智能部門內部深層的戰略分歧、管理矛盾與人事動蕩的序幕。
丑聞坐實
此次“刷榜”事件的源頭,可追溯至 2025 年 4 月 Llama 4 的發布。
起初,其版本之一 Llama-4-Maverick 在知名的大模型競技場(Chatbot Arena)排行榜上高居第二名,表現堪稱驚艷。
然而,開發者很快發現,開源社區實際可用的版本與參與排行榜評測的版本存在顯著差異,實際性能遠未達到排名所顯示的水平,尤其在編程等任務上表現不佳。
隨后,排行榜運營方確認 Meta 提交的是針對對話進行過特殊優化的“特供版”,并更新了排名。重測后,Llama-4-Maverick 的排名從此前的第 2 名暴跌至第 32 名。
當時,Meta 官方迅速否認了“訓練作弊”的指控。楊立昆首次從核心知情者角度承認了操作的存在,據他透露,公司首席執行官馬克·扎克伯格對此“非常沮喪”,并對整個生成式人工智能(GenAI)團隊“失去了信心”,進而將整個部門邊緣化。這直接引發了一波激進的組織架構調整和人才清洗。
路線之爭與人事變局
Llama 4 的失利及其后續丑聞,成為了 Meta 內部長期積壓矛盾的催化劑,主要體現在技術路線和人事管理兩個層面。
首先,是根本性的技術路線分歧。楊立昆一直是當前主流大語言模型(LLM)路徑的著名批評者。他多次公開表示,LLM 雖然在語言處理上有用,但其本質受限于語言文本,無法理解物理世界,要實現人類水平的智能(超級智能)是一條“死胡同”。
他主張應致力于開發能夠理解世界運作規律的“世界模型”。然而,Meta 在新一輪的超級智能項目招聘中,主要力量都集中在大語言模型開發上。楊立昆感到自己的觀點在公司內部已成為少數派,甚至直言很多同事不希望他公開唱衰 LLM 路線,這使他在職位上“在行政上變得困難”,最終促成了他的離職。
其次,是引發爭議的高層人事變動。為重整旗鼓,扎克伯格在 2025 年 6 月斥巨資投資數據標注公司 Scale AI,并聘請其年僅 28 歲的創始人亞歷山大王來領導新成立的“超級智能實驗室”,這位年輕高管也一度成為楊立昆的上司。
楊立昆對此安排評價消極,他認為亞歷山大王雖然學習能力強,但“年輕且缺乏經驗”,“沒有科研經驗,不知道如何開展研究,也不了解研究人員的喜好”。他強調,真正的科學研究無法被行政命令所驅動。這場管理層的新老交替與理念沖突,加劇了組織的不穩定性。
與此同時,波及的還有 Meta 內部的其他團隊。原 FAIR(基礎人工智能研究)團隊的研究科學家總監田淵棟在個人總結中提到,他的團隊曾被臨時抽調為 Llama 4 項目“救火”,但在完成 Llama 4.5 項目后,整個團隊卻遭到裁撤。
如今,離開 Meta 的楊立昆已創立新公司,專注于其信仰的“世界模型”研究。而他揭露的這一切,不僅是對前東家的一次嚴峻指控,也向整個行業拋出了一個關于創新倫理、技術方向與公司治理的深刻問題。在競速狂奔的人工智能賽道,如何在追求領先的同時保持誠信與遠見,是所有參與者必須面對的考驗。
參考資料:
https://news.futunn.com/post/66892851/after-lecun-left-meta-he-made-shocking-revelations-models-cheating?futusource=news_newspage_recommend&level=2&data_ticket=1766116194545042
https://36kr.com/p/3624814768669955
https://m.ithome.com/html/845134.htm