百模大戰,誰是下一個ChatGPT?
文|光錐智能,作者|周文斌,編輯|王一粟
“不敢下手,現在中國還沒跑出來一家絕對有優勢的大模型,上層應用沒法投,擔心押錯寶。”投資人Jucy(化名)向光錐智能表示,AI項目看得多、投的少是這段時間的VC常態。
ChatGPT點燃AI大爆炸2個月中,中國一直在等待自己的GPT-3.5。
AI真的冒犯到了打工人。游戲團隊替代掉30%的原畫師、電商團隊用AIGC生成低成本數字人模特、基礎程序員也感受到了被降維打擊的焦慮......眼看著GPT在國外要將所有領域都重新做一遍的趨勢,科技顛覆裹挾著金錢的味道滾滾而來。
于是,除了焦慮的打工人,企業急著用大模型降本增效,創業者急著接入大模型推出新產品,股市急著用ChatGPT概念割韭菜,培訓機構更是先賺一波為敬。
襯托之下,反而顯得喜歡追逐風口的中國科技巨頭們比以往更沉得住氣。
果然,周期使人成長,公司也是。
終于,眾望所歸、望眼欲穿、姍姍來遲,4月第二周,中國也迎來了新一代大模型的密集發布。
·繼通義千問開放測試4天后,張勇在接手阿里云后首次亮相,宣布所有阿里產品未來將接入“通義千問”大模型,進行全面改造;
·商湯科技在10日的技術交流會上,演示了“日日新”大模型的能力:對話、AI繪畫、編程、數字人,第二天開盤大漲9%;
·華為盤古大模型在8日低調亮相,但并于10日發布新產品;
·明星創業者王小川公開亮相,攜手搜狗老搭檔茹立云正式開啟AI創業的新征程,將在下半年推出百川智能的大模型;
·毫末發布首個自動駕駛大模型DriveGPT雪湖·海若,把人類反饋強化學習引入到駕駛領域。
就連游戲公司昆侖萬維也趕來湊熱鬧,宣稱“中國第一個真正實現智能涌現”的國產大語言模型將于17日啟動邀請測試,但隨后被媒體質疑其借熱點炒作股價。
熱熱鬧鬧、真真假假,大模型一時竟然有點亂花漸欲迷人眼。中國的大模型怎么就一下子如雨后春筍般都冒了出來?如果不重復造輪子,大家還能干點什么?
雖然是摸著Open AI過河,但中國大模型也都邁入了無人區。
01 涌現之前:亦步亦趨,又分道揚鑣
如果要為AI大模型找一個時間節點,2019年應該是關鍵的一個。
這一年2月,遠在大洋彼岸的OpenAI推出了GPT-2,恰好也是這個時間點,微軟慷慨的投入了10億美元,讓OpenAI從“非營利性”組織變成了“盈利上限”組織。
大概在一個月之后,太平洋的另一邊,百度發布了ERNIE1.0,成為中國第一個正式開放的預訓練大模型。
但這種第一其實有很多,比如華為的盤古大模型,業界首個千億參數的中文語言預訓練模型;比如阿里的M6,中國首個千億參數多模態大模型;再比如騰訊HunYuan,國內首個低成本、可落地的NLP萬億大模型.....
總之,只要定語加的足夠多,就總能在某個領域當第一。那段時間,從硅谷到北京西二旗、再從五道口到上海臨港,包括華為、阿里、騰訊、商湯在內,凡是有能力的企業,都開始涉足AI大模型的相關研究。
但中國第一波AI大模型的“涌現”卻是在兩年之后。
2021年,曾任職過微軟亞洲工程院院長、后被雷軍親自邀請到金山接替求伯君任CEO的張宏江,牽頭成立的智源研究院發布“悟道1.0”,包括國內首個面向中文的NLP大模型、首個中文通用圖文多模態大模型和首個具有認知能力的超大規模預訓練的模型等等。
智源成立于2018年,也就是OpenAI發布GPT-1.0的前五個月,作為北京市和科技部牽頭成立,并集合學界和頭部科技企業資源的研究機構,智源其實是中國早期探索AI大模型的一個代表。
可以說,“悟道1.0”其實為中國后來所有AI大模型的一個樣本。除此之外,智源研究院還為中國構建了大規模預訓練模型技術體系,并建設開放了全球最大中文語料數據庫WuDaoCorpora,為后來其他企業發展AI大模型打下了基礎。
也正是在“悟道1.0”之后,中國大模型開始出現井噴的狀態。
2021年,華為基于昇騰AI與鵬城實驗室聯合發布了鵬程盤古大模型。2022年,阿里發布了“通義”大模型系列,騰訊發布混元AI大模型......
在中國AI大模型如雨后春筍般涌現的同時,國外的AI大模型也走到了從量變到質變的節點。
2022年11月,OpenAI發布了基于GPT-3.5的ChatGPT,徹底打開了人工智能的魔盒,然后就是席卷全球的AI 2.0浪潮。
事實上,如果以2018年GPT-1發布為節點,中國的AI大模型的發展與國外的發展脈絡一直都亦步亦趨,但ChatGPT為什么并沒有出現在中國?
這其實和國內外AI大模型兩種不同的發展路徑有關。
從目前國外具有代表性的AI大模型產品來看,比如ChatGPT、Midjourney、Notion AI或者Stable diffusion等等,都是以C端用戶為基礎的產品。
而反觀國內,目前大模型的主要應用場景的都在B端。
比如阿里的“通義”大模型的典型應用場景包括電商跨模態搜索、AI輔助設計、開放域人機對話、法律文書學習、醫療文本理解等等,而騰訊的HunYuan-NLP-1T大模型則應用在騰訊廣告、搜索、對話等內部產品落地,或者像商湯的大模型,為自動駕駛、機器人等通用場景任務提供感知和理解能力支持。
之所以選擇To B,一個重要的原因是,B端能夠更容易進行商業化。
To B的行業特點導致中國的AI大模型并不需要做到非常大的參數規模,甚至于當ChatGPT出來之后,國內的公司討論的一個重要方向,是如何將已有的大模型規模“做小”,應用到具體的行業上。
所以中國采用谷歌BERT路線的AI大模型會比較多,以更小的參數,做更有效率,更適合垂類的場景。
所以某種程度上,從出生的第一天,中國大模型就帶著商業化的任務。

而國外To C的大模型則不同,如ChatGPT的用戶在短短兩個月就達到一億,其底層預訓練大模型GPT-3.5作為通用大模型,“大”成為參數的一個基本要求。
這在某種程度上促進OpenAI不停為GPT增加參數,然后激發更強大的“涌現”現象,最終實現“大力出奇跡”的ChatGPT。
因此,To B和To C兩種完全不一樣的發展路徑,也將中國和美國的AI大模型引向了兩種完全不同的發展方向。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 特斯拉Optimus Gen3量產在即,哪些環節最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 4 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 5 Tesla AI5芯片最新進展總結
- 6 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 7 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 8 2026,人形機器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 10 AI Infra產業鏈卡在哪里了?


分享













