不必神化ChatGPT,它很牛,但中外差距沒那么大
02 中美差距沒那么大
從硅谷到中國,ChatGPT的熱度有增無減。
畢竟一直以來,關鍵的技術革新都發生在硅谷,這兩年中國尖端技術又一直面臨卡脖子的問題。所以在ChatGPT出現之后,大家最關心的還是當國外技術已經開始商業化落地的時候,國內的進度到底如何,差距又有多少?
2月7日,百度對外公布了自家類ChatGPT產品的名稱“文心一言”,英文名叫ERNIE BOT,目前,文心一言正在做上線前的沖刺。
“文心一言”一經透露,便迅速登上各大平臺熱搜,百度股價一度漲超17%,市值增長約700億港元。很明顯,市場對于一個中國版的ChatGPT已經期待太久。
之前,有觀點認為國內外差距大概在兩年左右。但云知聲研發副總裁劉升平認為,實際上的差距可能沒有這么遠。兩年的說法是因為GPT-3是在兩年前公布的,但其實自GPT-3發布之后,國內許多企業就已經跟進在做類似的大模型了。“實際差距并沒有那么大,大概在一年左右。”
小冰公司CEO李笛也向光錐智能提到:“國內人工智能技術不像芯片、操作系統一樣落后于國外,相反它應該是最接近國際的。”
“國內外的差距主要是一種思維上的差距。”李笛認為,國內對技術創新這件事鼓勵得不夠充分,如果一個公司耐得住寂寞,那它無論在哪個方向都是OK的。
事實上,國內大廠基本都具備訓練大模型的能力。比如百度這次發布的文心一言,就和百度文心大模型一脈相承。
百度在發布文心一言名字的時候還特意提到,在人工智能四層構架中有全棧布局,包括底層芯片、深度學習框架,大模型以及最上層的搜索等應用。擁有產業級知識增強文心大模型ERNIE,具備跨模態、跨語言的深度語言語義理解與生成能力。
同樣的,騰訊也有類似混元AI大模型,在此基礎上,騰訊推出了HunYuan-NLP 1T大模型并一度登頂國內最權威的自然語言理解任務榜單CLUE。此外,像阿里有“通義”大模型,華為有盤古大模型,國家隊中科院自動化研究所有“紫東·太初”等等。

簡單來說,國內大廠基本都有做NLP預訓練模型的能力,甚至許多專業能力還處在世界領先的水平。
比如騰訊的混元大模型在2022年11月公布了一項最新進展,它們實現萬億級NLP模型,可以用256張卡,最快1天內完成訓練,成本相比原來降低1/8。
作為對比,ChatGPT訓練一次的成本高達1千萬美元,這是一般企業無法承受的。小冰公司CEO李笛算過一筆賬:“如果按照ChatGPT成本來考量的話,每天我要燒3億人民幣,一年要燒一千多億。”
而騰訊通過課程學習、MOE路由算法、模型結構等方式優化之后,讓更多企業能夠承擔得起訓練自己的NLP模型的成本。
除此之外,像在專利儲備上,根據statista2021年的數據,百度和騰訊都名列世界前列。

另一方面,就ChatGPT而言,它的技術原理并不新鮮。
Yann LeCun提到:“就底層技術而言,ChatGPT并不是特別創新的,它不是革命性的,盡管這是公眾對它的看法。”他指出,除了谷歌和Meta,還有6家初創公司基本上擁有與它非常相似的技術。ChatGPT是一項集體努力,因為它匯集了多方多年來開發的多項技術。
李笛也提到,大模型對應的技術理念已經誕生好幾年,無論是國內還是國外,使用這種技術理念訓練出來的大模型已經很多,只是在具體fine tune(微調)的過程中專注的領域有所不同。
做個不恰當的比喻,ChatGPT就像原子彈一樣,它的原理已經被寫在了教科書里,而大多數國家仍然無法實現,更多是因為工程性的問題。比如千億規模的數據從哪里來?如何進行數據標注,具體標注哪些數據,標注多少,這些數據又如何進行組織訓練等等。
而這些問題也都沒有在OpenAI的論文中得到公布,需要企業在自己的模型訓練中去嘗試和摸索,然后形成經驗,積累成自己的know-how。
03 不要神化ChatGPT
雖然在底層技術上,國內外其實并沒有想象中那么大的差距。但當大家看到國外如火如荼的技術落地時,也會擔心國內在這方面掉隊。
對于ChatGPT這樣技術邏輯清晰的產品而言,慢一點并不影響結果。但如果產品差,則表現在具體工程問題的解決能力上,這些部分要摸索,要踩坑,要形成經驗都需要漫長的時間,這背后反映的是技術水平的問題。
相比于歐美以英文為主的語言環境,中文是表意文字,在抽象概括和邏輯能力上天生不及英文。除此之外,國內互聯網的語料也相對缺乏,沒有英文互聯網那么大的數據積累。
所以有業內人士表示,對目前國內的類ChatGPT產品發展而言,重要的不是模型,而是數據。
“自然語言處理需要經過一個非常嚴密的推理過程。”李笛提到:“大模型某種意義上代表一種暴力,即把大量的數據壓縮到一個黑盒里面,然后提取出來,這意味著大家在算力有一定保障的前提下,可以有機會用之前沒有用過的方法去完成。”
另一方面,ChatGPT確實是革命性的存在,但卻并不代表它就是今后NLP領域的唯一方向。
首先是ChatGPT的技術發展,今天最主要的技術在于,一個模型建壓好之后,如何從里面很好地提取數據,目前還有很多新方法沒有嘗試,所以不排除未來用更小的模型達到很好效果的可能。
李笛提到,現在整個行業都在追求這種可能,因為模型參數太大,一定意味著成本非常高,以及各種各樣的其他問題。“今天技術差異還遠遠沒有達到成為不同技術流派的程度,也還遠遠沒有到說就按應用場景去劃分這樣一個程度。”
其次是從整個NLP的技術路線來看,目前主要有兩種主流技術路線,分別是以谷歌BERT為代表的雙向預訓練語言模型+fine-tuning(微調),和以OpenAI的GPT為代表的自回歸預訓練語言模型+Prompting(指示/提示)。
在ChatGPT發布之前,BERT一直是業內主流的技術方案,它之所以被ChatGPT搶了風頭,是因為它無法像GPT一樣用一個模型解決所有問題,沒有表現出通用型人工智能的潛力。
但實際上,BERT在許多具體的場景下擁有優勢,比如在特定場景下,BERT可以用更小的數據量(ChatGPT是在3000億單詞的語料基礎上預訓練出的擁有1750億參數的模型),更低的訓練成本實現同樣的性能。
比如在醫院內部這樣一個特定場景,一方面它用不起千億規模的模型,ChatGPT在醫院場景就屬于殺雞用牛刀,醫院也無法負擔部署ChatGPT的成本。另一方面,ChatGPT的模型是基于公開數據訓練的,但醫院的數據并不存在公共網絡上,所以面對醫院的問題,ChatGPT可能無能為力。
但BERT卻能夠適應這樣的場景,它可以以更小的數據量,更低的成本,針對醫院的數據和場景針對性地訓練出的模型,在解決具體問題上比ChatGPT更加得心應手。
這其實就是一個所有領域都涉獵的全能型選手和深耕特定領域的專家之間的區別。即在數據確定的特定場景,BERT更有優勢。而在沒有明確數據和目標,面向開放式的應用場景,ChatGPT則更合適。
當然,具體到國內企業的商業化來說,大模型需要大量的數據,高昂的訓練成本,這些都不是一般企業能夠承擔的,因此它注定了是巨頭的游戲。
在騰訊研究院近期發布的《AIGC發展趨勢2023》報告中就梳理了目前AIGC產業生態體系的三層構架,包括以預訓練模型為主的基礎層;以垂直化、場景化、個性化模型為主的中間層;和以圖像、語音、文字生成等具體AIGC應用為主的應用層。

圖:騰訊研究院《AIGC發展趨勢2023》
其中,如百度、騰訊、OpenAI這樣的大公司將專注于做預訓練模型,對這些企業來說,他們一方面能夠將大模型的能力整合到自己的產品線中,直接面向廣大的用戶;另一方面又能夠通過API為中小企業提供能力調用,在具體場景中落地。
面對這樣的生態架構,一位知名機構投資人在考察過硅谷的ChatGPT項目后向光錐智能表示:“創業公司的機會在于,在開源技術的基礎上,做具體的應用場景。尤其是可以把幾種具體技術結合在一起,比如數字人和ChatGPT結合,自動生成視頻,用于金融、客服等特定場景下的應用。”
但這也會面臨一些問題,即如果大家都調用同一個模型的能力,又落地在同一個細分場景,那必然會面臨同質化的問題。
所以劉升平認為:“ChatGPT適合創業公司進入市場初期的冷啟動,即通過ChatGPT提供服務,然后逐步積累數據,待有了一定數據積累之后再利用BERT訓練專用模型,以此來建立自己的技術壁壘和護城河,同時也提供差異化的服務,和同行拉開差距。”
所以,無論是從技術,還是從商業化的角度而言,ChatGPT和BERT從來不是一個非此即彼的問題,而是一個術業有專攻的問題。
此外,劉升平也提到,對于中小公司而言,如果沒有能力去研發類似ChatGPT的通用大模型,那也可以考慮研發類似ChatGPT的行業版模型,用更少的參數量,更多的行業數據,在行業問題上達到或超過ChatGPT的效果。
“我認為到目前為止,人工智能在To C和To B上尚未出現一個放之四海而皆準的商業模式。”
李笛提到,AI現在還出其實還處在一個相對比較早期,甚至可以稱之為蠻荒時代,很多理念都還處在特別特別原始的狀態,所以可能每年我們回顧過去,都會覺得在顛覆自己。
“就像前幾年NIIPS大會上有人開玩笑說過的大模型煉丹,現在的大模型就像大家拿到了一個好的玩具,但不知道這個玩具還能吐出什么令人驚訝的東西。”
在2016年,AlphaGo擊敗李世石時,我們也曾以為AI時代已經來臨,它會在許多領域將人類替代掉,我們也曾為此恐慌和興奮,但實際上如今將近10年過去了,AlphaGo并沒有改變世界,甚至沒有改變任何人。
所以,何妨讓子彈再飛一會兒呢?
原文標題 : 不必神化ChatGPT,它很牛,但中外差距沒那么大
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













