免费久久国产&夜夜毛片&亚洲最大无码中文字幕&国产成人无码免费视频之奶水&吴家丽查理三级做爰&国产日本亚欧在线观看

訂閱
糾錯
加入自媒體

她曾掌舵OpenAI技術,如今要顛覆OpenAI的規則

2026-05-13 14:37
硅基星芒
關注

圖片

恕我直言,今天你跟AI的交流,跟對講機沒什么區別。

輸入,發送,它開始思考。你盯著屏幕,等幾秒,甚至幾分鐘。然后它吐出一大段文字。你讀完,再輸入下一條。

如果人機交互永遠停留在這個方式,AGI不會到來。

因為人類協作從來不是回合制的。兩個人面對面吵架,語氣、表情、停頓、搶話,信息在每一個毫秒里流動。這才是真實的帶寬。

有一家公司正在改寫這個規則。它叫Thinking Machines Lab,創始人Mira Murati,前OpenAI首席技術官。她的目標與老東家不同:OpenAI做頂級閉源模型,她做人類與AI的協作。

要協作,先掀翻回合制。

昨天,TML發布了TML-Interaction-Small。名字叫Small,參數2760億,是行業內第一個原生支持實時、多模態人機協作的大模型。0.4秒響應延遲,無需喚醒的視覺主動介入,聽、看、想、說四個動作同步。

在智能和交互的基準測試中,它雙雙登頂。部分競品連參賽資格都沒有。

大模型下半場的戰役,已經從算力與參數的堆砌,演變為機器情商與交互本能的革命。

01

外掛是一條死路

回想一下,為什么面對面吵架比發郵件高效?

郵件是回合制的。你寫一段,我回一段。中間隔著思考和打字的時間,情緒、表情、語氣全部丟失。面對面不同。我還沒說完,你就打斷;我剛皺眉,你就調整說辭。信息的交換是并行的、連續的、雙向的。

當前的AI,包括OpenAI和Anthropic的旗艦產品,本質上都是郵件模式。

TML的技術報告里給這種現象起了個名字:單線程現實感知。用戶說完之前,AI處于“五感消失”狀態。它聽不到你的語氣,看不到你的表情,不知道你停頓是因為猶豫還是因為喘氣。它生成回答的過程中,感知同樣被凍結。除非你強行打斷,否則它就像一臺背誦錄音機,從頭放到尾。

這套機制的根源在于架構。現有的多模態AI,絕大部分是外掛縫合的。語音活動檢測模塊判斷用戶是否說完,語音識別模塊把聲音轉成文字,大語言模型思考,語音合成模塊把文字讀出來。級聯,串行,每一步都增加延遲,每一步都丟失信息。

強化學習之父Rich Sutton在《The Bitter Lesson》里說過一句話,TML把它貼在報告里:所有依賴人類手工設計的復雜外掛系統,最終都會被底層模型通過暴力計算和統一架構降維打擊。

翻譯成人話:外掛沒有未來。真正的交互能力,必須長在模型身體里,像呼吸一樣自然。從提示詞驅動,升級為伴隨式協作。

02

雙向奔赴的無縫交互

說起來簡單,做起來難。要在技術底層徹底打破“回合制”的束縛,難度無異于給天上的飛機更換引擎。

TML-Interaction-Small(以下簡稱TML-Small)之所以能做到聽、看、想、說四個動作的同步,源于底層架構的四個易于理解的顛覆性創新:

1.時間對齊的微輪轉

這就是TML架構中最有想象力的核心。

傳統的Transformer架構把輸入和輸出的信息流都壓縮成了一個有序的token序列。但文字與音頻和視頻包含的信息量和復雜程度截然不同,不能被簡單地劃分到同一個維度之中,因此TML-Small將現實世界的連續音視頻流都切分成了每200毫秒一個的“微輪轉”。

在這個200毫秒的微小切片之內,模型同時接收輸入并生成輸出。它無需等待用戶完成整個交互過程,只需要用這種高頻碎片化的方式就可以持續不斷地與用戶進行雙向的信息交換。

這種類似微積分的處理方式有效地打破了人為設置的“回合邊界”,模型也能夠自然地聽懂人們說話時喘氣帶來的停頓和話語權的交接。當前音頻模型主要的應用場景“同聲傳譯”即可由此實現。

2.無編碼器的早期融合

告別了“縫合怪”,TML也實現了極致的早期融合。

由于堅信外掛的模塊不是通往AGI的正確道路,這款新模型沒有采用龐大的獨立語音識別系統或視覺編碼模型。

音頻被直接轉化為dMel信號,視頻畫面被切分為40×40像素的微小圖塊并經過輕量級的MLP網絡處理,隨后這些音視頻的原始切片就會和文本一起送入同一個Transformer架構之中。

所有組件都從零開始聯合訓練,就是TML-Small能夠做到零損耗和無時差的原生多模態感知的秘訣。

3.前臺交互+后臺思考的雙軌系統

性能、速度和成本,全球的AI企業都在費盡心思試圖突破這個不可能三角的邊界。很多端到端的語音大模型為了追求毫秒級的延遲,往往只能做簡單的閑聊,也就是只能做一些簡單的翻譯,一旦遇到復雜的數學推理或是編程直接崩潰。

TML給出了一種優雅的架構解法:雙軌并行。

交互模型始終駐留前臺,保持實時在線,和人類企業的前臺服務人員一樣負責察言觀色、快速回應、穩住場面。

一旦遇到需要深思熟慮、調用搜索、使用工具的復雜任務時,前臺就會將豐富的上下文打包給后臺進行異步處理。

4.2760億參數的算力經濟學與底層工程

如此高頻的交互,必然會帶來致命的算力成本壓力。好在,TML-Small并非浪得虛名,作為一個276B參數的混合專家(MoE)模型,每次推理時的活躍參數僅有12B。

同時,為了應對海量200毫秒級別的碎片產生的推理開銷,TML團隊也學習國產AI企業深入底層,開發了流式會話(Streaming sessions)技術。通過在GPU內存中持久化保留序列能夠避免頻繁的內存重新分配,這套優化方案也已經貢獻給了開源框架SGLang。

03

競品連考場都進不去

榜單上的數據讓人沉默。

在“智能與交互質量”的綜合評估中,TML-Small同時占據高智商和快響應兩個角落的頂點。在交互延遲測試中,它跑出0.40秒,比OpenAI和Google的最新實時模型還快,接近人類本能反應的極限。

但真正讓人震撼的是另外兩件事。

第一件,TML被迫創建了全新的評測維度。因為現有的商業模型,在這些任務上的得分基本都是零。測試很簡單:用戶要求每4秒提醒一次深呼吸。TML-Small準確率超過60%。其它模型陷入沉默。它們沒有時間觀念。

第二件,主動視覺測試。傳統的語音助手必須聽到喚醒詞才看一眼屏幕。TML-Small主動盯著屏幕,用戶完成目標時主動插話提示。沒有喚醒,沒有外掛,AI第一次真正長出了眼睛,擁有了時間。

04

帶寬躍遷之后的世界

一旦AI突破了回合制的協作帶寬瓶頸,它就不再是一個屏幕里的文本生成器。幾個行業的商業邏輯將被重寫。

數字員工的定義要改了,F在的AI客服只會照本宣科。你語氣變了,它聽不出來;你皺眉了,它看不見。換成一個擁有TML能力的數字員工,它能在你不耐煩之前主動停掉冗長的回答,能在你猶豫時補充信息。客服、銷售、咨詢,這些依賴人類情緒識別的行業,將迎來一次范圍打擊。

空間計算和下一代游戲也會變。蘋果Vision Pro被詬病“缺乏靈魂”,缺的就是一個實時伴隨的智能體。TML驅動的AR眼鏡,智能體和你看到同樣的景象,能做危險提示,能同聲傳譯。游戲里的NPC不用再呆呆地站在固定位置,它們有時間觀念,能主動互動,徹底擺脫腳本。

具身智能終于有了大腦。自動駕駛和機器人面對的世界沒有暫停鍵。傳統大模型“等你說完我再思考”的模式,對機器人來說是致命的卡頓。TML每200毫秒處理一次的機制,恰好匹配機器人底層“感知—決策—控制”的循環。這是現階段的最優解,也是唯一解。

05

結語

TML在報告結尾坦承了局限:超長會話的上下文管理、對優質網絡的依賴。但更大規模的模型將在今年晚些時候推出。

過去三年,行業拼命堆砌參數,讓AI寫更復雜的代碼、解更難的數學題。有一件事正在被淡忘:

人類文明的偉大,不僅有個體的靈光一現,還有協作與溝通的本能。

當人類試圖打造AGI時,讓機器懂得如何與人類同頻呼吸、無縫交流,遠比讓它變得更聰明更加重要。

對講機時代應該結束了。

       原文標題 : 她曾掌舵OpenAI技術,如今要顛覆OpenAI的規則

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號