聊聊大模型推理系統之 BlendServe:通過資源感知批處理策略,最大化硬件資源利用率和推理吞吐量
作者:InternLM、Qwen 等 LLM
全文約 2600 字,預計閱讀 7 分鐘
近年來,大型語言模型(LLM)的廣泛應用推動了推理服務系統的不斷優化。然而,在離線批量推理場景中,如何平衡計算資源利用效率和性能仍是一個亟待解決的問題。
因此,今天我們來聊聊加州大學伯克利分校、華盛頓大學等團隊聯合提出的一種名為BlendServe的系統,通過創新的資源感知批處理策略,顯著提升了硬件利用率與推理吞吐量。本文將帶您快速了解這項研究的核心亮點、背景、方法創新及行業意義。

核心看點
BlendServe的核心目標是通過重新排序和重疊請求來最大化硬件資源利用率,同時保持高前綴共享率。實驗表明,該系統在多種合成多模態工作負載下表現出色:
吞吐量提升:相比現有的行業標準(如vLLM和SGLang),BlendServe實現了高達1.44 倍的吞吐量加速。資源重疊優化:通過資源感知前綴樹的設計,系統能夠有效結合計算密集型和內存密集型請求,實現資源調度的最佳平衡。前綴共享保持:即使在優化資源使用的同時,BlendServe仍能保持接近最優的前綴共享率(超過 97% )。通用性強:無論是文本生成、視頻理解還是多模態任務,BlendServe均展現出穩定的性能優勢。
這些突破為離線推理任務提供了全新的解決方案,特別是在大規模多模態數據處理中具有重要應用價值。
研究背景
在傳統的在線推理服務中,低延遲是首要目標,因此系統設計通常采用嚴格的“先到先服務”策略(FCFS)。然而,在離線批量推理場景中,延遲要求相對寬松,這為更靈活的請求調度和資源優化提供了可能。近年來,隨著Transformer架構的普及,模型的輸入輸出長度變得更加多樣化,例如長上下文推理(如Tree of Thoughts)、復雜推理鏈路(如Chain of Thought)以及多模態擴展(如LWM、Unified-IO等)。
這種多樣性帶來了新的挑戰:一方面,不同請求對計算資源(如 GPU 算力)和內存帶寬的需求差異顯著;另一方面,現有技術(如NanoFlow)雖然嘗試通過操作級重疊優化資源使用,但忽略了請求間的資源互補性,導致整體性能受限。因此,如何在離線推理中實現高效資源調度成為了一個關鍵問題。
BlendServe正是從這一痛點切入,提出了一種兼顧資源重疊和前綴共享的全新調度方法,從而在保證高吞吐量的同時降低推理成本。
核心貢獻

方法創新:資源感知前綴樹
為了實現資源調度的全局優化,BlendServe引入了一種新穎的資源感知前綴樹結構。這一結構不僅能夠捕獲請求之間的前綴共享關系,還能通過節點的計算密度值量化其資源需求特性。具體而言:
計算密度定義:計算密度(ρ(r))是計算時間與內存綁定操作時間的比值。通過這一指標,系統能夠區分計算密集型和內存密集型請求,并將其分別排列在樹的左側和右側。雙掃描算法:在排序后的前綴樹上,BlendServe采用一種啟發式雙掃描算法,從左至右和從右至左同時掃描葉子節點,動態構建混合型請求批次。這種方法確保了計算與內存資源的均衡使用,同時保留了高前綴共享率。
實驗結果表明,相較于僅依賴深度優先搜索(DFS)的傳統方法,BlendServe在吞吐量上平均提升了 20.84% (基準:NanoFlow-DFS)。
理論突破:前綴共享與資源重疊的權衡
傳統方法通常在前綴共享和資源重疊之間存在權衡:追求高前綴共享率可能導致資源分配不均,而單純優化資源重疊則可能犧牲前綴共享帶來的性能增益。BlendServe通過理論建模解決了這一問題:
首先,系統基于計算密度對請求進行分層排序,確保計算密集型和內存密集型請求的分布均勻。其次,通過動態調整 GPU 內存分區,系統能夠在每個批次內實現最佳資源重疊比例(即計算密度接近 1),從而最大化硬件利用率。
在實際測試中,BlendServe達到了 86.55% 的理論最優吞吐量,顯著優于現有基線。

實證成果:廣泛適用的性能提升

研究團隊在多個合成工作負載上驗證了BlendServe的性能,包括WildChat、ShareGPT、Azure-Trace和OpenVid等代表性數據集。結果顯示:
在高前綴共享率場景下,系統性能穩定,吞吐量提升幅度達 19.34%-22.65% 。在低前綴共享率場景下,系統仍能通過高效的資源重疊策略實現 14%-34% 的性能提升。
此外,BlendServe的靈活性使其適用于分布式環境,能夠輕松擴展至多 GPU 或多節點部署,契合當前大規模推理服務的發展趨勢。
行業意義
BlendServe的研究成果不僅為離線推理任務提供了全新的思路,還對整個 AI 推理服務領域產生了深遠影響:
推動多模態推理發展:隨著多模態模型(如EMU、VILA-U)的興起,推理系統需要處理更加復雜的資源需求。BlendServe的資源感知機制為這類任務提供了高效解決方案,有助于進一步降低計算成本。契合綠色計算趨勢:通過提高硬件利用率,BlendServe能夠顯著減少推理任務的能耗,符合碳中和政策導向,助力綠色數據中心建設。引領技術變革:該研究為未來的推理系統設計提供了重要參考,特別是在分布式環境下的資源調度優化方面,有望推動新一代推理框架的誕生。結語
BlendServe以其獨特的資源感知批處理策略,成功突破了離線推理中的資源調度瓶頸,為多模態任務和大規模推理服務帶來了顯著的性能提升。未來,隨著更多應用場景的落地,這一技術有望成為 AI 推理領域的核心工具之一,為行業帶來更大的變革力量。
???? 論文鏈接:
https://arxiv.org/abs/2411.16102
第一作者Yilong Zhao和Shuo Yang深耕AI 系統優化領域多年,曾參與多項高性能計算與機器學習系統的研究項目。本研究得到了加州大學伯克利分校、華盛頓大學以及 xAI 實驗室的聯合支持。
-- 完 --
原文標題 : 聊聊大模型推理系統之 BlendServe:通過資源感知批處理策略,最大化硬件資源利用率和推理吞吐量
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 特斯拉Optimus Gen3量產在即,哪些環節最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 4 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 5 Tesla AI5芯片最新進展總結
- 6 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 7 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 8 2026,人形機器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 10 AI Infra產業鏈卡在哪里了?


分享













