WPS為AI裝上“智能解析大腦”

文|唐辰 圖源:WPS官網
WPS派來的猴子,讓復雜文檔解析有救了!
人工智能進入大模型時代后,哪一個方向是最炙手可熱、競爭最為激烈的賽道?
答案可能不唯一,但利用多模態大模型進行文檔智能解析絕對算一個。
自2025年6月以來,僅僅半年時間,各大科技公司、初創企業或研究機構紛紛下場,發布了一系列突破性模型,掀起了一場“解析革命”。
包括MinerU、PaddleOCR、DeepSeek-OCR、Chandra等在內的十余款新型文檔解析模型相繼問世,覆蓋了OCR、結構化提取、版面分析等多個維度。
圖注:2025年6月起,十余款多模態文檔解析模型先后發布
這些模型不再局限于傳統的字符識別,而是深度融合視覺與語言的多模態能力,實現了對復雜文檔,如PDF、掃描件、表格、發票的語義級理解與結構化輸出。
其中,金山辦公聯合華中科技大學在近期發布的MonkeyOCR v1.5,成為這一領域的最新技術進展。
這是一個全新的統一視覺語言文檔解析框架。從其英文名字看,它稱得上是金山辦公為解決復雜文檔智能解析難題派出的“猴子救兵”。
在全球權威文檔解析評測榜單OmniDocBench v1.5中,它拿下93.01分的成績,獲得綜合性能全球第一,成為多模態文檔解析領域的新標桿。
多模態時代的“復雜文檔智能感知系統”
OCR(Optical Character Recognition,光學字符識別)技術是最早讓機器理解文字、看懂文字的技術之一。它的核心任務是將圖像中的文字,轉化為可編輯、可檢索的文本。
比如在掃描文檔、票據識別錄入、街景招牌識別,以及Google翻譯的實時攝像頭翻譯功能為代表的翻譯與語言輔助系統等場景的應用。
OCR技術極大簡便了機器識別文字、處理文檔的工作,大家只需要拍個照片,或者直接掃描文檔,就能把文字、表格、網頁等信息提取出來。這也推動了信息數字化的浪潮,成為“無紙化辦公”和“自動化文檔處理”的基石。
從OCR技術的發展歷程看,可以拆分為OCR1.0和OCR2.0階段。
OCR 1.0 主要基于CNN(卷積神經網絡)與LSTM(長短期記憶網絡)結合的深度學習模型,例如CRNN、CTC等經典架構。其系統通常由文字檢測和文字識別獨立模塊構成,前者定位圖像中的文本區域,后者將文本區域轉換為具體文本內容。
這一階段的OCR技術解決了“機器識字”的基本問題。但它有一個根本性的局限:能識別字符寫的是什么,無法理解圖像中的語義關系。比如,它分不清楚一段文字是標題、表格數據,還是公式的一部分。
隨著辦公場景日益復雜,傳統OCR僅能檢測和識別文字已無法滿足需求。現代文檔處理需要模型能夠理解文檔的布局結構,準確表達各元素間的邏輯關系,并能高精度提取文本、公式及表格等結構化信息。
為此,新一代OCR技術應運而生。以MinerU2.5、PaddleOCR-VL、Dots.OCR為代表的多模態模型和解析方案,實現了從“文本識別”到“文檔理解”的跨越。這些技術不再僅僅返回文本,而是能夠輸出Markdown、JSON、HTML等結構化格式,讓我們從“看文字”升級為“讀文檔”。
其中,2023年大模型爆發是一個新的轉折點,徹底改變了深度學習的格局。以GPT-4V、Gemini、Qwen-VL、InternVL 為代表的視覺語言模型(Vision-Language Model,VLM),讓人工智能真正具備了“同時理解文字與圖像”的能力。
這意味著,OCR2.0模型既能“看圖識字”,又能“看圖明意”。它能讀懂論文PDF、解析圖表,甚至能夠理解圖表。
如果說LLM (大語言模型)是“大腦”,那么OCR就是“視覺皮層”,或者說是智能感知系統。它決定了 AI 能“看到”什么,進而“理解”什么。
OCR階段,模型或者產品的識別與理解能力不足,也會動搖多模態RAG(檢索增強生成)系統的“知識理解”的根基。
可以理解為,OCR是辦公環境中數據孤島之間的鏈接器,只有高效、準確的打通數據轉化壁壘,才能真正把數據變成AI能夠理解的企業知識,進而為多模態RAG(檢索增強生成)技術提供高質量的“數據燃料”。
圖注:MonkeyOCR v1.5突破多模態文檔解析性能上限(點擊看大圖)
換句話說,在OCR 1.0時代,模型主要實現的是“文字掃描”:它能看到PDF中的文字,但僅限于識別“這些字是什么”。而進入OCR 2.0階段,模型已能實現語義級解析、結構級還原、視覺語義融合與深層內容理解。
其角色也發生了根本性躍遷:從單純的“輸入預處理工具”,升級為“知識理解的起點”,成為一個真正的“文檔理解器”。
需要補充的是,當前主流的視覺語言模型(VLM),如Qwen-VL、InternVL、Gemma等,雖然參數量大、通用性強,但在結構化多模態信息提取、高精度大尺寸文檔解析、輕量化部署等專業場景中,往往難以直接勝任。
而經過文檔理解任務專門優化的OCR 2.0模型(如DeepSeek-OCR、PaddleOCR-VL),在文檔圖像實體檢測、版面分析、信息結構化輸出及PDF-MarkDown轉換等核心任務上表現更為優異,實現了效率與精度的更優平衡。
例如,新版PaddleOCR 已明確將“通用文字識別”(OCR 1.0)與“通用文檔解析”(OCR 2.0)劃分為兩個獨立模塊。
MonkeyOCR v1.5,正是這一演進路徑上的新代表作。它在全能多模態文檔解析基準OmniDocBench v1.5,OCRFlux-bench上,全面超越MinerU 2.5、PPOCR-VL、DeepSeek-OCR等此前最優方法,尤其在復雜表格場景中,相較于此前表現最好的MinerU2.5,效果提升近2.5%
可以說,MonkeyOCR v1.5是多模態時代的“復雜文檔智能感知系統”。它不是傳統 OCR 的升級版,而是邁向“文檔理解”的關鍵一步。
甚至可以說,MonkeyOCR v1.5開啟了OCR2.0+時代,將OCR推進到多模態智能系統的核心感知入口的高度,成為連接物理文檔與數字智能的關鍵橋梁,完成從工具到智能信息平臺乃至智能解析大腦的蛻變。
“猴子的救兵”有哪些本領
相比傳統OCR技術只能識別文字,無法理解上下文關系,無法把一份復雜的學術PDF轉化為層次清晰的結構化信息。MonkeyOCR能準確理解復雜布局文檔中各元素的邏輯位置和符合人類閱讀偏好的閱讀順序。
同時可以精準識別文本、公式、表格等關鍵元素的信息,甚至能無損還原內嵌圖片的表格,以及跨越多頁或者多欄的表格。
在實際應用中,高校科研人員借助其批量解析論文,將20篇文獻的數據整理時間從2天壓縮至5分鐘;商業場景里,將一份跨越多頁、含有產品插圖的商品目錄表格,無損地還原為一個完整的結構化數據等;
而自動化業務流程里,企業內部文檔處理,如合同、報表、發票等,實現數據自動提取和結構化,提高效率,減少人工干預。
MonkeyOCR v1.5具備這樣的智能解析能力,源于其核心設計理念:將全局的結構理解與細粒度的內容識別高效解耦,并在最關鍵、最復雜的環節引入創新性的智能算法。
為此,它創新地將解析流程簡化為兩個清晰、輕量的階段:
第一階段:給AI 戴上“全局掃描鏡”。MonkeyOCR v1.5模型先預測文檔布局和閱讀順序,像文本、表格、公式位置等,確保AI 不會像盲人摸象般碎片化閱讀,而是從全局掌握信息脈絡,也從源頭上減少錯誤。
第二階段:局部“精加工”。根據一階段檢測結果并行地裁剪,由同一個VLM識別對應區域塊內容,再根據一階段的閱讀順序重新組合,最終還原出完整結構。
其運作邏輯是,系統將檢測到的區域塊(patch)剪裁出來,針對文本、公式、表格進行并行識別,這種“先定位、再細看”的策略兼顧了效率與精度,既看得準,也認得對。
MonkeyOCR v1.5針對復雜文檔解析還有一大殺手锏:圖像解耦技術。面對表格中嵌入圖片的干擾,模型會像戴上一副“偏光鏡”,先遮住干擾圖像并用占位符替代,讓 AI 專注于解析純文本表格骨架,最后再將圖片精準貼回 。
這種創新的兩階段架構以及針對嵌入圖像、跨頁表格的專用模塊,完美解決了復雜文檔中的噪聲干擾,避免表格還原時誤將圖片內容作為單元格內容識別,同時內嵌圖像模型和表格識別模型可分離,實現任務上的解耦。
這樣來看,MonkeyOCR v1.5 不是“又一個OCR”,它就像是給模型戴上了一副“偏光鏡”,自動濾掉干擾表格結構的圖片噪聲,只看骨架,從而能夠成為針對高價值復雜文檔打造的垂類智能解析引擎。
MonkeyOCR v1.5的范式意義
如果說圖片生成是AI 的“創作之筆”,那么對復雜文檔的解析則是 AI 的“深度閱讀之眼”。這正是WPS「原生+智能體」思路的落地。背后是金山辦公基于自身場景優勢,聚焦打磨更適于應用落地的AI模型的理念。
這是因為,在未來的AI時代,真正能大規模落地、產生實際價值的,未必是參數龐大、算力需求高的通用大模型,那些輕量、快速、垂直、適合本地或移動端部署的專用模型,即垂直AI模型,同樣可以在其擅長的領域發揮巨大效能。
正如不少評測以及用戶反饋所評價,MonkeyOCR v1.5是復雜文檔智能解析領域的一個重要里程碑。它不僅在技術上實現了多項創新,打開OCR2.0+的新局面。
更關鍵是的是,它提供了一個新的OCR技術思路:通過創新的輕量級、本地化兩階段VLM設計、視覺一致性強化學習以及針對性的模塊化決方案,可以在復雜文檔智能解析上,實現準確性、效率和實用性的最佳平衡。
在辦公這一高頻、高價值場景打磨世界級模型,并使其成為AI時代新協同辦公范式。
但MonkeyOCR v1.5并不是一個炫技的垂直AI模型。盡管我們身處AI大模型時代,但大量的關鍵信息仍以PDF、掃描件、紙質檔案形式存在,比如科研論文、法律合同、醫療記錄、工程圖紙、政府公文等等。
如果我們無法高效、精準地將其轉化為結構化知識,無法理解復雜表格、圖片信息,AI 就如同“睜眼瞎”。OCR技術的發展,除了對文檔“識別得更準”,其也在改變人、機器與文檔的交互方式。
對金山辦公而言,MonkeyOCR v1.5 的意義遠不只是一個更強的插件。正如金山辦公CEO 章慶元所言,AI 時代的辦公軟件要成為“能力的提供方”和“數字員工的載體” 。
而有了MonkeyOCR v1.5 這套“智能解析大腦”,用戶上傳的 PDF、圖片即可無縫轉化為可編輯、可計算的智能文檔 。這不僅是“解析即用”的體驗升級,更是金山辦公在打造成熟 AI 應用落地“樣板間” 。
大家也能看到,一只“聰明的猴子”,正在通過重塑人與文檔的交互方式,大鬧 AGI 的“天宮” 。
參考資料,賦范空間,《OCR2.0時代:從字符識別到多模態智能理解的技術革命》量子位,《金山與華科發布多模態模型MonkeyOCR v1.5》
原文標題 : WPS為AI裝上“智能解析大腦”
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 特斯拉Optimus Gen3量產在即,哪些環節最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 4 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 5 Tesla AI5芯片最新進展總結
- 6 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 7 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 8 2026,人形機器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 10 AI Infra產業鏈卡在哪里了?


分享













