Copyright 2016-2025 商媒體 版權所有 京ICP備20241218號-1
就在剛剛,DeepSeek 開源了一個 3B 模型 DeepSeek-OCR。雖然 3B 體量不大,但模型思路創新的力度著實不小。
眾所周知,當前所有 LLM 處理長文本時都面臨一個繞不開的困境:計算復雜度是平方級增長的。序列越長,算力燒得越狠。
于是,DeepSeek 團隊想到了一個好辦法。既然一張圖能包含大量文字信息,而且用的 Token 還少,那不如直接把文本轉成圖像?這就是所謂的「光學壓縮」——用視覺模態來給文本信息「瘦身」。

而 OCR 正好天然適合驗證這個思路,因為它本身就是在做「視覺→文本」的轉換,而且效果還能量化評估。

論文顯示,DeepSeek-OCR 的壓縮率能達到 10 倍,OCR 準確率還能保持在 97% 以上。
啥意思呢?就是說,原本需要 1000 個文本 Token 才能表達的內容,現在只用 100 個視覺 Token 就搞定了。即使壓縮率拉到 20 倍,準確率也還有 60% 左右,整體效果相當能打。
OmniDocBench 基準測試結果顯示:
- 只用 100 個視覺 Token,就超過了 GOT-OCR2.0(每頁 256 個 Token)的表現
- 用不到 800 個視覺 Token,干翻了 MinerU2.0(平均每頁超過 6000 個 Token)
在實際生產中,一塊 A100-40G 顯卡就能每天生成超過 20 萬頁的 LLM/VLM 訓練數據。20 個節點(160 塊 A100)直接飆到每天 3300 萬頁。