在 AI 大模型的應用愈趨廣泛的今天,讓 AI 看懂文件仍是困擾企業與研究人員的一大難題。當 AI 嘗試處理動輒上百頁的 PDF 財報、法律合約或學術論文時,往往出現讀太慢、成本太高、記不住等問題。此篇文章指出,問題的根源在於傳統 AI 以文字 Tokenization的方式逐字轉換文件內容,使得長文本不僅耗費大量運算資源,也超出模型可處理的上下文極限。 DeepSeek-AI 團隊於 2025 年 10 月推出的開源模型DeepSeek-OCR,並強調這項技術可能從根本上改變 AI 處理文件的方式。DeepSeek-OCR 的核心理念是光學內容壓縮(Optical Context Compression),它不再讓 AI 一字一字地讀,而是像人類一樣看文件,將整頁圖像轉換為極少量卻資訊豐富的視覺 Token。這種轉變就像從朗讀一本書變成看懂一頁圖,使 AI 能以更快速度、更低成本掌握文件重點。
文章指出,DeepSeek-OCR 的技術成果相當驚人:它在單張 NVIDIA A100 GPU 上,一天即可處理超過 20 萬頁文件;整合 vLLM 技術後的處理速度可達每秒 2500 個 Token,同時仍維持高達 97% 的辨識準確率。更令人振奮的是,該模型採用 MIT 授權條款,開源且商用友善,讓開發者與企業可自由應用、修改與再開發,為企業級文件自動化帶來新的契機。DeepSeek-OCR 不僅辨識文字,更能理解結構。它能解析文件中的圖表、標題與版面,甚至能直接將資料重新轉換為 HTML 或 Markdown 格式,完整保留原始排版。這代表未來 AI 不只是讀懂文件內容,還能理解其資訊結構與視覺層次,這對金融、法律、醫療、研究等高度文件導向的產業,將是極具價值的突破。
文章從技術與哲學層面延伸思考:DeepSeek-OCR 並非單純在追求更快的 OCR,而是在實踐一種選擇性遺忘的智慧。文中引用 TN科技筆記的觀點指出,這項技術與 AI 專家 Andrej Karpathy 的理論不謀而合──人類的健忘其實是一種強大的學習機制,迫使我們抓住重點、進行歸納。DeepSeek-OCR 的光學內容壓縮正是讓模型學會捨棄細節、保留精華的過程,讓 AI 從被動記憶的抄寫者,進化為能夠理解與推理的思考者。文章不僅介紹了一項技術革新,更揭示了 AI 發展的新方向:從冗長的逐字處理,邁向高層次的視覺理解。DeepSeek-OCR 所代表的從閱讀到觀看的轉變,或許正是下一代人工智慧在文件理解領域的關鍵轉折點。