首页 > 以车会友 > 以车会友 > DeepSeek开源新模型,用视觉方式压缩一切

DeepSeek开源新模型,用视觉方式压缩一切

发布时间:2025-10-21 17:16:58

10月20日,DeepSeek再度开源新模型。

在GitHub(https://github.com/deepseek-ai/DeepSeek-OCR)上可以看到其最新模型名为DeepSeek-OCR,还是一款OCR(光学字符识别)模型,该模型的参数量为3B。

该项目由 DeepSeek 三位研究员 Haoran Wei、Yaofeng Sun、Yukun Li 共同完成。其中一作 Haoran Wei 曾在阶跃星辰工作过,曾主导开发了旨在实现「第二代 OCR」的 GOT-OCR2.0 系统(arXiv:2409.01704),该项目已在 GitHub 收获了超 7800 star。也因此,由其主导 DeepSeek 的 OCR 项目也在情理之中。

图片

DeepSeek 表示,DeepSeek-OCR 模型是通过光学二维映射(将文本内容压缩到视觉像素中)来高效压缩长文本上下文。

该模型主要由 DeepEncoder 和 DeepSeek3B-MoE-A570M 解码器两大核心组件构成。其中 DeepEncoder 作为核心引擎,既能保持高分辨率输入下的低激活状态,又能实现高压缩比,从而生成数量适中的视觉 token。

实验数据显示,当文本 token 数量在视觉 token 的 10 倍以内(即压缩率 <10×)时,模型的解码(OCR)精度可达 97%;即使在压缩率达到 20× 的情况下,OCR 准确率仍保持在约 60%。

这一结果显示出该方法在长上下文压缩和 LLM 的记忆遗忘机制等研究方向上具有相当潜力。

此外,DeepSeek-OCR 还展现出很高的实用价值。在 OmniDocBench 基准测试中,它仅使用 100 个视觉 token 就超过了 GOT-OCR2.0(每页 256 个 token) 的表现;同时,使用不到 800 个视觉 token 就优于 MinerU2.0(平均每页超过 6000 个 token)。在实际生产环境中,单张 A100-40G GPU 每天可生成超过 20 万页(200k+) 的 LLM/VLM 训练数据。

DeepSeek 探索的方法概括起来就是:利用视觉模态作为文本信息的高效压缩媒介。

简而言之,一张包含文档文本的图像可以用比等效文本少得多的 Token 来表示丰富的信息,这表明:通过视觉 Token 进行光学压缩可以实现高得多的压缩率。

基于这一洞见,DeepSeek 从以 LLM 为中心的视角重新审视了视觉语言模型 (VLM),其中,他们的研究重点是:视觉编码器如何提升 LLM 处理文本信息的效率,而非人类已擅长的基本视觉问答 (VQA) 任务。DeepSeek 表示,OCR 任务作为连接视觉和语言的中间模态,为这种视觉 - 文本压缩范式提供了理想的试验平台,因为它在视觉和文本表示之间建立了自然的压缩 - 解压缩映射,同时提供了可量化的评估指标。

鉴于此,DeepSeek-OCR 便由此而生。这是一个为实现高效视觉 - 文本压缩而设计的 VLM。

如图所示,DeepSeek-OCR 采用了一个统一的端到端 VLM 架构,由一个编码器和一个解码器组成。

图片

以车会友更多>>

鸣潮×水月雨联动U.C.T.S.耳夹式蓝牙耳机上架,299元 官宣!追觅科技携手央视春晚,春晚同款扫地机献礼全球华人 内存价格狂飙不止!手机、PC等厂商面临至暗时刻 消息称OPPO Find N6手机内置6K级电池,大概率春节后登场 6.32英寸小钢炮来袭:一加15T入网搭载骁龙8 Elite Gen5,3月见 iPhone 17e或2月发布,起售价预计4499元 抖音:将加大对不实信息、网络暴力等问题的治理力度 京东外卖加热餐箱扩大覆盖11城,科技升温20°C,全职骑手免费配! 2025 ACM Fellow公布!陈宝权、贾佳亚、梅涛、朱军等多位华人入选 我学者提出新型量子磁传感器方案 499元鼠标,双芯旗舰有啥不一样? 红魔11 Air:AI游戏圈搜,哪里不会圈哪里? iPhone18 Pro再次被确认:实体压感按键+单挖孔屏,这次真的变了 精准卡位大厂盲区,小众App闷声赚大钱 马斯克最大算力中心建成了:全球首个GW级超算集群,再创世界纪录 贵州银行:以自身信用承接19亿存款,信托化险突然受宠 零刻ME Pro:零基础的小白也能轻松上手 胡馨心确认:REDMI Turbo 5系列能吃上国补 IDC:2025年全球智能手机出货量达12.6亿部,苹果连续三年第一 IDC:2025全球智能手机出货12.6亿部,苹果连续三年第一,华为国内登顶 “死了么”APP爆火与改名:照见独居人群的镜子 AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题 2025开年手机大战打响!荣耀、一加新机曝光,谁才是真香之选? 本月两款国产超薄机型问世 荣耀VS联想moto 你支持谁? 红米Turbo5 Max!这名字了不得 摩托罗拉新机来了,手写笔成主角,安卓生态要变天? 摩托罗拉MotoWatch智能手表、Moto Tag 2智能追踪器渲染图曝光 全面盘点!一文看懂苹果2025年发布的超16款新品 华为手机别瞎用!8个设置一关,立马丝滑到飞起! 10万级纯电SUV二选一,欧拉5与深蓝S05谁更能吸引年轻人?