首页 > 以车会友 > 以车会友 > 百度0.9B参数模型登顶全球第一,聊聊PaddleOCR-VL背后的技术细节

百度0.9B参数模型登顶全球第一,聊聊PaddleOCR-VL背后的技术细节

发布时间:2025-10-21 14:47:52

百度用一个仅0.9B参数的模型,在权威的文档解析评测榜单OmniDocBench V1.5上,拿下了92.6分的综合成绩,位列全球第一。

这个叫作PaddleOCR-VL的模型,发布不到一天,就在技术圈的开源社区Hugging Face上冲到了全球热度榜首。现在仍然霸榜。

它不只是总分高,在文本识别,公式识别,表格理解和阅读顺序这四个文档解析最核心的能力维度上,全都做到了业界最佳水平,是目前唯一一个在这四项上全部登顶的模型。

它还能处理109种语言,从常见的中文,英文,日文,韩文,到结构复杂的俄语(西里尔字母),阿拉伯语,印地语(天城文)和泰语,基本覆盖了全球主要语言体系。

这个事儿有意思的地方在于,当下大家普遍的认知是模型参数量越大,能力越强。百度这个0.9B参数的模型能取得这样的成绩,怎么做到的?

庖丁解牛,先把任务拆开

模型能做到又小又强,关键在于它的设计思路。PaddleOCR-VL没有选择做一个大而全的端到端模型,把一张文档图片直接扔进去,让模型自己搞定所有事。

那种方法听起来很酷,但在实际应用中常常会遇到麻烦,比如模型容易产生幻觉,搞错文本的阅读顺序,或者在处理复杂长文档时计算成本高得吓人,难以落地。

PaddleOCR-VL用的是一个两阶段架构。

以车会友更多>>

鸣潮×水月雨联动U.C.T.S.耳夹式蓝牙耳机上架,299元 官宣!追觅科技携手央视春晚,春晚同款扫地机献礼全球华人 内存价格狂飙不止!手机、PC等厂商面临至暗时刻 消息称OPPO Find N6手机内置6K级电池,大概率春节后登场 6.32英寸小钢炮来袭:一加15T入网搭载骁龙8 Elite Gen5,3月见 iPhone 17e或2月发布,起售价预计4499元 抖音:将加大对不实信息、网络暴力等问题的治理力度 京东外卖加热餐箱扩大覆盖11城,科技升温20°C,全职骑手免费配! 2025 ACM Fellow公布!陈宝权、贾佳亚、梅涛、朱军等多位华人入选 我学者提出新型量子磁传感器方案 499元鼠标,双芯旗舰有啥不一样? 红魔11 Air:AI游戏圈搜,哪里不会圈哪里? iPhone18 Pro再次被确认:实体压感按键+单挖孔屏,这次真的变了 精准卡位大厂盲区,小众App闷声赚大钱 马斯克最大算力中心建成了:全球首个GW级超算集群,再创世界纪录 贵州银行:以自身信用承接19亿存款,信托化险突然受宠 零刻ME Pro:零基础的小白也能轻松上手 胡馨心确认:REDMI Turbo 5系列能吃上国补 IDC:2025年全球智能手机出货量达12.6亿部,苹果连续三年第一 IDC:2025全球智能手机出货12.6亿部,苹果连续三年第一,华为国内登顶 “死了么”APP爆火与改名:照见独居人群的镜子 AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题 2025开年手机大战打响!荣耀、一加新机曝光,谁才是真香之选? 本月两款国产超薄机型问世 荣耀VS联想moto 你支持谁? 红米Turbo5 Max!这名字了不得 摩托罗拉新机来了,手写笔成主角,安卓生态要变天? 摩托罗拉MotoWatch智能手表、Moto Tag 2智能追踪器渲染图曝光 全面盘点!一文看懂苹果2025年发布的超16款新品 华为手机别瞎用!8个设置一关,立马丝滑到飞起! 10万级纯电SUV二选一,欧拉5与深蓝S05谁更能吸引年轻人?