|

康百顺
2000活跃值=1元

首页 > 以车会友 > 以车会友 > 百度0.9B参数模型登顶全球第一，聊聊PaddleOCR-VL背后的技术细节

百度0.9B参数模型登顶全球第一，聊聊PaddleOCR-VL背后的技术细节

发布时间：2025-10-21 14:47:52

百度用一个仅0.9B参数的模型，在权威的文档解析评测榜单OmniDocBench V1.5上，拿下了92.6分的综合成绩，位列全球第一。

百度0.9B参数模型登顶全球第一，聊聊PaddleOCR-VL背后的技术细节

这个叫作PaddleOCR-VL的模型，发布不到一天，就在技术圈的开源社区Hugging Face上冲到了全球热度榜首。现在仍然霸榜。

百度0.9B参数模型登顶全球第一，聊聊PaddleOCR-VL背后的技术细节

它不只是总分高，在文本识别，公式识别，表格理解和阅读顺序这四个文档解析最核心的能力维度上，全都做到了业界最佳水平，是目前唯一一个在这四项上全部登顶的模型。

它还能处理109种语言，从常见的中文，英文，日文，韩文，到结构复杂的俄语（西里尔字母），阿拉伯语，印地语（天城文）和泰语，基本覆盖了全球主要语言体系。

这个事儿有意思的地方在于，当下大家普遍的认知是模型参数量越大，能力越强。百度这个0.9B参数的模型能取得这样的成绩，怎么做到的？

庖丁解牛，先把任务拆开

模型能做到又小又强，关键在于它的设计思路。PaddleOCR-VL没有选择做一个大而全的端到端模型，把一张文档图片直接扔进去，让模型自己搞定所有事。

那种方法听起来很酷，但在实际应用中常常会遇到麻烦，比如模型容易产生幻觉，搞错文本的阅读顺序，或者在处理复杂长文档时计算成本高得吓人，难以落地。

PaddleOCR-VL用的是一个两阶段架构。

百度0.9B参数模型登顶全球第一，聊聊PaddleOCR-VL背后的技术细节

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“康百顺用户上传并发布"，本平台仅提供信息存储服务。

下一篇:消息称海尔探索推动工业互联网平台卡奥斯明年在港 IPO

上一篇:剑指问界M9？岚图泰山官宣11月上市

以车会友更多>>

鸣潮×水月雨联动U.C.T.S.耳夹式蓝牙耳机上架，299元官宣！追觅科技携手央视春晚，春晚同款扫地机献礼全球华人内存价格狂飙不止！手机、PC等厂商面临至暗时刻消息称OPPO Find N6手机内置6K级电池，大概率春节后登场 6.32英寸小钢炮来袭：一加15T入网搭载骁龙8 Elite Gen5，3月见 iPhone 17e或2月发布，起售价预计4499元抖音：将加大对不实信息、网络暴力等问题的治理力度京东外卖加热餐箱扩大覆盖11城，科技升温20°C，全职骑手免费配！ 2025 ACM Fellow公布!陈宝权、贾佳亚、梅涛、朱军等多位华人入选我学者提出新型量子磁传感器方案 499元鼠标，双芯旗舰有啥不一样？红魔11 Air：AI游戏圈搜，哪里不会圈哪里？ iPhone18 Pro再次被确认：实体压感按键+单挖孔屏，这次真的变了精准卡位大厂盲区，小众App闷声赚大钱马斯克最大算力中心建成了：全球首个GW级超算集群，再创世界纪录贵州银行：以自身信用承接19亿存款，信托化险突然受宠零刻ME Pro：零基础的小白也能轻松上手胡馨心确认：REDMI Turbo 5系列能吃上国补 IDC：2025年全球智能手机出货量达12.6亿部，苹果连续三年第一 IDC：2025全球智能手机出货12.6亿部，苹果连续三年第一，华为国内登顶 “死了么”APP爆火与改名：照见独居人群的镜子 AP2O-Coder 让大模型拥有「错题本」，像人类一样按题型高效刷题 2025开年手机大战打响！荣耀、一加新机曝光，谁才是真香之选？本月两款国产超薄机型问世荣耀VS联想moto 你支持谁？红米Turbo5 Max！这名字了不得摩托罗拉新机来了，手写笔成主角，安卓生态要变天？摩托罗拉MotoWatch智能手表、Moto Tag 2智能追踪器渲染图曝光全面盘点！一文看懂苹果2025年发布的超16款新品华为手机别瞎用！8个设置一关，立马丝滑到飞起！ 10万级纯电SUV二选一，欧拉5与深蓝S05谁更能吸引年轻人？

Copyright 2019-2025 康百顺版权所有京ICP备19116790号-1