2 min read

NVIDIA NeMo Retriever Parse:革新文档智能,解锁非结构化数据价值

NVIDIA NeMo Retriever Parse是一款基于Transformer的视觉语言模型(VLM),旨在解决传统OCR技术在处理复杂文档布局、结构多变性以及跨页连续性方面的不足。该模型能高精度地提取文本、表格和公式,并理解文档的空间结构和阅读顺序,将非结构化数据转化为可操作信息。

NeMo Retriever Parse的核心优势在于其创新的架构和训练方法。它采用强大的ViT-H视觉编码器与mBART解码器结合,并通过NVIDIA C-RADIO框架优化,实现了对复杂文档布局的深度理解。其独特的统一分词方案,能够同时输出文本、边界框坐标和语义类别,并严格按照文档的阅读顺序排列,为下游的检索和LLM应用提供了高质量的结构化数据。在arXiv-5M等大型数据集上的两阶段训练,确保了模型在处理不同文档类型和标注可用性时的鲁棒性。

在文本提取方面,NeMo Retriever Parse在GOT Dense OCR Benchmark和NVIDIA内部文档OCR Benchmark上均表现出接近完美的性能。特别是在表格提取任务上,该模型在PubTabNet和RD-TableBench基准测试中,其TEDS和S-TEDS得分均显著超越了现有领先模型,展现了在复杂表格内容识别和结构重建方面的卓越能力。

NeMo Retriever Parse的推出,标志着文档智能处理迈向了一个新阶段。它不仅提升了信息检索的准确性,还通过结构化内容提取,增强了LLM和VLM的性能。该模型目前已支持英文,并计划扩展至中文及手写文档,进一步拓宽其应用场景,赋能企业和研究机构更高效地利用海量文档数据。

Turn Complex Documents into Usable Data with VLM, NVIDIA NeMo Retriever Parse | NVIDIA Technical Blog
Enterprises generate and store vast amounts of unstructured data in documents like research reports, business contracts, financial statements, and technical manuals.
订阅情报