OCR流水线完胜VLMs:PDF内容提取的效率与准确性深度对比
PDF文档作为信息共享的载体,在提取复杂内容(如图表、信息图)方面面临挑战。为增强检索增强生成(RAG)系统的效能,业界探索了两种主要路径:专业OCR流水线与视觉语言模型(VLMs)。NVIDIA NeMo Retriever PDF Extraction流水线代表了前者,通过多阶段流程,利用目标检测、专业OCR及结构感知模型,精确处理不同元素。而VLMs(如Llama 3.2 11B Vision Instruct)则以其通用性,直接解读图像文本,提供“理解”视觉内容的能力。
为评估两者的优劣,我们进行了实验对比。在DigitalCorpora 10K等多样化数据集上,NeMo Retriever流水线在检索召回率(Recall@5)上以7.2%的优势超越了VLM。分析显示,VLMs易出现误读图表类型、遗漏关键文本、生成虚假信息或重复内容等问题,尤其在处理精细图表细节和嵌入式文本时表现逊色。相比之下,NeMo流水线凭借模块化、专精化的设计,在准确性上更胜一筹。
效率方面,NeMo流水线在单块A100 GPU上展现出显著优势,延迟低至0.118秒/页,吞吐量是VLM的32.3倍,且Token使用量更少,成本效益更高。尽管VLMs在某些特定场景(如直接从图表读出数值)有潜力,但当前在PDF内容提取以支持RAG检索方面,专业OCR流水线在准确性、效率和成本上均具备明显优势。未来,两者互补的结合应用值得进一步探索。
Approaches to PDF Data Extraction for Information Retrieval | NVIDIA Technical Blog
The PDF is among the most common file formats for sharing information such as financial reports, research papers, technical documents, and marketing materials. However…

网友讨论