VeriTrail:AI生成内容“闭域幻觉”检测的溯源新范式
AI驱动的复杂内容生成流程中,“闭域幻觉”——即模型生成的内容与源文本不符——是一个关键挑战。现有检测方法主要关注最终输出,但忽略了多步骤生成过程中的中间环节。VeriTrail的出现,为这一难题提供了突破性解决方案。
VeriTrail核心在于引入“可追溯性”,即不仅要检测最终输出是否支持源文本,还要能追溯其在多步骤生成过程中的演变路径(Provenance)和定位错误引入环节(Error Localization)。该方法将生成过程建模为有向无环图(DAG),通过逐层反向验证,从最终输出回溯至源文本,以此实现对每一环节的精确评估。其关键技术包括从输出中提取独立主张(Claims),通过“证据选择”定位支持性文本片段,再由“判断生成”给出“完全支持”、“不完全支持”或“不确定”的结论,并在验证过程中逐步缩小溯源范围,以优化效率与成本。
VeriTrail在多项基准测试中表现出卓越的幻觉检测能力,显著优于直接比较最终输出与源文本的传统方法。通过提供详细的证据链和错误定位信息,VeriTrail不仅提升了生成内容的透明度,也使用户能够更深入地理解、验证和调试AI生成过程,从而建立对AI输出的信任。这项技术对于处理大规模、多阶段的AI应用,如复杂的知识图谱构建与问答系统,具有至关重要的战略意义,预示着AI内容生成向更可靠、可解释的方向迈进。
VeriTrail: Detecting hallucination and tracing provenance in multi-step AI workflows
VeriTrail, new from Microsoft Research, can detect AI-generated content that is not supported by the source text, trace the provenance of content from final output back to the source, and locate where errors were likely introduced. Learn more.

网友讨论