RAG Enterprise QA | Engineering Showcase

01 / Benchmark laboratory

迭代不是一条漂亮的上升线。

所有点位来自 assets/diagrams/showcase-data.json。污染实验、非端到端参考与正式实验被明确分层，避免把不可比结果混成一次胜利叙事。

RAGAS 全部迭代点位数据
迭代	Faithfulness	Answer Relevancy	Context Precision	状态
L0	0.566	0.672	0.560	historical
L1	0.610	0.770	0.550	historical
L2	0.544	0.753	0.865	historical
L3	0.540	0.762	0.614	historical
GT	0.864	0.897	0.911	upper_bound
L4	0.498	0.784	0.730	contaminated
L5	0.451	0.791	0.721	contaminated
L6	0.469	0.808	0.701	contaminated
F0	0.874	0.818	0.816	formal
F1	0.901	0.791	0.834	formal
F2	0.918	0.826	0.844	formal
F3	0.937	0.780	0.799	formal
v2	0.931	0.857	0.857	historical
T02	0.946	0.876	0.869	current
D4P-F	0.968	0.851	0.831	control

L4-L6 受截断污染

Judge 输入曾来自 200 字 UI 摘要，不能与完整上下文正式结果直接比较。

GT 非端到端上限

以标准答案作为评测对象，仅用于观察 Judge 与数据集的参考上限。

T02 当前生产推荐

MiMo 非思考模式、temperature=0.2，Faithfulness 与三项均值在 MiMo 实验中最高。

MiMo 温度实验 / 30 QA

温度 0.2
综合最优

同一批冻结检索上下文，只改变答案生成模式。T02 在 Faithfulness 与三项均值上夺冠，确定性更强的 0.0 和更昂贵的 Thinking 都未形成综合优势。

.2 recommended generation temperature

T00temperature 0.0

Faith

0.886

AnsRel

0.887

CtxPrec

0.881

Mean

0.885

T02recommended

Faith

0.946

AnsRel

0.876

CtxPrec

0.869

Mean

0.897

T03temperature 0.3

Faith

0.918

AnsRel

0.785

CtxPrec

0.875

Mean

0.859

Thinkingreasoning enabled

Faith

0.927

AnsRel

0.844

CtxPrec

0.836

Mean

0.869

MIMO FAITHFULNESS WINNER

T02 达到 0.946，比 T00 高 0.060，是企业知识问答最关键的领先项。

DETERMINISTIC TRADE-OFF

T00 在 Answer Relevancy 与 Context Precision 上各领先约 0.01，但综合均值仍低于 T02。

THINKING ≠ BETTER

Thinking 组评估更慢，三项均值 0.869，未超过普通非思考模式的温度 0.2。

D4P STRICT CONTROL

同上下文下 D4P Faithfulness 0.968 更高；MiMo T02 相关性与三项均值更高，两者总体近似持平。

MiMo v2.5 Pro / frozen retrieval contexts / MiMo Judge
组别	生成模式	Faithfulness	Answer Relevancy	Context Precision	三项均值	评估耗时
T00	temperature 0.0	0.886	0.887	0.881	0.885	24.5 min
T02	temperature 0.2	0.946	0.876	0.869	0.897	24.3 min
T03	temperature 0.3	0.918	0.785	0.875	0.859	26.8 min
Thinking	reasoning enabled	0.927	0.844	0.836	0.869	26.4 min
D4P Frozen	temperature 0.2 / non-thinking	0.968	0.851	0.831	0.883	23.6 min

Relative threshold

少一点上下文，换来更好的证据密度。

相对阈值控制候选与最高重排分的距离。0.80 虽继续提高 Faithfulness，却损失回答相关性与上下文精度；0.75 在三项指标与上下文数量之间取得本项目当前最佳平衡。

0.75 综合最优

F0—F3 / 完整上下文阈值实验
阈值	Faith.	Ans. Rel.	Ctx. Prec.	均值	平均上下文数
off	0.874	0.818	0.816	0.836	5.00
0.70	0.901	0.791	0.834	0.842	4.47
0.75	0.918	0.826	0.844	0.863	4.10
0.80	0.937	0.780	0.799	0.839	3.83

02 / System architecture

证据从进入系统开始，就有明确去向。

检索阶段扩召回，重排与两级阈值收紧证据；生成和评测始终使用完整 chunk，UI 摘要不再进入 Judge 数据通道。

01 Document Parse

结构化提取文档文本与元数据

02 Recursive Chunk

递归切分，保留可回溯来源

03 Vector Top-20
+ BM25 Top-20

语义召回与词法召回并行

04 RRF

Reciprocal Rank Fusion 融合排序

05 BGE Reranker

跨编码器精排候选证据

06 Evidence Gate

absolute 0.50
per-doc max 4
relative 0.75

07 Top-3~5 Full Chunks

完整证据块进入生成链路

08 LLM Streaming Answer

流式回答并保留引用映射

09 Full-context RAGAS

Judge 接收生成时的完整上下文

10 Traceable Output

答案、来源、指标形成可审计闭环

RECALL Vector + BM25 扩大候选面 CONTROL Rerank + Gate 控制证据密度 EVALUATE 完整上下文保持评测口径一致

03 / Failure dossiers

真正的工程进展，常从一次异常分数开始。

案例不只展示结果，也保留诊断路径。通过隔离检索、生成、数据传递与 Judge，避免把不同层的问题归为“模型不行”。

EVALUATION PIPELINE

RAGAS 截断漏洞

生成模型使用完整 chunk 作答，但 Judge 曾只收到为 UI 展示准备的 200 字摘要。

现象: L4-L6 的 Faithfulness 异常下降，与人工阅读答案质量的判断明显冲突。
证据: 追踪生成输入与评测输入后发现：前者为完整 chunk，后者复用了前端引用摘要字段。
根因: 展示层数据结构越界进入评测层，Judge 在证据被截断的情况下判定回答缺乏依据。
修复: 分离 UI 摘要与评测上下文通道；F0-F3 全部使用完整上下文重跑，L4-L6 明确标为污染数据。

JUDGE FALSE NEGATIVE / PROMPT OVER-CONSTRAINT

Q00 / Q02：相似低分，不同根因。

现象: Q00 答案与参考事实一致却得分异常；Q02 返回“信息不足”，看起来像召回缺失。
证据: Q00 的答案、原始证据与参考答案信息链完整；Q02 的完整上下文与重排结果均包含所需调参表。
根因: Q00 是 Judge 对表述差异过敏造成的误判；Q02 是 Prompt 对“完全明确”的要求过严，抑制了模型从结构化表格中组织答案。
修复: 单题异常拆出复核，避免迎合误判调整生成链路；同时允许基于明确表格字段作答，并把拒答行为与召回质量分开验证。

04 / Capability matrix

从算法实验，到可交付产品。

这不是单点检索 Demo。项目覆盖召回策略、服务工程、评测治理与用户可理解的证据呈现。

算法

A / 01

Hybrid RetrievalBM25Vector Search RRFBGE RerankerRecursive Chunk Diversity Control

后端

B / 02

FastAPISSE StreamingChromaDB ConfigurationPersistenceTesting Traceability

评测

C / 03

RAGASJudge CalibrationFull Context Experiment IsolationDataset AuditFailure Attribution

产品

D / 04

Source CitationStreaming UXResponsive UI Case NarrativeDocumentationReproducibility

迭代不是一条漂亮的上升线。

温度 0.2综合最优

少一点上下文，换来更好的证据密度。

证据从进入系统开始，就有明确去向。

真正的工程进展，常从一次异常分数开始。

RAGAS 截断漏洞

Q00 / Q02：相似低分，不同根因。

从算法实验，到可交付产品。

算法

后端

评测

产品

温度 0.2
综合最优