Enterprise Retrieval / Evaluation / Delivery

RAG Enterprise QA

端到端企业文档问答:从混合检索、重排与上下文治理,到流式生成和可复现 RAGAS 评测。

0.946 Faithfulness
0.876 Answer Relevancy
0.869 Context Precision

30 道 watsonxDocsQA · MiMo v2.5 Pro T02 生成 · MiMo Judge · 完整上下文 · D4P 严格对照

01 / Benchmark laboratory

迭代不是一条漂亮的上升线。

所有点位来自 assets/diagrams/showcase-data.json。污染实验、非端到端参考与正式实验被明确分层,避免把不可比结果混成一次胜利叙事。

Faithfulness Answer Relevancy Context Precision
RAGAS SCORE / 0.40—1.00
RAGAS 全部迭代点位数据
迭代 Faithfulness Answer Relevancy Context Precision 状态
L00.5660.6720.560historical
L10.6100.7700.550historical
L20.5440.7530.865historical
L30.5400.7620.614historical
GT0.8640.8970.911upper_bound
L40.4980.7840.730contaminated
L50.4510.7910.721contaminated
L60.4690.8080.701contaminated
F00.8740.8180.816formal
F10.9010.7910.834formal
F20.9180.8260.844formal
F30.9370.7800.799formal
v20.9310.8570.857historical
T020.9460.8760.869current
D4P-F0.9680.8510.831control
L4-L6 受截断污染

Judge 输入曾来自 200 字 UI 摘要,不能与完整上下文正式结果直接比较。

GT 非端到端上限

以标准答案作为评测对象,仅用于观察 Judge 与数据集的参考上限。

T02 当前生产推荐

MiMo 非思考模式、temperature=0.2,Faithfulness 与三项均值在 MiMo 实验中最高。

MiMo 温度实验 / 30 QA

温度 0.2
综合最优

同一批冻结检索上下文,只改变答案生成模式。T02 在 Faithfulness 与三项均值上夺冠,确定性更强的 0.0 和更昂贵的 Thinking 都未形成综合优势。

.2 recommended generation temperature
T00temperature 0.0
Faith
0.886
AnsRel
0.887
CtxPrec
0.881
Mean
0.885
T02recommended
Faith
0.946
AnsRel
0.876
CtxPrec
0.869
Mean
0.897
T03temperature 0.3
Faith
0.918
AnsRel
0.785
CtxPrec
0.875
Mean
0.859
Thinkingreasoning enabled
Faith
0.927
AnsRel
0.844
CtxPrec
0.836
Mean
0.869
MIMO FAITHFULNESS WINNER

T02 达到 0.946,比 T00 高 0.060,是企业知识问答最关键的领先项。

DETERMINISTIC TRADE-OFF

T00 在 Answer Relevancy 与 Context Precision 上各领先约 0.01,但综合均值仍低于 T02。

THINKING ≠ BETTER

Thinking 组评估更慢,三项均值 0.869,未超过普通非思考模式的温度 0.2。

D4P STRICT CONTROL

同上下文下 D4P Faithfulness 0.968 更高;MiMo T02 相关性与三项均值更高,两者总体近似持平。

MiMo v2.5 Pro / frozen retrieval contexts / MiMo Judge
组别生成模式FaithfulnessAnswer RelevancyContext Precision三项均值评估耗时
T00temperature 0.00.8860.8870.8810.88524.5 min
T02temperature 0.20.9460.8760.8690.89724.3 min
T03temperature 0.30.9180.7850.8750.85926.8 min
Thinkingreasoning enabled0.9270.8440.8360.86926.4 min
D4P Frozentemperature 0.2 / non-thinking0.9680.8510.8310.88323.6 min

Relative threshold

少一点上下文,换来更好的证据密度。

相对阈值控制候选与最高重排分的距离。0.80 虽继续提高 Faithfulness,却损失回答相关性与上下文精度;0.75 在三项指标与上下文数量之间取得本项目当前最佳平衡。

0.75 综合最优
F0—F3 / 完整上下文阈值实验
阈值 Faith. Ans. Rel. Ctx. Prec. 均值 平均上下文数
off0.8740.8180.8160.8365.00
0.700.9010.7910.8340.8424.47
0.750.9180.8260.8440.8634.10
0.800.9370.7800.7990.8393.83

02 / System architecture

证据从进入系统开始,就有明确去向。

检索阶段扩召回,重排与两级阈值收紧证据;生成和评测始终使用完整 chunk,UI 摘要不再进入 Judge 数据通道。

RECALL Vector + BM25 扩大候选面 CONTROL Rerank + Gate 控制证据密度 EVALUATE 完整上下文保持评测口径一致

03 / Failure dossiers

真正的工程进展,常从一次异常分数开始。

案例不只展示结果,也保留诊断路径。通过隔离检索、生成、数据传递与 Judge,避免把不同层的问题归为“模型不行”。

EVALUATION PIPELINE

RAGAS 截断漏洞

生成模型使用完整 chunk 作答,但 Judge 曾只收到为 UI 展示准备的 200 字摘要。

现象
L4-L6 的 Faithfulness 异常下降,与人工阅读答案质量的判断明显冲突。
证据
追踪生成输入与评测输入后发现:前者为完整 chunk,后者复用了前端引用摘要字段。
根因
展示层数据结构越界进入评测层,Judge 在证据被截断的情况下判定回答缺乏依据。
修复
分离 UI 摘要与评测上下文通道;F0-F3 全部使用完整上下文重跑,L4-L6 明确标为污染数据。

JUDGE FALSE NEGATIVE / PROMPT OVER-CONSTRAINT

Q00 / Q02:相似低分,不同根因。

现象
Q00 答案与参考事实一致却得分异常;Q02 返回“信息不足”,看起来像召回缺失。
证据
Q00 的答案、原始证据与参考答案信息链完整;Q02 的完整上下文与重排结果均包含所需调参表。
根因
Q00 是 Judge 对表述差异过敏造成的误判;Q02 是 Prompt 对“完全明确”的要求过严,抑制了模型从结构化表格中组织答案。
修复
单题异常拆出复核,避免迎合误判调整生成链路;同时允许基于明确表格字段作答,并把拒答行为与召回质量分开验证。

04 / Capability matrix

从算法实验,到可交付产品。

这不是单点检索 Demo。项目覆盖召回策略、服务工程、评测治理与用户可理解的证据呈现。

算法

A / 01
Hybrid RetrievalBM25Vector Search RRFBGE RerankerRecursive Chunk Diversity Control

后端

B / 02
FastAPISSE StreamingChromaDB ConfigurationPersistenceTesting Traceability

评测

C / 03
RAGASJudge CalibrationFull Context Experiment IsolationDataset AuditFailure Attribution

产品

D / 04
Source CitationStreaming UXResponsive UI Case NarrativeDocumentationReproducibility