01 / Benchmark laboratory
迭代不是一条漂亮的上升线。
所有点位来自 assets/diagrams/showcase-data.json。污染实验、非端到端参考与正式实验被明确分层,避免把不可比结果混成一次胜利叙事。
| 迭代 | Faithfulness | Answer Relevancy | Context Precision | 状态 |
|---|---|---|---|---|
| L0 | 0.566 | 0.672 | 0.560 | historical |
| L1 | 0.610 | 0.770 | 0.550 | historical |
| L2 | 0.544 | 0.753 | 0.865 | historical |
| L3 | 0.540 | 0.762 | 0.614 | historical |
| GT | 0.864 | 0.897 | 0.911 | upper_bound |
| L4 | 0.498 | 0.784 | 0.730 | contaminated |
| L5 | 0.451 | 0.791 | 0.721 | contaminated |
| L6 | 0.469 | 0.808 | 0.701 | contaminated |
| F0 | 0.874 | 0.818 | 0.816 | formal |
| F1 | 0.901 | 0.791 | 0.834 | formal |
| F2 | 0.918 | 0.826 | 0.844 | formal |
| F3 | 0.937 | 0.780 | 0.799 | formal |
| v2 | 0.931 | 0.857 | 0.857 | historical |
| T02 | 0.946 | 0.876 | 0.869 | current |
| D4P-F | 0.968 | 0.851 | 0.831 | control |
Judge 输入曾来自 200 字 UI 摘要,不能与完整上下文正式结果直接比较。
以标准答案作为评测对象,仅用于观察 Judge 与数据集的参考上限。
MiMo 非思考模式、temperature=0.2,Faithfulness 与三项均值在 MiMo 实验中最高。
MiMo 温度实验 / 30 QA
温度 0.2
综合最优
同一批冻结检索上下文,只改变答案生成模式。T02 在 Faithfulness 与三项均值上夺冠,确定性更强的 0.0 和更昂贵的 Thinking 都未形成综合优势。
T02 达到 0.946,比 T00 高 0.060,是企业知识问答最关键的领先项。
T00 在 Answer Relevancy 与 Context Precision 上各领先约 0.01,但综合均值仍低于 T02。
Thinking 组评估更慢,三项均值 0.869,未超过普通非思考模式的温度 0.2。
同上下文下 D4P Faithfulness 0.968 更高;MiMo T02 相关性与三项均值更高,两者总体近似持平。
| 组别 | 生成模式 | Faithfulness | Answer Relevancy | Context Precision | 三项均值 | 评估耗时 |
|---|---|---|---|---|---|---|
| T00 | temperature 0.0 | 0.886 | 0.887 | 0.881 | 0.885 | 24.5 min |
| T02 | temperature 0.2 | 0.946 | 0.876 | 0.869 | 0.897 | 24.3 min |
| T03 | temperature 0.3 | 0.918 | 0.785 | 0.875 | 0.859 | 26.8 min |
| Thinking | reasoning enabled | 0.927 | 0.844 | 0.836 | 0.869 | 26.4 min |
| D4P Frozen | temperature 0.2 / non-thinking | 0.968 | 0.851 | 0.831 | 0.883 | 23.6 min |
Relative threshold
少一点上下文,换来更好的证据密度。
相对阈值控制候选与最高重排分的距离。0.80 虽继续提高 Faithfulness,却损失回答相关性与上下文精度;0.75 在三项指标与上下文数量之间取得本项目当前最佳平衡。
0.75 综合最优| 阈值 | Faith. | Ans. Rel. | Ctx. Prec. | 均值 | 平均上下文数 |
|---|---|---|---|---|---|
| off | 0.874 | 0.818 | 0.816 | 0.836 | 5.00 |
| 0.70 | 0.901 | 0.791 | 0.834 | 0.842 | 4.47 |
| 0.75 | 0.918 | 0.826 | 0.844 | 0.863 | 4.10 |
| 0.80 | 0.937 | 0.780 | 0.799 | 0.839 | 3.83 |
02 / System architecture
证据从进入系统开始,就有明确去向。
检索阶段扩召回,重排与两级阈值收紧证据;生成和评测始终使用完整 chunk,UI 摘要不再进入 Judge 数据通道。
结构化提取文档文本与元数据
递归切分,保留可回溯来源
+ BM25 Top-20
语义召回与词法召回并行
Reciprocal Rank Fusion 融合排序
跨编码器精排候选证据
absolute 0.50
per-doc max 4
relative 0.75
完整证据块进入生成链路
流式回答并保留引用映射
Judge 接收生成时的完整上下文
答案、来源、指标形成可审计闭环
03 / Failure dossiers
真正的工程进展,常从一次异常分数开始。
案例不只展示结果,也保留诊断路径。通过隔离检索、生成、数据传递与 Judge,避免把不同层的问题归为“模型不行”。
EVALUATION PIPELINE
RAGAS 截断漏洞
生成模型使用完整 chunk 作答,但 Judge 曾只收到为 UI 展示准备的 200 字摘要。
- 现象
- L4-L6 的 Faithfulness 异常下降,与人工阅读答案质量的判断明显冲突。
- 证据
- 追踪生成输入与评测输入后发现:前者为完整 chunk,后者复用了前端引用摘要字段。
- 根因
- 展示层数据结构越界进入评测层,Judge 在证据被截断的情况下判定回答缺乏依据。
- 修复
- 分离 UI 摘要与评测上下文通道;F0-F3 全部使用完整上下文重跑,L4-L6 明确标为污染数据。
JUDGE FALSE NEGATIVE / PROMPT OVER-CONSTRAINT
Q00 / Q02:相似低分,不同根因。
- 现象
- Q00 答案与参考事实一致却得分异常;Q02 返回“信息不足”,看起来像召回缺失。
- 证据
- Q00 的答案、原始证据与参考答案信息链完整;Q02 的完整上下文与重排结果均包含所需调参表。
- 根因
- Q00 是 Judge 对表述差异过敏造成的误判;Q02 是 Prompt 对“完全明确”的要求过严,抑制了模型从结构化表格中组织答案。
- 修复
- 单题异常拆出复核,避免迎合误判调整生成链路;同时允许基于明确表格字段作答,并把拒答行为与召回质量分开验证。
04 / Capability matrix
从算法实验,到可交付产品。
这不是单点检索 Demo。项目覆盖召回策略、服务工程、评测治理与用户可理解的证据呈现。