面向 9 类问答场景的分层评测设计:所有类别统一评估内容质量(可读性 / 引用正确性 / 信息量),功能型类别叠加工具调用与结果的功能性评估,最终产出「单答分档」与「多答分维度排序」两种结果。
9 个子类别按评估侧重点分为两组,分别走不同的评估路径:
内容型(重答案内容本身的质量):
功能型(重工具是否被正确调用、工具结果是否满足要求):
Query 来源:全部来自线上真实用户数据采样,包含单轮与多轮(带对话历史)两种形态,按 9 个子类别的真实分布覆盖。
候选答案构成:每条 query 对应两路答案—— a · 线上模型(线上正在服务的答案) b · WeLM 模型采样 3–5 条 即「线上 1 条 + WeLM 3–5 条」的多答候选集,直接支撑结果二的多答分维度排序横评。
各类别数据量目标:
| 类别 | 分组 | 目标条数 |
|---|---|---|
| 通用问答 | 内容型 | 200 条 |
| 配图 | 内容型 | 200 条 |
| 音乐 | 功能型 | 100 条 |
| 账号搜索 | 功能型 | 100 条 |
| 资源搜索 | 功能型 | 100 条 |
| 资源推荐 | 功能型 | 100 条 |
| 表情 | 功能型 | 100 条 |
| box | 功能型 | 100 条 |
| 商品 | 功能型 | 100 条 |
| 合计 | — | 1100 条 query(2×200 + 7×100) |
通用问答与配图作为内容型重点场景,各积累 200 条;7 个功能型类别各积累 100 条。每条 query 再展开为「线上 + WeLM 3–5 条」候选答案。
采用「共性维度 + 类别附加维度」的叠加设计——所有类别共享一套内容维度,特定类别再叠加自己的专属维度。
| 类别 | 答案可读性 | 引用正确性 | 答案信息量 | 图片质量·风格 | 功能性评估 |
|---|---|---|---|---|---|
| 通用问答 | ✓ | ✓ | ✓ | — | — |
| 配图 | ✓ | ✓ | ✓ | ✓ | — |
| 音乐 | ✓ | ✓ | ✓ | — | ✓ |
| 账号搜索 | ✓ | ✓ | ✓ | — | ✓ |
| 资源搜索 | ✓ | ✓ | ✓ | — | ✓ |
| 资源推荐 | ✓ | ✓ | ✓ | — | ✓ |
| 表情 | ✓ | ✓ | ✓ | — | ✓ |
| box | ✓ | ✓ | ✓ | — | ✓ |
| 商品 | ✓ | ✓ | ✓ | — | ✓ |
说明:共性维度(可读性 / 引用正确性 / 信息量)对全部 9 类强制执行;「图片质量·风格」仅配图类适用;「功能性评估」=「工具是否被正确调用」+「工具结果是否满足要求」,对 7 个功能型类别适用。
对「每个问题 + 它的某一个答案」直接给出绝对评分。一般类别用 0 / 1 / 2 三档;配图类扩展为 -1 / 0 / 1 / 2 四档(增设 -1 表示「该配图却未出图 / 拒答」)。
用于衡量绝对质量、统计各类别达标率与平均分。功能型类别的 0 档通常对应「工具未调用」或「工具结果不满足」;配图的 -1 档区别于 0——0 是「出了图但不可用」,-1 是「根本没出图」。
对「同一问题的多个候选答案」,在每个维度上分别给出相对排序 / 打分。
与结果一互补:结果一看「够不够好」,结果二看「谁更好」。