问答场景分类评测方案说明

面向 9 类问答场景的分层评测设计:所有类别统一评估内容质量(可读性 / 引用正确性 / 信息量),功能型类别叠加工具调用与结果的功能性评估,最终产出「单答分档」与「多答分维度排序」两种结果。

线上真实采样 单轮 + 多轮 9 个子类别 线上模型 + WeLM 采样 分层评估维度 2 种结果形态

1评测流程总览

数据准备 ① Query 来源 线上真实用户数据采样 单轮 query 多轮 query(带历史) 覆盖 9 个子类别真实分布 ② 每条 Query 的候选答案 a · 线上模型 线上正在服务的答案 b · WeLM 采样 当前 WeLM 模型采样 3–5 条 → 同一 query 形成「线上 1 条 + WeLM 3–5 条」的多答候选集 支撑结果二的「单题多答分维度排序」横评 评测输入 9 类问答场景的 query / answer 样本 ① 按子类别分流到两条评估路径 内容型 重答案内容质量 通用问答 配图 配图额外评估: + 图片质量 + 图片风格 功能型 重工具调用与结果 音乐 账号搜索 资源搜索 资源推荐 表情 box 商品 功能性评估: + 工具是否正确调用 + 工具结果是否满足 ② 共性评估维度(所有类别统一执行) 答案可读性 通顺 / 结构 / 易懂 引用正确性 来源真实 / 对应 答案信息量 完整 / 有效 / 不冗余 ③ 汇总各维度评分 → 产出两种结果 结果一 · 单题单答分档 对「每个问题 + 它的某个答案」给出绝对分档 -1 未配图 / 拒答 0 不可用 / 错误 1 基本可用 / 瑕疵 2 优秀 / 完全满足 用途:衡量绝对质量、计算各类别达标率 / 平均分。 -1 档为配图专属:「该配图却未出图 / 拒答」,区别于 0 的「出了图但不可用」。 结果二 · 单题多答分维度排序 对「同一问题的多个答案」按各维度相对排序打分 答案 A 可读性① 引用② 信息量① … 答案 B 可读性② 引用① 信息量② … 答案 C 可读性③ 引用③ 信息量③ … 用途:多版本 / 多模型横评,定位每个维度上谁更优。 维度覆盖矩阵 类别 可读性·引用·信息量 图片质量·风格 功能性 通用问答 配图 音乐 / 账号搜索 / 资源搜索 资源推荐 / 表情 / box / 商品 内容型 功能型 共性维度 输出结果 ✓ = 该类别需评估此组维度  — = 不适用

2类别分组

9 个子类别按评估侧重点分为两组,分别走不同的评估路径:

内容型(重答案内容本身的质量):

通用问答 配图

功能型(重工具是否被正确调用、工具结果是否满足要求):

音乐 账号搜索 资源搜索 资源推荐 表情 box 商品

3数据来源与规模目标

Query 来源:全部来自线上真实用户数据采样,包含单轮多轮(带对话历史)两种形态,按 9 个子类别的真实分布覆盖。

候选答案构成:每条 query 对应两路答案—— a · 线上模型(线上正在服务的答案) b · WeLM 模型采样 3–5 条 即「线上 1 条 + WeLM 3–5 条」的多答候选集,直接支撑结果二的多答分维度排序横评。

各类别数据量目标

类别分组目标条数
通用问答内容型200
配图内容型200
音乐功能型100 条
账号搜索功能型100 条
资源搜索功能型100 条
资源推荐功能型100 条
表情功能型100 条
box功能型100 条
商品功能型100 条
合计1100 条 query(2×200 + 7×100)

通用问答与配图作为内容型重点场景,各积累 200 条;7 个功能型类别各积累 100 条。每条 query 再展开为「线上 + WeLM 3–5 条」候选答案。

4评估维度(分层叠加)

采用「共性维度 + 类别附加维度」的叠加设计——所有类别共享一套内容维度,特定类别再叠加自己的专属维度。

类别 答案可读性 引用正确性 答案信息量 图片质量·风格 功能性评估
通用问答
配图
音乐
账号搜索
资源搜索
资源推荐
表情
box
商品

说明:共性维度(可读性 / 引用正确性 / 信息量)对全部 9 类强制执行;「图片质量·风格」仅配图类适用;「功能性评估」=「工具是否被正确调用」+「工具结果是否满足要求」,对 7 个功能型类别适用。

5两种结果形态

结果一

单题单答 · 绝对分档

对「每个问题 + 它的某一个答案」直接给出绝对评分。一般类别用 0 / 1 / 2 三档;配图类扩展为 -1 / 0 / 1 / 2 四档(增设 -1 表示「该配图却未出图 / 拒答」)。

-1
未配图 / 拒答
(仅配图)
0
不可用 / 错误
1
基本可用 / 有瑕疵
2
优秀 / 完全满足

用于衡量绝对质量、统计各类别达标率与平均分。功能型类别的 0 档通常对应「工具未调用」或「工具结果不满足」;配图的 -1 档区别于 0——0 是「出了图但不可用」,-1 是「根本没出图」。

结果二

单题多答 · 分维度排序

对「同一问题的多个候选答案」,在每个维度上分别给出相对排序 / 打分。

  • 逐维度横向对比(可读性、引用、信息量、功能性…)
  • 定位每个维度上哪个版本 / 模型更优
  • 适合多版本、多模型的横评场景

与结果一互补:结果一看「够不够好」,结果二看「谁更好」。