问答场景分类评测方案说明

面向 9 类问答场景的分层评测设计:所有类别统一评估内容质量(可读性 / 引用正确性 / 信息量 / 个性化),功能型类别叠加工具调用与结果的功能性评估;另设一类「恶劣 Case 错题本」专项动态追踪线上模型一贯易错的样本。最终产出「单答分档」与「多答分维度排序」两种结果。

线上真实采样 单轮 + 多轮 9 个子类别 线上模型 + WeLM 采样 分层评估维度 正例 + 过召回负例 2 种结果形态

1评测流程总览

数据准备 ① Query 来源 线上真实用户数据采样 单轮 query 多轮 query(带历史) 覆盖 9 个子类别真实分布 ② 每条 Query 的候选答案 a · 线上模型 线上正在服务的答案 b · WeLM 采样 当前 WeLM 模型采样 3–5 条 → 同一 query 形成「线上 1 条 + WeLM 3–5 条」的多答候选集 支撑结果二的「单题多答分维度排序」横评 评测输入 9 类问答场景的 query / answer 样本 ① 按子类别分流到两条评估路径 内容型 重答案内容质量 通用问答 配图 配图额外评估: + 图片质量 + 图片风格 + 针对图片问题的追问 功能型 重工具调用与结果 音乐 账号搜索 资源搜索 资源推荐 表情 box 商品 功能性评估: + 工具是否正确调用 + 工具结果是否满足 ② 共性评估维度(所有类别统一执行) 答案可读性 通顺 / 结构 / 易懂 引用正确性 来源真实 / 对应 答案信息量 完整 / 有效 / 不冗余 个性化 结合长短期记忆针对性回答 ③ 汇总各维度评分 → 产出两种结果 结果一 · 单题单答分档 对「每个问题 + 它的某个答案」给出绝对分档 -1 未配图 / 拒答 0 不可用 / 错误 1 基本可用 / 瑕疵 2 优秀 / 完全满足 用途:衡量绝对质量、计算各类别达标率 / 平均分。 -1 档为配图专属:「该配图却未出图 / 拒答」,区别于 0 的「出了图但不可用」。 结果二 · 单题多答分维度排序 对「同一问题的多个答案」按各维度相对排序打分 答案 A 可读性① 引用② 信息量① … 答案 B 可读性② 引用① 信息量② … 答案 C 可读性③ 引用③ 信息量③ … 用途:多版本 / 多模型横评,定位每个维度上谁更优。 维度覆盖矩阵 类别 可读性·引用·信息量 图片质量·风格·追问 功能性 通用问答 配图 音乐 / 账号搜索 / 资源搜索 资源推荐 / 表情 / box / 商品 内容型 功能型 共性维度 输出结果 ✓ = 该类别需评估此组维度  — = 不适用

2类别分组

9 个子类别按评估侧重点分为两组,分别走不同的评估路径:

内容型(重答案内容本身的质量):

通用问答 配图

功能型(重工具是否被正确调用、工具结果是否满足要求):

音乐 账号搜索 资源搜索 资源推荐 表情 box 商品

恶劣 Case 错题本(线上模型一贯易错、需重点盯防的硬骨头):

错题本集合

错题本是一个独立于内容型 / 功能型的横切集合:它汇集历史上反复出错的样本,来源不限(可来自任意子类别、用户投诉、Badcase 回流、人工标注等),唯一的共同点是「我们线上模型容易答错」。该集合动态更新——新发现的 Badcase 持续补充进来,已被模型稳定攻克的 Case 可定期退出,使其始终代表当前最棘手的失败面。

3数据来源与规模目标

Query 来源:全部来自线上真实用户数据采样,包含单轮多轮(带对话历史)两种形态,按 9 个子类别的真实分布覆盖。

候选答案构成:每条 query 对应两路答案—— a · 线上模型(线上正在服务的答案) b · WeLM 模型采样 3–5 条 即「线上 1 条 + WeLM 3–5 条」的多答候选集,直接支撑结果二的多答分维度排序横评。

各类别数据量目标(正例 + 负例):每个类别除「正例」(确实应当走该功能 / 类别的样本)外,额外补充一批「负例(过召回)」——即本不应被召回为该功能、却被线上模型误召回的样本,用于考察模型的「该不该出手」边界判断,而不只是「出手后做得好不好」。

类别分组正例条数负例(过召回)小计
通用问答内容型20050250
配图内容型20050250
音乐功能型10050150
账号搜索功能型10050150
资源搜索功能型10050150
资源推荐功能型10050150
表情功能型10050150
box功能型10050150
商品功能型10050150
合计11004501550

正例合计 1100 条(2×200 + 7×100);每类各补 50 条过召回负例,负例合计 450 条;总规模约 1550 条 query。负例条数可按各类别线上实际过召回严重程度调整。

3.1负例(过召回)补充说明

什么是负例(过召回):对某个功能 / 类别而言,负例指「本不应触发该功能、模型却错误地把它当成该类别来处理」的 query。例如音乐类的负例,就是本来根本不该召回音乐、但线上模型却召回了音乐的样本。它直接暴露模型在「边界判定 / 意图识别」上的过召回缺陷。

关键要求 —— 必须注明「应归档类别」:每一条负例都不能只标「不是音乐」,而要进一步标注它本应被正确归属到哪个类别(可以是另一个功能型类别、内容型类别,或「无需任何功能(纯通用问答 / 闲聊)」)。这样负例既能评「是否过召回」,又能评「正确意图是什么」,形成完整的混淆分析。

所在类别过召回示例 query模型误判为正确应归档类别
音乐 七里香这首歌讲的是什么意思?」 音乐(召回播放) 通用问答(问歌词含义,非听歌)
音乐 「推荐几首适合跑步听的歌的歌单文章 音乐(召回单曲) 资源推荐 / 通用问答
账号搜索 马化腾是谁?」 账号搜索(找公众号) 通用问答(问人物,非找号)
商品 iPhone 是哪一年发布的?」 商品(召回购物卡片) 通用问答(问知识,非购物)
表情 「帮我解释一下这个 emoji 是什么意思」 表情(召回表情包) 通用问答

上表仅为示意,实际负例从线上过召回 Badcase 采样。「正确应归档类别」可多选 / 含「无需功能」。这批负例同时回流补充第 2 章的恶劣 Case 错题本,并支撑「该不该出手」这一边界维度的评估。

4评估维度(分层叠加)

采用「共性维度 + 类别附加维度」的叠加设计——所有类别共享一套内容维度(含个性化),特定类别再叠加自己的专属维度;恶劣 Case 错题本作为独立的横切类别,同样纳入维度矩阵参与统计。

类别 答案可读性 引用正确性 答案信息量 个性化 图片质量·风格·追问 功能性评估
通用问答
配图
音乐
账号搜索
资源搜索
资源推荐
表情
box
商品
恶劣 Case 错题本

说明:共性维度(可读性 / 引用正确性 / 信息量 / 个性化)对全部类别强制执行——其中个性化考察答案是否结合用户短期、长期记忆做出针对性回答;「图片质量·风格·追问」仅配图类(及含图样本)适用,「追问」指针对图片内容的进一步追问能否被正确理解与回应;「功能性评估」=「工具是否被正确调用」+「工具结果是否满足要求」,对功能型类别适用。恶劣 Case 错题本因来源混杂、可覆盖任意类型样本,故全维度可适用,并随线上 Badcase 动态更新。

最终分数计算:单个候选答案的最终得分 = 所有适用维度 × 所有所属类别下评分的加权求和(各维度、各类别按预设权重折算后汇总),而非任一单维度的孤立结果。

5两种结果形态

结果一

单题单答 · 绝对分档

对「每个问题 + 它的某一个答案」直接给出绝对评分。一般类别用 0 / 1 / 2 三档;配图类扩展为 -1 / 0 / 1 / 2 四档(增设 -1 表示「该配图却未出图 / 拒答」)。

-1
未配图 / 拒答
(仅配图)
0
不可用 / 错误
1
基本可用 / 有瑕疵
2
优秀 / 完全满足

用于衡量绝对质量、统计各类别达标率与平均分。功能型类别的 0 档通常对应「工具未调用」或「工具结果不满足」;配图的 -1 档区别于 0——0 是「出了图但不可用」,-1 是「根本没出图」。

结果二

单题多答 · 分维度排序

对「同一问题的多个候选答案」,在每个维度上分别给出相对排序 / 打分。

  • 逐维度横向对比(可读性、引用、信息量、功能性…)
  • 定位每个维度上哪个版本 / 模型更优
  • 适合多版本、多模型的横评场景

与结果一互补:结果一看「够不够好」,结果二看「谁更好」。

说明:本次涉及的评估不包含延展部分,仅覆盖上述已明确列出的类别与维度;延展能力(如更长尾的场景、深度多轮链路追踪等)暂不纳入本轮评测范围。