问答场景分类评测方案说明

面向 9 类问答场景的分层评测设计：所有类别统一评估内容质量（可读性 / 引用正确性 / 信息量 / 个性化），功能型类别叠加工具调用与结果的功能性评估；另设一类「恶劣 Case 错题本」专项动态追踪线上模型一贯易错的样本。最终产出「单答分档」与「多答分维度排序」两种结果。

线上真实采样单轮 + 多轮 9 个子类别线上模型 + WeLM 采样分层评估维度正例 + 过召回负例 2 种结果形态

1评测流程总览

2类别分组

9 个子类别按评估侧重点分为两组，分别走不同的评估路径：

内容型（重答案内容本身的质量）：

通用问答配图

功能型（重工具是否被正确调用、工具结果是否满足要求）：

音乐账号搜索资源搜索资源推荐表情 box 商品

恶劣 Case 错题本（线上模型一贯易错、需重点盯防的硬骨头）：

错题本集合

错题本是一个独立于内容型 / 功能型的横切集合：它汇集历史上反复出错的样本，来源不限（可来自任意子类别、用户投诉、Badcase 回流、人工标注等），唯一的共同点是「我们线上模型容易答错」。该集合动态更新——新发现的 Badcase 持续补充进来，已被模型稳定攻克的 Case 可定期退出，使其始终代表当前最棘手的失败面。

3数据来源与规模目标

Query 来源：全部来自线上真实用户数据采样，包含单轮与多轮（带对话历史）两种形态，按 9 个子类别的真实分布覆盖。

候选答案构成：每条 query 对应两路答案—— a · 线上模型（线上正在服务的答案） b · WeLM 模型采样 3–5 条即「线上 1 条 + WeLM 3–5 条」的多答候选集，直接支撑结果二的多答分维度排序横评。

各类别数据量目标（正例 + 负例）：每个类别除「正例」（确实应当走该功能 / 类别的样本）外，额外补充一批「负例（过召回）」——即本不应被召回为该功能、却被线上模型误召回的样本，用于考察模型的「该不该出手」边界判断，而不只是「出手后做得好不好」。

类别	分组	正例条数	负例（过召回）	小计
通用问答	内容型	200	50	250
配图	内容型	200	50	250
音乐	功能型	100	50	150
账号搜索	功能型	100	50	150
资源搜索	功能型	100	50	150
资源推荐	功能型	100	50	150
表情	功能型	100	50	150
box	功能型	100	50	150
商品	功能型	100	50	150
合计	—	1100	450	1550 条

正例合计 1100 条（2×200 + 7×100）；每类各补 50 条过召回负例，负例合计 450 条；总规模约 1550 条 query。负例条数可按各类别线上实际过召回严重程度调整。

3.1负例（过召回）补充说明

什么是负例（过召回）：对某个功能 / 类别而言，负例指「本不应触发该功能、模型却错误地把它当成该类别来处理」的 query。例如音乐类的负例，就是本来根本不该召回音乐、但线上模型却召回了音乐的样本。它直接暴露模型在「边界判定 / 意图识别」上的过召回缺陷。

关键要求 —— 必须注明「应归档类别」：每一条负例都不能只标「不是音乐」，而要进一步标注它本应被正确归属到哪个类别（可以是另一个功能型类别、内容型类别，或「无需任何功能（纯通用问答 / 闲聊）」）。这样负例既能评「是否过召回」，又能评「正确意图是什么」，形成完整的混淆分析。

所在类别	过召回示例 query	模型误判为	正确应归档类别
音乐	「七里香这首歌讲的是什么意思？」	音乐（召回播放）	通用问答（问歌词含义，非听歌）
音乐	「推荐几首适合跑步听的歌的歌单文章」	音乐（召回单曲）	资源推荐 / 通用问答
账号搜索	「马化腾是谁？」	账号搜索（找公众号）	通用问答（问人物，非找号）
商品	「iPhone 是哪一年发布的？」	商品（召回购物卡片）	通用问答（问知识，非购物）
表情	「帮我解释一下这个 emoji 是什么意思」	表情（召回表情包）	通用问答

上表仅为示意，实际负例从线上过召回 Badcase 采样。「正确应归档类别」可多选 / 含「无需功能」。这批负例同时回流补充第 2 章的恶劣 Case 错题本，并支撑「该不该出手」这一边界维度的评估。

4评估维度（分层叠加）

采用「共性维度 + 类别附加维度」的叠加设计——所有类别共享一套内容维度（含个性化），特定类别再叠加自己的专属维度；恶劣 Case 错题本作为独立的横切类别，同样纳入维度矩阵参与统计。

类别	答案可读性	引用正确性	答案信息量	个性化	图片质量·风格·追问	功能性评估
通用问答	✓	✓	✓	✓	—	—
配图	✓	✓	✓	✓	✓	—
音乐	✓	✓	✓	✓	—	✓
账号搜索	✓	✓	✓	✓	—	✓
资源搜索	✓	✓	✓	✓	—	✓
资源推荐	✓	✓	✓	✓	—	✓
表情	✓	✓	✓	✓	—	✓
box	✓	✓	✓	✓	—	✓
商品	✓	✓	✓	✓	—	✓
恶劣 Case 错题本	✓	✓	✓	✓	✓	✓

说明：共性维度（可读性 / 引用正确性 / 信息量 / 个性化）对全部类别强制执行——其中个性化考察答案是否结合用户短期、长期记忆做出针对性回答；「图片质量·风格·追问」仅配图类（及含图样本）适用，「追问」指针对图片内容的进一步追问能否被正确理解与回应；「功能性评估」=「工具是否被正确调用」+「工具结果是否满足要求」，对功能型类别适用。恶劣 Case 错题本因来源混杂、可覆盖任意类型样本，故全维度可适用，并随线上 Badcase 动态更新。

最终分数计算：单个候选答案的最终得分 = 所有适用维度 × 所有所属类别下评分的加权求和（各维度、各类别按预设权重折算后汇总），而非任一单维度的孤立结果。

5两种结果形态

结果一

单题单答 · 绝对分档

对「每个问题 + 它的某一个答案」直接给出绝对评分。一般类别用 0 / 1 / 2 三档；配图类扩展为 -1 / 0 / 1 / 2 四档（增设 -1 表示「该配图却未出图 / 拒答」）。

-1
未配图 / 拒答
（仅配图）

0
不可用 / 错误

1
基本可用 / 有瑕疵

2
优秀 / 完全满足

用于衡量绝对质量、统计各类别达标率与平均分。功能型类别的 0 档通常对应「工具未调用」或「工具结果不满足」；配图的 -1 档区别于 0——0 是「出了图但不可用」，-1 是「根本没出图」。

结果二

单题多答 · 分维度排序

对「同一问题的多个候选答案」，在每个维度上分别给出相对排序 / 打分。

逐维度横向对比（可读性、引用、信息量、功能性…）
定位每个维度上哪个版本 / 模型更优
适合多版本、多模型的横评场景

与结果一互补：结果一看「够不够好」，结果二看「谁更好」。

说明：本次涉及的评估不包含延展部分，仅覆盖上述已明确列出的类别与维度；延展能力（如更长尾的场景、深度多轮链路追踪等）暂不纳入本轮评测范围。