Step 1
创建评估任务
定义评估目标、业务场景、参评模型、域覆盖与评分模式。
任务摘要
Step 2
数据集编排与 Agent 采集
定义 Evaluation Suite:本轮评测的题目集合(按 domain / task_type 组织),用于测量特定能力与行为。数据来源:seed_train、dev_eval、private_test_pool、candidate_generated。
Evaluation Suite(当前任务数据集)
Validator 与晋升机制
Step 3
Score Agent 自动评估
Agent Harness:参评模型及其调用方式(API、model_id)。Evaluation Harness:本 run 的运行器 + 评分器 + 聚合逻辑;以 outcome(结果正确性)打分,多 trial 取平均。
模型自动评分概览
自动评估原则
- Evaluation Suite:Step 2 定义的题目集合,测量特定能力/行为。
- Agent Harness:被测模型及其调用方式;本 run 记录每条 response、latency(见「查看 run 明细」)。
- Evaluation Harness:运行器 + Grader(规则/LLM/人工组合)+ 聚合;以 outcome 打分,不评路径。
- 多 trial 时取同题多轮得分的平均,用于稳定性估计。
Step 4
人工评审
展示题目、模型回复和参考答案,让评审员按五个主观维度打分。
Step 5
结果汇总与加权模式
不同权重模式代表不同业务场景;本 run 采用的权重模式与场景描述见下方。
权重模式
能力域雷达图(场景效用与工种适用性)
六轴对应与 Anthropic 劳动力报告思路一致的「任务级暴露度」维度:知识/专家、逻辑/论证、工具/执行、规划/步骤、安全/合规、多模态/视觉,用于解读模型在不同业务场景与典型工种下的适用性。
说明:雷达图展示的是 6 个客观能力域上的得分(底层评分维度)。通用默认、表达优先、逻辑优先、科学严谨、技术执行、领域知识、文化价值观、多模态/视觉、可解释性、稳健与一致、交互与共情等是权重模式,表示评估时更看重哪类能力——它们对这 6 个域与主观维度做不同加权,从而得到不同场景下的总分与排名;切换权重模式会改变「最终结果」中的排序,但雷达图仍显示各模型在这 6 个能力域上的原始表现。
能力域 → 场景 / 效用 / 职业(工种)
错误归因分布
加权公式
最终结果
社区与专项排行榜
查看社区综合评估排行与各专项能力维度前三名及数据来源说明。