Eval

EVAL

LLM / VLM 评估工作台 · Evaluation Harness

评估任务工作台

把一次评测拆成任务创建、Evaluation Suite 编排、Agent Harness 自动评估、人工评审和加权结果汇总五个可解释步骤。不同权重模式代表不同业务场景,同一模型在不同场景下排名可能不同。

Step 1

创建评估任务

定义评估目标、业务场景、参评模型、域覆盖与评分模式。

任务摘要

Step 2

数据集编排与 Agent 采集

定义 Evaluation Suite:本轮评测的题目集合(按 domain / task_type 组织),用于测量特定能力与行为。数据来源:seed_train、dev_eval、private_test_pool、candidate_generated。

Evaluation Suite(当前任务数据集)

Validator 与晋升机制

Step 3

Score Agent 自动评估

Agent Harness:参评模型及其调用方式(API、model_id)。Evaluation Harness:本 run 的运行器 + 评分器 + 聚合逻辑;以 outcome(结果正确性)打分,多 trial 取平均。

模型自动评分概览

自动评估原则

  • Evaluation Suite:Step 2 定义的题目集合,测量特定能力/行为。
  • Agent Harness:被测模型及其调用方式;本 run 记录每条 response、latency(见「查看 run 明细」)。
  • Evaluation Harness:运行器 + Grader(规则/LLM/人工组合)+ 聚合;以 outcome 打分,不评路径。
  • trial 时取同题多轮得分的平均,用于稳定性估计。

Step 4

人工评审

展示题目、模型回复和参考答案,让评审员按五个主观维度打分。

Step 5

结果汇总与加权模式

不同权重模式代表不同业务场景;本 run 采用的权重模式与场景描述见下方。

权重模式

能力域雷达图(场景效用与工种适用性)

六轴对应与 Anthropic 劳动力报告思路一致的「任务级暴露度」维度:知识/专家、逻辑/论证、工具/执行、规划/步骤、安全/合规、多模态/视觉,用于解读模型在不同业务场景与典型工种下的适用性。

说明:雷达图展示的是 6 个客观能力域上的得分(底层评分维度)。通用默认、表达优先、逻辑优先、科学严谨、技术执行、领域知识、文化价值观、多模态/视觉、可解释性、稳健与一致、交互与共情等是权重模式,表示评估时更看重哪类能力——它们对这 6 个域与主观维度做不同加权,从而得到不同场景下的总分与排名;切换权重模式会改变「最终结果」中的排序,但雷达图仍显示各模型在这 6 个能力域上的原始表现。

能力域 → 场景 / 效用 / 职业(工种)

错误归因分布

加权公式

最终结果

社区与专项排行榜

查看社区综合评估排行与各专项能力维度前三名及数据来源说明。