HaxiTAG Eval Workbench

常见问题

这个评估工作台的核心方法论是什么？

以五层能力金字塔定义评估内涵，并通过三层评估架构（基准/对抗/社会）验证可信度；对各维度独立计分再加权汇总，得到可解释、可复现的综合评分与报告。

支持评估哪些类型的模型与能力？

支持 LLM、VLM 以及 Agent/RL 相关的任务形态评估，覆盖基础能力、认知能力、价值观与人格、社会智慧、适配与治理等层级能力，并可结合多维度指标进行对比分析。

自动化评估与人工评审如何结合？

自动化部分负责标准数据集运行、指标计算与可复现评分；人工评审用于主观维度、边界案例与复核校准。两者合并形成每维度得分、加权汇总分与对比报告。

评估数据与结果的合规边界是什么？

仅上传与评估相关且已获授权的数据；避免包含账号凭据、密钥、个人敏感信息或内部机密。评估产物用于对比与复核，不应暴露敏感输入与隐私信息。

Step 1

创建评估任务

定义评估目标、业务场景、参评模型、域覆盖与评分模式。

任务摘要

Step 2

数据集编排与 Agent 采集

定义 Evaluation Suite：本轮评测的题目集合（按 domain / task_type 组织），用于测量特定能力与行为。数据来源：seed_train、dev_eval、private_test_pool、candidate_generated。

Evaluation Suite（当前任务数据集）

Validator 与晋升机制

Step 3

Score Agent 自动评估

Agent Harness：参评模型及其调用方式（API、model_id）。Evaluation Harness：本 run 的运行器 + 评分器 + 聚合逻辑；以 outcome（结果正确性）打分，多 trial 取平均。

模型自动评分概览

自动评估原则

Evaluation Suite：Step 2 定义的题目集合，测量特定能力/行为。
Agent Harness：被测模型及其调用方式；本 run 记录每条 response、latency（见「查看 run 明细」）。
Evaluation Harness：运行器 + Grader（规则/LLM/人工组合）+ 聚合；以 outcome 打分，不评路径。
多 trial 时取同题多轮得分的平均，用于稳定性估计。

Step 4

人工评审

展示题目、模型回复和参考答案，让评审员按五个主观维度打分。

Step 5

结果汇总与加权模式

不同权重模式代表不同业务场景；本 run 采用的权重模式与场景描述见下方。

权重模式

能力域雷达图（场景效用与工种适用性）

六轴对应与 Anthropic 劳动力报告思路一致的「任务级暴露度」维度：知识/专家、逻辑/论证、工具/执行、规划/步骤、安全/合规、多模态/视觉，用于解读模型在不同业务场景与典型工种下的适用性。

说明：雷达图展示的是 6 个客观能力域上的得分（底层评分维度）。通用默认、表达优先、逻辑优先、科学严谨、技术执行、领域知识、文化价值观、多模态/视觉、可解释性、稳健与一致、交互与共情等是权重模式，表示评估时更看重哪类能力——它们对这 6 个域与主观维度做不同加权，从而得到不同场景下的总分与排名；切换权重模式会改变「最终结果」中的排序，但雷达图仍显示各模型在这 6 个能力域上的原始表现。

能力域 → 场景 / 效用 / 职业（工种）

错误归因分布

加权公式

最终结果

社区与专项排行榜

查看社区综合评估排行与各专项能力维度前三名及数据来源说明。

模型排行榜

下方表格数据来自 config/community_leaderboard.json，可与 OpenRouter 模型列表启发式合并（见弹层「更新模型和指标」）；专项卡片来自 config/specialized_leaderboard.json。

全球主流 LLM 评测与排行生态（参考）

截至 2026 年前后常见范式概览，便于理解下方社区合并表中各维度数据来源；不同平台方法论不同，请交叉验证。

人类偏好与 Arena（贴近真实对话）

LMSYS Chatbot Arena：盲测 Elo、Vision Arena；对话 / 编码等综合偏好。
Arena AI 等变体：图像、代码等社区投票排行。

开源 / 标准化基准（可复现）

Hugging Face Open LLM Leaderboard、Open VLM Leaderboard：Harness 类任务（ARC、MMLU、GSM8K、GPQA、数学、编码等）。
Vellum / LLM Stats 等：多维度聚合排行。

综合分析（质量 · 速度 · 价格）

Artificial Analysis：Intelligence Index（GPQA、AIME、LiveCodeBench、MMLU-Pro 等）、多语言、视觉推理、API 性能与成本。
Scale AI Labs 等：专家基准与 Agent / VLM 专项。

专项能力（编码 Agent · 数学 · 多语言 · VLM）

SWE-bench、Aider、LiveCodeBench；GPQA / AIME / MATH；多语言指数；Open VLM、MMStar、Vision Arena。
长上下文与 Agent：τ-Bench、OSWorld、Terminal-Bench 等常出现在综合榜单引用中。

学术框架与社区

Papers with Code、HELM（Stanford）、BenchGecko；Reddit / Hugging Face / GitHub 讨论区；Awesome AI Leaderboards 等资源索引。

评估任务工作台

类比科举评价体系的评估机制（打分内涵）

常见问题

评估任务工作台

创建评估任务

任务摘要

数据集编排与 Agent 采集

Evaluation Suite（当前任务数据集）

Validator 与晋升机制

Score Agent 自动评估

模型自动评分概览

自动评估原则

人工评审

结果汇总与加权模式

权重模式

能力域雷达图（场景效用与工种适用性）

能力域 → 场景 / 效用 / 职业（工种）

错误归因分布

加权公式

最终结果

社区与专项排行榜

评测数据集管理

导入测试集合

已导入集合

模型排行榜

全球主流 LLM 评测与排行生态（参考）

快捷入口

社区评估 · 表内预览

专项评价对比 · 摘要

系统配置

LLM 推理

向量 / Embedding

账号管理

账号列表