评测结果#

概述#

本节将介绍评测结果的数据结构以及可视化服务。

数据结构#

评测结果存储地址由 work_dir 决定。

目录结构#

Bash

work_dir
├── dataset_1
├── dataset_2
├── dataset_3
│   ├── per_instance_stats.json
│   ├── scenario_state.json
│   ├── stats.json
├── logs
├── benchmark_config.json
└── eval_config.json

详细说明#

logs#

评测日志文件，存储评测过程中产生的日志信息。

benchmark_config.json#

通过配置解析器统一转换的完整数据集配置文件，详细信息查看数据集配置

eval_config.json#

评测任务配置，详细信息查看任务配置。

dataset#

各数据集的评测结果以及中间数据。

scenario_state.json 存储数据集的每一条数据以及其模型推理结果。
per_instance_stats.json 存储数据集的每一条数据的评测结果，即各项评测指标。
stats.json 存储数据集的最终评测结果，即各项评测指标的平均值。

可视化#

框架内置了评测结果可视化服务，支持对评测结果进行简单的可视化展示。

启动方式#

单独启动#

可通过 agieval appstart 命令启动可视化服务，详见启动评测结果可视化服务

自动启动#

评测流程中 报告生成阶段 可用于生成评测报告，目前框架内置实现了 可视化报告生成器 即 report 类型的步骤插件。

在评测流程中配置报告生成阶段，即可自动启动可视化服务。

JSON

{
    "plugin_implement": "SimpleReportProcessor",
    "plugins":
    [
        {
            "plugin_implement": "VisualizationReport"
        }
    ]
}

报告介绍#

评测指标	评测详情
评测参数	评测流程