快速开始#

概述#

本节将介绍如何发起一个评测任务。

🛠️ 环境准备#

详情查看环境准备，环境准备安装完成之后，可通过命令行工具 agieval 使用框架能力。详细介绍查看命令行工具。

💻 环境搭建#

我们强烈建议使用 conda 来管理您的 Python 环境。

虚拟环境（可选）#

Bash

# Python版本: 要求 Python 3.11 或更高版本
conda create --name agieval python=3.11 -y
conda activate agieval

源码安装#

下载源码

Bash

git clone https://github.com/AGI-Eval-Official/agi-eval.git

依赖安装

Bash

cd agi-eval

# 安装 Native backend
pip install -e .

📚 数据准备#

框架已适配了部分公开数据集可直接使用，通过 agieval benchmarks 命令查看支持的数据集列表，首次评测这些数据集会自动下载数据文件到本地datasets目录下。详细说明查看公开数据集。

如果有新的数据集要评测，查看数据集适配。

🧠 模型准备#

查看模型准备确保有可调用的模型API。

API模型#

目前仅支持通过litellm调用API进行评测, 所以需要提供支持OpenAI API协议的模型服务。如果评测的模型已部署有支持OpenAI API协议的模型服务可以直接使用。执行以下命令配置模型参数:

Bash

# 待评测模型
export API_BASE_URL=http://your-api-endpoint
export MODEL_NAME=your-model-name
export API_KEY=your-api-key

# 打分模型
export SCORE_API_BASE_URL=http://your-api-endpoint
export SCORE_MODEL_NAME=your-model-name
export SCORE_API_KEY=your-api-key

🏗️ ️开始评测#

执行 agieval start test 命令启动评测任务。

启动评测任务的更详细介绍查看开始评测。

📈 评测结果#

通过 agieval appstart --result_dir=result/test 命令启动评测结果可视化服务，查看评测过程及结果。详情查看评测结果。

快速开始#

概述#

🛠️ 环境准备#

💻 环境搭建#

虚拟环境（可选）#

源码安装#

📚 数据准备#

🧠 模型准备#

API模型#

🏗️ ️开始评测#

📈 评测结果#

更多#