快速开始#
概述#
本节将介绍如何发起一个评测任务。
🛠️ 环境准备#
详情查看 环境准备,环境准备安装完成之后,可通过命令行工具 agieval 使用框架能力。详细介绍查看 命令行工具。
💻 环境搭建#
我们强烈建议使用 conda 来管理您的 Python 环境。
虚拟环境(可选)#
Bash
# Python版本: 要求 Python 3.11 或更高版本
conda create --name agieval python=3.11 -y
conda activate agieval
源码安装#
- 下载源码
Bash
git clone https://github.com/AGI-Eval-Official/agi-eval.git - 依赖安装
Bash
cd agi-eval # 安装 Native backend pip install -e .
📚 数据准备#
框架已适配了部分公开数据集可直接使用,通过 agieval benchmarks 命令查看支持的数据集列表,首次评测这些数据集会自动下载数据文件到本地datasets目录下。 详细说明查看 公开数据集。
如果有新的数据集要评测,查看 数据集适配。
🧠 模型准备#
查看 模型准备 确保有可调用的模型API。
API模型#
目前仅支持通过litellm调用API进行评测, 所以需要提供支持OpenAI API协议的模型服务。如果评测的模型已部署有支持OpenAI API协议的模型服务可以直接使用。执行以下命令配置模型参数:
Bash
# 待评测模型
export API_BASE_URL=http://your-api-endpoint
export MODEL_NAME=your-model-name
export API_KEY=your-api-key
# 打分模型
export SCORE_API_BASE_URL=http://your-api-endpoint
export SCORE_MODEL_NAME=your-model-name
export SCORE_API_KEY=your-api-key
🏗️ ️开始评测#
执行 agieval start test 命令启动评测任务。
启动评测任务的更详细介绍查看 开始评测。
📈 评测结果#
通过 agieval appstart --result_dir=result/test 命令启动评测结果可视化服务,查看评测过程及结果。详情查看 评测结果。
更多#
点击以下链接了解框架更多的细节。