Skip to content

快速开始#

概述#

本节将介绍如何发起一个评测任务。

🛠️ 环境准备#

详情查看 环境准备,环境准备安装完成之后,可通过命令行工具 agieval 使用框架能力。详细介绍查看 命令行工具

💻 环境搭建#

我们强烈建议使用 conda 来管理您的 Python 环境。

虚拟环境(可选)#

Bash
# Python版本: 要求 Python 3.11 或更高版本
conda create --name agieval python=3.11 -y
conda activate agieval

源码安装#

  • 下载源码
    Bash
    git clone https://github.com/AGI-Eval-Official/agi-eval.git
    
  • 依赖安装
    Bash
    cd agi-eval
    
    # 安装 Native backend
    pip install -e .  
    

📚 数据准备#

框架已适配了部分公开数据集可直接使用,通过 agieval benchmarks 命令查看支持的数据集列表,首次评测这些数据集会自动下载数据文件到本地datasets目录下。 详细说明查看 公开数据集

如果有新的数据集要评测,查看 数据集适配

🧠 模型准备#

查看 模型准备 确保有可调用的模型API。

API模型#

目前仅支持通过litellm调用API进行评测, 所以需要提供支持OpenAI API协议的模型服务。如果评测的模型已部署有支持OpenAI API协议的模型服务可以直接使用。执行以下命令配置模型参数:

Bash
# 待评测模型
export API_BASE_URL=http://your-api-endpoint
export MODEL_NAME=your-model-name
export API_KEY=your-api-key

# 打分模型
export SCORE_API_BASE_URL=http://your-api-endpoint
export SCORE_MODEL_NAME=your-model-name
export SCORE_API_KEY=your-api-key

🏗️ ️开始评测#

执行 agieval start test 命令启动评测任务。

启动评测任务的更详细介绍查看 开始评测

📈 评测结果#

通过 agieval appstart --result_dir=result/test 命令启动评测结果可视化服务,查看评测过程及结果。详情查看 评测结果

更多#

点击以下链接了解框架更多的细节。