本仓库旨在为 ZJU-REAL GUI Grounding 提供一个一键测评的框架,参考:https://github.com/InfiXAI/InfiGUI-G1/ 仓库的实现
本框架集成的可供测评的 Benchmark有:
- ScreenSpot-Pro
- ScreenSpot-v2
- UI-Vision
- MMBench-GUI
- I2E-Bench
GUIGrounding_Inference
├── environment.yml # Conda 环境配置文件
├── requirements.txt # 环境详细配置
├── eval/ # 核心评测模块
│ ├── eval.py # 评测启动脚本
│ ├── data.py # 数据加载与预处理
│ ├── prompts.py # Prompt 构建与模型注册
│ ├── dataset_info.json # 数据集元数据配置
│ ├── models/ # 模型架构定义
│ │ ├── __init__.py
│ │ └── qwen2vl.py
│ └── __init__.py
└── README.md
关于环境配置,本框架需要的详细环境可见requirements.txt 和 environment.yml ,具体流程:
conda create gui-grounding-eval
conda activate gui-grounding-eval
pip install -r requirements.txt或
conda env create -f environment.yml关于使用,这里以测评 InfiGUI-G1-3B 模型为例:
python eval/eval.py \
/home/shenyl/hf/model/InfiX-ai/InfiGUI-G1-3B \
--benchmark screenspot-pro \
--tensor-parallel 4python eval/eval.py \
/home/shenyl/hf/model/InfiX-ai/InfiGUI-G1-3B \
--benchmark screenspot-v2 \
--tensor-parallel 4python eval/eval.py \
/home/shenyl/hf/model/InfiX-ai/InfiGUI-G1-3B \
--benchmark ui-vision \
--tensor-parallel 4python eval/eval.py \
/home/shenyl/hf/model/InfiX-ai/InfiGUI-G1-3B \
--benchmark mmbench-gui \
--tensor-parallel 4python eval/eval.py \
/home/shenyl/hf/model/InfiX-ai/InfiGUI-G1-3B \
--benchmark i2e-bench \
--tensor-parallel 4数据集的路径在 dataset_info.json 中设定,可根据实际需求对应修改,默认配置为 ZJU-REAL 服务器中对应路径
如需修改评测模型,只需在prompts.py中添加对应模型的类(可参考现有的class InfiguiG1Prompt)并在PROMPT_PROCESSORS中为待评测模型进行注册