请问在step-GUI里面评测的osworld-g评测集,是用的original subset评测还是refined subset进行评测的呢?
请问在step-GUI里面评测的osworld-g评测集,是用的original subset评测还是refined subset进行评测的呢?