【VLM-RM】Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning 学习笔记

张开发
2026/4/13 22:49:18 15 分钟阅读

分享文章

【VLM-RM】Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning 学习笔记
Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning摘要强化学习RL要么需要手动指定奖励函数但这通常不可行要么是从大量人类反馈中学习奖励模型这通常非常昂贵。本文研究了一种更具样本效率的替代方案利用预训练的视觉语言模型作为零样本奖励模型通过自然语言来指定任务。

更多文章