简介:

通过强化学习微调大型视觉-语言模型作为决策代理

功能:

提供了修改版的LLaVA模型。

原创的GymCards环境。

为GymCards和ALFWorld环境提供的RL4VLM代码库。

详细的训练流程,包括准备SFT检查点和使用SFT检查点运行RL。

提供了两种不同的conda环境,以适应GymCards和ALFWorld的不同包需求。

提供了运行算法的详细指南和模板脚本。

强调了使用特定检查点作为起点的重要性,并提供了使用不同初始模型的灵活性。

需求人群:

"目标受众主要是机器学习和人工智能领域的研究人员和开发者,他们需要利用视觉-语言模型进行决策制定和强化学习研究。"

浏览量:36

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图