Video Language Planning

Video Language Planning

Video Language Planning(VLP)是一种算法,通过训练视觉语言模型和文本到视频模型,实现了对复杂长期任务的视觉规划。VLP接受长期任务指令和当前图像观察作为输入,并输出一个详细的多模态(视频和语言)规划,描述如何完成最终任务。VLP能够在不同的机器人领域中合成长期视频规划,从多物体重新排列到多摄像头双臂灵巧操作。生成的视频规划可以通过目标条件策略转化为真实机器人动作。实验证明,与之前的方法相比,VLP显著提高了长期任务的成功率。

需求人群:

"适用于复杂长期任务的视觉规划"

使用场景示例:

将物体堆叠在桌子中央

将水果放入顶层抽屉

将积木按颜色分组

产品特色:

训练视觉语言模型和文本到视频模型

生成详细的多模态规划

合成长期视频规划

转化为真实机器人动作

浏览量:127

打开站点

网站流量情况

最新流量情况

月访问量

468

平均访问时长

00:00:00

每次访问页数

1.02

跳出率

42.08%

流量来源

直接访问

41.55%

自然搜索

35.08%

邮件

0.19%

外链引荐

12.43%

社交媒体

9.04%

展示广告

0

截止目前所有流量趋势图

类似产品

© 2025     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图