Video Language Planning

Video Language Planning

Video Language Planning(VLP)是一种算法,通过训练视觉语言模型和文本到视频模型,实现了对复杂长期任务的视觉规划。VLP接受长期任务指令和当前图像观察作为输入,并输出一个详细的多模态(视频和语言)规划,描述如何完成最终任务。VLP能够在不同的机器人领域中合成长期视频规划,从多物体重新排列到多摄像头双臂灵巧操作。生成的视频规划可以通过目标条件策略转化为真实机器人动作。实验证明,与之前的方法相比,VLP显著提高了长期任务的成功率。

需求人群:

"适用于复杂长期任务的视觉规划"

使用场景示例:

将物体堆叠在桌子中央

将水果放入顶层抽屉

将积木按颜色分组

产品特色:

训练视觉语言模型和文本到视频模型

生成详细的多模态规划

合成长期视频规划

转化为真实机器人动作

浏览量:57

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
网站流量情况

最新流量情况

月访问量

2676

平均访问时长

00:00:32

每次访问页数

0.60

跳出率

53.63%

流量来源

直接访问

26.11%

自然搜索

8.80%

邮件

0

外链引荐

65.09%

社交媒体

0

展示广告

0

截止目前所有流量趋势图

地理流量分布情况

中国

24.51%

土耳其

22.91%

美国

21.64%

西班牙

11.62%

德国

8.62%

类似产品

© 2024     AIbase    备案号:闽ICP备2023012347号-1

隐私政策

用户协议

意见反馈 网站地图