需求人群:
"ManiWAV的目标受众主要是机器人学和人工智能领域的研究者和开发者。他们可以利用ManiWAV来提高机器人在复杂环境中的操控技能,尤其是在视觉信息不明确或不完整的情况下,通过音频信息增强机器人的感知能力。"
使用场景示例:
使用ManiWAV系统擦拭白板上的图形
利用ManiWAV翻转平底锅中的百吉饼
使用ManiWAV将骰子从一个杯子倒入另一个杯子
使用ManiWAV用Velcro胶带固定电线
产品特色:
通过音频信号提供丰富的交互和物体属性信息
使用'ear-in-hand'数据收集设备同步收集音频和视觉反馈
直接从人类演示中学习机器人操控策略
在四个接触丰富的操控任务中展示系统能力
通过多样化的野外人类演示学习,实现对未见过环境的泛化
使用教程:
1. 安装并设置ManiWAV数据收集设备,确保音频和视觉反馈同步
2. 收集人类演示数据,包括接触事件和物体表面材料的音频信号
3. 使用收集的数据训练机器人操控策略
4. 在不同的野外环境中测试和验证策略的有效性
5. 根据测试结果调整策略,以提高机器人的泛化能力
6. 将训练好的策略应用于实际的机器人操控任务
浏览量:8
学习野外音频视觉数据的机器人操控
ManiWAV是一个研究项目,旨在通过野外的音频和视觉数据学习机器人操控技能。它通过收集人类演示的同步音频和视觉反馈,并通过相应的策略接口直接从演示中学习机器人操控策略。该模型展示了通过四个接触丰富的操控任务来证明其系统的能力,这些任务需要机器人被动地感知接触事件和模式,或主动地感知物体表面的材料和状态。此外,该系统还能够通过学习多样化的野外人类演示来泛化到未见过的野外环境中。
开源机器人模拟平台,用于生成无限机器人数据和泛化AI。
ManiSkill是一个领先的开源平台,专注于机器人模拟、无限机器人数据生成和泛化机器人AI。由HillBot.ai领导,该平台支持通过状态和/或视觉输入快速训练机器人,与其它平台相比,ManiSkill/SAPIEN实现了10-100倍的视觉数据收集速度。它支持在GPU上并行模拟和渲染RGB-D,速度高达30,000+FPS。ManiSkill提供了40多种技能/任务和2000多个对象的预构建任务,拥有数百万帧的演示和密集的奖励函数,用户无需自己收集资产或设计任务,可以专注于算法开发。此外,它还支持在每个并行环境中同时模拟不同的对象和关节,训练泛化机器人策略/AI的时间从天缩短到分钟。ManiSkill易于使用,可以通过pip安装,并提供简单灵活的GUI以及所有功能的广泛文档。
大规模城市环境中的机器人模拟交互平台。
GRUtopia是一个为各种机器人设计的交互式3D社会模拟平台,它通过模拟到现实(Sim2Real)的范式,为机器人学习提供了一个可行的路径。平台包含100k精细标注的交互场景,可以自由组合成城市规模的环境,覆盖89种不同的场景类别,为服务导向环境中通用机器人的部署提供了基础。此外,GRUtopia还包括一个由大型语言模型(LLM)驱动的NPC系统,负责社交互动、任务生成和分配,模拟了具身AI应用的社交场景。
为与人类安全共存而开发的创新双臂机器人机制
AMBIDEX是NAVER LABS开发的双臂机器人,旨在实现与人类的安全共存。该机器人具有强大的动力传递机制,同时保持轻便和灵活,满足坚韧和安全性的要求。AMBIDEX项目正在研究新的学习方式,使机器人能够学习人类的动作能力,以执行日常遇到的复杂任务。
提供全面的MLLMs评估
该工具旨在通过对最新专有和开源MLLMs进行定性研究,从文本、代码、图像和视频四个模态的角度,评估其泛化能力、可信度和因果推理能力,以提高MLLMs的透明度。我们相信这些属性是定义MLLMs可靠性的几个代表性因素,支持各种下游应用。具体而言,我们评估了闭源的GPT-4和Gemini以及6个开源LLMs和MLLMs。总体上,我们评估了230个手动设计的案例,定性结果总结为12个分数(即4个模态乘以3个属性)。总共,我们揭示了14个实证发现,有助于了解专有和开源MLLMs的能力和局限性,以更可靠地支持多模态下游应用。
© 2024 AIbase 备案号:闽ICP备08105208号-14