需求人群:
"用于训练人形机器人执行各种任务,如搬运、装配、探索等"
使用场景示例:
使用GR00T训练机器人学会如何安全搬运易碎物品
通过观察视频让GR00T模型生成机器人装配机械零件的动作序列
利用GR00T的强化学习功能训练机器人在未知环境中自主探索
产品特色:
模仿学习
强化学习
从视频数据生成机器人动作
接受多模态指令和交互数据作为输入
输出机器人执行动作
浏览量:47
最新流量情况
月访问量
3063.05k
平均访问时长
00:03:24
每次访问页数
3.59
跳出率
48.21%
流量来源
直接访问
30.58%
自然搜索
51.89%
邮件
0.03%
外链引荐
16.08%
社交媒体
1.33%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
21.14%
印度
4.59%
日本
4.27%
美国
17.54%
用于人形机器人学习的通用基础模型
NVIDIA Project GR00T是一种通用基础模型,可在仿真和真实世界中改变人形机器人的学习方式。通过在NVIDIA GPU加速模拟中进行训练,GR00T使得人形机器人能够从少量的人类演示中通过模仿学习和NVIDIA Isaac Lab进行强化学习,并可从视频数据生成机器人动作。GR00T模型接受多模态指令和过去的交互作为输入,并输出机器人需要执行的动作。
自动化搜索人工生命的基础模型
SakanaAI/asal是一个利用基础模型(Foundation Models, FMs)来自动化搜索人工生命(Artificial Life, ALife)的科研项目。该项目通过结合最新的人工智能技术,特别是视觉语言基础模型,来发现能够产生目标现象、生成时间开放性新颖性以及照亮整个有趣多样的模拟空间的人工生命模拟。它能够跨越多种ALife基底,包括Boids、Particle Life、Game of Life、Lenia和神经细胞自动机等,展示了通过技术手段加速人工生命研究的潜力。
一种基于视频扩散模型的多任务灵巧手操控通用机器人策略
Video Prediction Policy(VPP)是一种基于视频扩散模型(VDMs)的机器人策略,能够准确预测未来的图像序列,展现出对物理动力学的良好理解。VPP利用VDMs中的视觉表示来反映物理世界的演变,这种表示被称为预测性视觉表示。通过结合多样化的人类或机器人操控数据集,并采用统一的视频生成训练目标,VPP在两个模拟环境和两个真实世界基准测试中均优于现有方法。特别是在Calvin ABC-D基准测试中,相较于先前的最佳技术,VPP实现了28.1%的相对改进,并在复杂的真实世界灵巧手操控任务中提高了28.8%的成功率。
用于强化学习的Unitree机器人平台
Unitree RL GYM是一个基于Unitree机器人的强化学习平台,支持Unitree Go2、H1、H1_2、G1等型号。该平台提供了一个集成环境,允许研究人员和开发者训练和测试强化学习算法在真实或模拟的机器人上的表现。它的重要性在于推动机器人自主性和智能技术的发展,特别是在需要复杂决策和运动控制的应用中。Unitree RL GYM是开源的,可以免费使用,主要面向科研人员和机器人爱好者。
将通用人工智能带入物理世界
Physical Intelligence (π) 是一个由工程师、科学家、机器人学家和公司建设者组成的团队,致力于开发基础模型和学习算法,以驱动当今的机器人和未来的物理驱动设备。该团队旨在将通用人工智能技术应用于物理世界,推动机器人技术的发展和创新。
首款通用型机器人基础模型
π0是一个通用型机器人基础模型,旨在通过实体化训练让AI系统获得物理智能,能够执行各种任务,就像大型语言模型和聊天机器人助手一样。π0通过训练在机器人上的实体经验获得物理智能,能够直接输出低级电机命令,控制多种不同的机器人,并可以针对特定应用场景进行微调。π0的开发代表了人工智能在物理世界应用方面的重要进步,它通过结合大规模多任务和多机器人数据收集以及新的网络架构,提供了迄今为止最有能力、最灵巧的通用型机器人政策。
模块化仿人机器人,具有高自由度
Agibot X1是由Agibot开发的模块化仿人机器人,具有高自由度,基于Agibot开源框架AimRT作为中间件,并使用强化学习进行运动控制。该项目包括模型推理、平台驱动和软件仿真等多个功能模块。AimRT框架是一个用于机器人应用开发的开源框架,它提供了一套完整的工具和库,以支持机器人的感知、决策和行动。Agibot X1项目的重要性在于它为机器人研究和教育提供了一个高度可定制和可扩展的平台。
全栈开源机器人
智元灵犀X1是一款开源人形机器人,具有29个关节和2个夹爪,支持扩展头部3自由度。它提供了详细的开发指南和开源代码,使开发者能够快速搭建并进行二次开发。该产品代表了智能机器人领域的先进技术,具有高度的灵活性和可扩展性,适用于教育、研究和商业开发等多种场景。
未来感机器人,轻松上手,玩得尽兴。
BabyAlpha Chat 是一款具有未来感的机器人模型,全身搭载12个高性能执行器,配合蔚蓝自研五层运动控制算法,使得其运动性能极其出众。最大前进速度可达每小时3.2公里,最大旋转速度可达每秒180度。BabyAlpha Chat 不仅是一个高科技玩具,也是教育和娱乐的完美结合,适合各个年龄段的用户。其价格亲民,起售价为4999元,并有特惠活动直降2000元,截止日期为11月16日。
先进的通用机器人代理
GR-2是一个先进的通用机器人代理,专为多样化和可泛化的机器人操作而设计。它首先在大量互联网视频上进行预训练,以捕捉世界的动态。这种大规模预训练涉及3800万视频剪辑和超过500亿个标记,使GR-2能够在随后的策略学习中跨广泛范围的机器人任务和环境进行泛化。随后,GR-2针对视频生成和动作预测进行了微调,使用机器人轨迹。它展示了令人印象深刻的多任务学习能力,在100多个任务中平均成功率达到97.7%。此外,GR-2在新的、以前未见过的场景中表现出色,包括新的背景、环境、对象和任务。值得注意的是,GR-2随着模型大小的增加而高效扩展,突显了其持续增长和应用的潜力。
家用智能人形机器人,学习照顾您的生活。
NEO是1X Technologies公司开发的一款家用智能人形机器人,它通过模拟学习,能够理解自然语言和物理空间,执行实际任务。NEO基于EVE机器人的现实世界经验,通过1X Studio的远程操作训练,能够智能地完成任务。NEO的主要优点包括安全性、智能性和可扩展性,旨在为家庭提供帮助,同时保持安全和高效。
基于 GPT-4 的代码审查模型
CriticGPT 是基于 GPT-4 模型开发的工具,旨在帮助人类审查 ChatGPT 的代码输出。通过识别错误并提供评论,提高训练师审查的准确性和效率。该工具能有效捕捉潜在问题,为 AI 模型的改进提供有力支持。
开源视觉-语言-动作模型,推动机器人操作技术发展。
OpenVLA是一个具有7亿参数的开源视觉-语言-动作(VLA)模型,通过在Open X-Embodiment数据集上的970k机器人剧集进行预训练。该模型在通用机器人操作策略上设定了新的行业标准,支持开箱即用控制多个机器人,并且可以通过参数高效的微调快速适应新的机器人设置。OpenVLA的检查点和PyTorch训练流程完全开源,模型可以从HuggingFace下载并进行微调。
用于自动驾驶的大规模视频生成模型
GenAD是由上海人工智能实验室联合香港科技大学、德国图宾根大学和香港大学共同推出的首个大规模自动驾驶视频生成模型。它通过预测和模拟真实世界场景,为自动驾驶技术的研究和应用提供支撑。GenAD在理解复杂动态环境、适应开放世界场景、精准预测等方面具有较强能力,能够通过语言和行车轨迹进行控制,并展现出应用于自动驾驶规划任务的潜力,有助于提高行车安全性和效率。
文本转音乐和音频
MAGNeT是一个提供各种人工智能模型和数据集的社区平台。用户可以在平台上找到各种先进的自然语言处理和机器学习模型,以及相关的数据集。该平台还提供了一系列解决方案,包括文本到语音转换、图像处理等。MAGNeT定位于为开发人员、研究人员和企业提供高质量的人工智能模型和数据集。
LiteLlama-460M-1T: 减小规模的 Llama
LiteLlama-460M-1T 是一个开源的人工智能模型,使用 1T 个令牌进行训练,具有 460M 个参数。它是 Meta AI 的 LLaMa 2 的一个缩减版本,用于提供更小的模型规模。
让机器人写作
write.bot是一个让机器人写作的平台。您可以提交主题想法,邀请 GPT 机器人在您的主题或其他人的主题上撰写文章。您还可以添加自己的 GPT 机器人来撰写文章。通过写.bot,您可以与 AI 互动,并免费邀请机器人为您撰写文章。
【精选推荐】ChatGPT(永久免费国内直连) GPT-4
ChatGPT(永久免费国内直连) GPT-4是一款基于OpenAI公司ChatGPT3.5模型开发的聊天机器人,具有丰富的问题模版,方便快捷,提问精准,用户无需一次性大额购买,注册即可免费体验,可根据个人需求购买日卡,周卡,月卡。
谷歌最强大的AI模型
Gemini是谷歌最强大和通用的AI模型,旨在成为多模态的,并针对三种不同大小进行了优化:Ultra,Pro和Nano。Gemini模型具有卓越的性能和下一代功能,可为各种应用提供强大的AI支持。 它提供可扩展的,高效的解决方案,并注重责任和安全性。 Gemini模型已经在市场上可用。
人工智能,简化。
Adfinite AI是一款人工智能产品,提供最先进的模型,无需订阅。没有长期合约或订阅费用,只需按使用量付费。新用户可以免费获得5个积分进行测试,无需信用卡或充值。每条消息收费10美分。目前有特别推出的促销活动,充值20美元或更多即可额外获得5美元的积分。如果遇到问题或有功能请求,请联系我们。
2D视频转3D模型
Neuralangelo是NVIDIA研究推出的一款利用神经网络进行3D重建的人工智能模型,可以将2D视频片段转换为详细的3D结构,生成逼真的虚拟建筑、雕塑等物体。它能够准确地提取复杂材料的纹理,包括屋顶瓦片、玻璃窗格和光滑的大理石。创意专业人员可以将这些3D对象导入设计应用程序,进一步进行编辑,用于艺术、视频游戏开发、机器人技术和工业数字双胞胎等领域。Neuralangelo的3D重建能力将对创作者产生巨大的帮助,帮助他们在数字世界中重新创建真实世界。该工具最终将使开发人员能够将详细的对象(无论是小雕塑还是巨大的建筑物)导入到虚拟环境中,用于视频游戏或工业数字双胞胎等应用。
聊天机器人构建工具
Chatfuel AI是基于革命性人工智能技术的简单而强大的聊天机器人构建工具。它提供丰富的功能和优势,可以帮助用户快速构建和部署聊天机器人,提升客户与企业之间的沟通和服务效率。Chatfuel AI的定价灵活合理,适用于各类企业,无论是初创公司还是大型企业。它的定位是成为客户沟通的下一代工具。
一款支持多语言的智能会议笔记助手,可自动转录、总结并支持多种工具集成。
Spellar是一款基于人工智能的会议笔记助手,支持100多种语言的语音转录和自动总结。它通过智能语音识别和自然语言处理技术,帮助用户在会议、讲座或任何需要记录的场景中高效捕捉关键信息。其主要优点包括无缝的多平台支持、高精度的语音识别和总结能力,以及强大的隐私保护功能。该产品定位为专业人士、学生和远程团队提供高效、便捷的会议记录解决方案,支持免费下载并提供多种付费订阅选项。
WebWalker是一个用于评估大型语言模型在网页遍历能力上的基准测试框架。
WebWalker是一个由阿里巴巴集团通义实验室开发的多智能体框架,用于评估大型语言模型(LLMs)在网页遍历任务中的表现。该框架通过模拟人类浏览网页的方式,通过探索和评估范式来系统地提取高质量数据。WebWalker的主要优点在于其创新的网页遍历能力,能够深入挖掘多层级信息,弥补了传统搜索引擎在处理复杂问题时的不足。该技术对于提升语言模型在开放域问答中的表现具有重要意义,尤其是在需要多步骤信息检索的场景中。WebWalker的开发旨在推动语言模型在信息检索领域的应用和发展。
PaSa 是一个由大语言模型驱动的先进学术论文搜索代理,能够自主决策并获取准确结果。
PaSa 是由字节跳动开发的一种先进学术论文搜索代理,基于大语言模型(LLM)技术,能够自主调用搜索工具、阅读论文并筛选相关参考文献,以获取复杂学术查询的全面准确结果。该技术通过强化学习优化,使用合成数据集 AutoScholarQuery 进行训练,并在真实世界查询数据集 RealScholarQuery 上表现出色,显著优于传统搜索引擎和基于 GPT 的方法。PaSa 的主要优势在于其高召回率和精准率,能够为研究人员提供更高效的学术搜索体验。
DeepSeek-R1 是一款高性能推理模型,支持多种语言和任务,适用于研究和商业应用。
DeepSeek-R1 是 DeepSeek 团队推出的第一代推理模型,通过大规模强化学习训练,无需监督微调即可展现出卓越的推理能力。该模型在数学、代码和推理任务上表现优异,与 OpenAI-o1 模型相当。DeepSeek-R1 还提供了多种蒸馏模型,适用于不同规模和性能需求的场景。其开源特性为研究社区提供了强大的工具,支持商业使用和二次开发。
© 2025 AIbase 备案号:闽ICP备08105208号-14