需求人群:
["强化学习","机器人控制","自动化"]
使用场景示例:
使用SERL实现PCB装配任务的强化学习
使用SERL训练电缆布线任务的策略
基于SERL实现物体重定位的示例
产品特色:
包含一个高效的离策略深度强化学习方法
计算奖励和重置环境的方法
一个高质量的广泛采用的机器人控制器
一些具有挑战性的示例任务
浏览量:58
最新流量情况
月访问量
23904.81k
平均访问时长
00:04:51
每次访问页数
5.82
跳出率
43.33%
流量来源
直接访问
48.28%
自然搜索
35.88%
邮件
0.03%
外链引荐
12.71%
社交媒体
3.06%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
13.77%
印度
8.48%
日本
3.85%
俄罗斯
4.86%
美国
17.58%
SERL是一个高效的机器人强化学习软件套件
SERL是一个经过精心实现的代码库,包含了一个高效的离策略深度强化学习方法,以及计算奖励和重置环境的方法,一个高质量的广泛采用的机器人控制器,以及一些具有挑战性的示例任务。它为社区提供了一个资源,描述了它的设计选择,并呈现了实验结果。令人惊讶的是,我们发现我们的实现可以实现非常高效的学习,仅需25到50分钟的训练即可获得PCB装配、电缆布线和物体重定位等策略,改进了文献中报告的类似任务的最新结果。这些策略实现了完美或接近完美的成功率,即使在扰动下也具有极强的鲁棒性,并呈现出新兴的恢复和修正行为。我们希望这些有前途的结果和我们的高质量开源实现能为机器人社区提供一个工具,以促进机器人强化学习的进一步发展。
用于强化学习的Unitree机器人平台
Unitree RL GYM是一个基于Unitree机器人的强化学习平台,支持Unitree Go2、H1、H1_2、G1等型号。该平台提供了一个集成环境,允许研究人员和开发者训练和测试强化学习算法在真实或模拟的机器人上的表现。它的重要性在于推动机器人自主性和智能技术的发展,特别是在需要复杂决策和运动控制的应用中。Unitree RL GYM是开源的,可以免费使用,主要面向科研人员和机器人爱好者。
模块化仿人机器人,用于强化学习训练
Agibot X1是由Agibot开发的模块化仿人机器人,具有高自由度,基于Agibot开源框架AimRT作为中间件,并使用强化学习进行运动控制。该项目是Agibot X1使用的强化学习训练代码,可以与Agibot X1提供的推理软件结合用于真实机器人和模拟步行调试,或导入其他机器人模型进行训练。
为真实世界机器人提供最先进的机器学习模型、数据集和工具。
LeRobot 是一个旨在降低进入机器人领域的门槛,让每个人都能贡献并从共享数据集和预训练模型中受益的开源项目。它包含了在真实世界中经过验证的最先进的方法,特别关注模仿学习和强化学习。LeRobot 提供了一组预训练模型、带有人类收集演示的数据集和模拟环境,以便用户无需组装机器人即可开始。未来几周内,计划增加对最实惠和最有能力的真实世界机器人的支持。
HOMIE 是一种新型的人形机器人遥操作系统,集成人体运动捕捉与强化学习训练框架,用于实现精准的行走与操作任务。
HOMIE 是一种创新的人形机器人遥操作解决方案,旨在通过强化学习和低成本的外骨骼硬件系统,实现精准的行走与操作任务。该技术的重要性在于它解决了传统遥操作系统的低效性和不稳定性问题,通过人体运动捕捉和强化学习训练框架,使机器人能够更加自然地执行复杂的任务。其主要优点包括高效的任务完成能力、无需复杂的运动捕捉设备以及快速的训练时间。该产品主要面向机器人研究机构、制造业和物流行业,价格未明确公开,但其硬件系统成本较低,具有较高的性价比。
大规模强化学习用于扩散模型
Text-to-image扩散模型是一类深度生成模型,展现了出色的图像生成能力。然而,这些模型容易受到来自网页规模的文本-图像训练对的隐含偏见的影响,可能无法准确地对我们关心的图像方面进行建模。这可能导致次优样本、模型偏见以及与人类伦理和偏好不符的图像。本文介绍了一种有效可扩展的算法,利用强化学习(RL)改进扩散模型,涵盖了多样的奖励函数,如人类偏好、组成性和公平性,覆盖了数百万张图像。我们阐明了我们的方法如何大幅优于现有方法,使扩散模型与人类偏好保持一致。我们进一步阐明了如何这显著改进了预训练的稳定扩散(SD)模型,生成的样本被人类偏好80.3%,同时改善了生成样本的组成和多样性。
JaxMARL - 多智能体强化学习库
JaxMARL 是一个多智能体强化学习库,结合了易用性和 GPU 加速效能。它支持常用的多智能体强化学习环境以及流行的基准算法。目标是提供一个全面评估多智能体强化学习方法的库,并与相关基准进行比较。同时,它还引入了 SMAX,这是一个简化版的流行的星际争霸多智能体挑战环境,无需运行星际争霸 II 游戏引擎。
扩散世界模型中训练的强化学习代理
DIAMOND(DIffusion As a Model Of eNvironment Dreams)是一个在扩散世界模型中训练的强化学习代理,用于雅达利游戏中的视觉细节至关重要的世界建模。它通过自回归想象在Atari游戏子集上进行训练,可以快速安装并尝试预先训练的世界模型。
基于深度强化学习的模型微调框架
ReFT是一个开源的研究项目,旨在通过深度强化学习技术对大型语言模型进行微调,以提高其在特定任务上的表现。该项目提供了详细的代码和数据,以便研究人员和开发者能够复现论文中的结果。ReFT的主要优点包括能够利用强化学习自动调整模型参数,以及通过微调提高模型在特定任务上的性能。产品背景信息显示,ReFT基于Codellama和Galactica模型,遵循Apache2.0许可证。
多目标强化学习框架,文本转图像生成
Parrot 是一种多目标强化学习框架,专为文本转图像生成而设计。它通过批量 Pareto 最优选择的方式,自动识别在 T2I 生成的 RL 优化过程中不同奖励之间的最佳权衡。此外,Parrot采用了 T2I 模型和提示扩展网络的联合优化方法,促进了生成质量感知的文本提示,从而进一步提高了最终图像质量。为了抵消由于提示扩展而可能导致的原始用户提示的潜在灾难性遗忘,我们在推理时引入了原始提示中心化指导,确保生成的图像忠实于用户输入。大量实验和用户研究表明,Parrot在各种质量标准,包括美学、人类偏好、图像情感和文本-图像对齐方面,均优于几种基线方法。
使用自主强化学习训练野外设备控制代理
DigiRL是一个创新的在线强化学习算法,用于训练能够在野外环境中控制设备的智能代理。它通过自主价值评估模型(VLM)来解决开放式的、现实世界中的Android任务。DigiRL的主要优点包括能够利用现有的非最优离线数据集,并通过离线到在线的强化学习来鼓励代理从自身的尝试和错误中学习。该模型使用指令级价值函数来隐式构建自动课程,优先考虑对代理最有价值的任务,并通过步进级价值函数挑选出在轨迹中对目标有贡献的有利动作。
用于强化学习验证的数学问题数据集
RLVR-GSM-MATH-IF-Mixed-Constraints数据集是一个专注于数学问题的数据集,它包含了多种类型的数学问题和相应的解答,用于训练和验证强化学习模型。这个数据集的重要性在于它能够帮助开发更智能的教育辅助工具,提高学生解决数学问题的能力。产品背景信息显示,该数据集由allenai在Hugging Face平台上发布,包含了GSM8k和MATH两个子集,以及带有可验证约束的IF Prompts,适用于MIT License和ODC-BY license。
无代码平台,快速开发 AI 聊天机器人
Coze扣子 是一款无代码 AI 聊天机器人开发平台,用户无需编程即可快速创建智能聊天机器人。平台提供功能强大的可视化流程编辑器,支持加入自然语言处理、知识库、工作流等,可实现复杂的 AI 交互。扣子平台还提供丰富的调试工具,可以测试并优化机器人与用户的对话流程,大大提高开发效率。该产品适合各种行业应用,可部署到社交、IM 等不同渠道,打造具有个性的品牌语音。
AI国际象棋机器人,智能对弈与教学
元萝卜AI下棋机器人是商汤科技旗下家用机器人品牌,通过AI科技为孩子的健康、学习、快乐成长保驾护航。产品具备陪练涨棋、棋力闯关、巅峰对决、在线对弈、残局挑战、AI打谱、AI习题精练、棋局分享等功能,旨在通过真实棋盘棋子的交互,保护孩子视力,同时提高棋艺水平。
利用强化学习提升扩散大语言模型的推理能力。
该模型通过强化学习和高质量推理轨迹的掩蔽自监督微调,实现了对扩散大语言模型的推理能力的提升。此技术的重要性在于它能够优化模型的推理过程,减少计算成本,同时保证学习动态的稳定性。适合希望在写作和推理任务中提升效率的用户。
智能AI聊天助手,提供多语言对话和个性化服务。
Ai Chat机器人Plus是一款基于人工智能技术的聊天机器人,它能够理解并流畅地与用户进行交流,提供信息查询、日常咨询、技术支持等服务。这款产品通过模仿人类的对话方式,为用户提供了一个直观、便捷的交互体验。它主要的优点包括快速响应、高准确率的语义理解以及个性化的服务体验。Ai Chat机器人Plus适用于需要快速、智能对话解决方案的个人和企业用户。
通过强化学习微调大型视觉-语言模型作为决策代理
RL4VLM是一个开源项目,旨在通过强化学习微调大型视觉-语言模型,使其成为能够做出决策的智能代理。该项目由Yuexiang Zhai, Hao Bai, Zipeng Lin, Jiayi Pan, Shengbang Tong, Alane Suhr, Saining Xie, Yann LeCun, Yi Ma, Sergey Levine等研究人员共同开发。它基于LLaVA模型,并采用了PPO算法进行强化学习微调。RL4VLM项目提供了详细的代码库结构、入门指南、许可证信息以及如何引用该研究的说明。
机器人教学框架,无需在野机器人
通用操作接口(UMI)是一个数据收集和策略学习框架,允许直接将现场人类演示中的技能转移到可部署的机器人策略。UMI采用手持夹具与仔细的界面设计相结合,实现便携、低成本和信息丰富的数据收集,用于挑战性的双手和动态操作演示。为促进可部署的策略学习,UMI结合了精心设计的策略界面,具有推理时延迟匹配和相对轨迹动作表示。从而产生的学习策略与硬件无关,并且可以在多个机器人平台上部署。配备这些功能,UMI框架解锁了新的机器人操作功能,仅通过为每个任务更改训练数据,允许泛化的动态、双手、精确和长时间的行为,从而实现零次调整。我们通过全面的真实环境实验演示了UMI的通用性和有效性,其中仅通过使用各种人类演示进行训练的UMI策略,在面对新环境和对象时实现了零次调整的泛化。
通过强化学习提升大型语言模型在开源软件演变中的推理能力
SWE-RL 是由 Facebook Research 提出的一种基于强化学习的大型语言模型推理技术,旨在利用开源软件演变数据提升模型在软件工程任务中的表现。该技术通过规则驱动的奖励机制,优化模型的推理能力,使其能够更好地理解和生成高质量的代码。SWE-RL 的主要优点在于其创新性的强化学习方法和对开源数据的有效利用,为软件工程领域带来了新的可能性。该技术目前处于研究阶段,尚未明确商业化定价,但其在提升开发效率和代码质量方面具有显著潜力。
通过模仿学习实现手术任务的机器人
Surgical Robot Transformer 是一种通过模仿学习在达芬奇机器人上执行手术操作任务的模型。该模型通过相对动作公式克服了达芬奇系统的前向运动学不准确的问题,使得机器人能够成功地训练和部署政策。这种方法的一个显著优势是可以直接利用包含近似运动学的大量临床数据进行机器人学习,而无需进一步校正。该模型展示了在执行三个基本手术任务(包括组织操作、针头处理和结扎)方面的成功。
构建强大的AI机器人
AI Bot是一个可视化的低代码平台,可以帮助您快速构建和定制强大的AI机器人。您可以使用它构建基于图像、声音和文本的机器人,集成各种服务,并轻松部署到Google Cloud。AI Bot支持WhatsApp、Twitter、SMS、Telegram等多种渠道,灵活扩展,安全可靠。
PRIME通过隐式奖励增强在线强化学习,提升语言模型的推理能力。
PRIME是一个开源的在线强化学习解决方案,通过隐式过程奖励来增强语言模型的推理能力。该技术的主要优点在于能够在不依赖显式过程标签的情况下,有效地提供密集的奖励信号,从而加速模型的训练和推理能力的提升。PRIME在数学竞赛基准测试中表现出色,超越了现有的大型语言模型。其背景信息包括由多个研究者共同开发,并在GitHub上发布了相关代码和数据集。PRIME的定位是为需要复杂推理任务的用户提供强大的模型支持。
Figure是第一家专注于研发通用型人形机器人的AI机器人公司。
Figure是一个创新的AI机器人公司,致力于研发第一台通用型人形机器人Figure 01。Figure 01集成了人形的灵巧性和前沿的AI技术,可广泛应用于制造业、物流、仓储和零售等领域,支持人类完成更多工作。该机器人高5.6英尺,载重20公斤,重60公斤,工作时间5小时,移动速度每秒1.2米。Figure还拥有世界顶级的机器人团队,团队成员在AI和人形机器人领域拥有超过100年的丰富经验。
AI娱乐聊天机器人
ChatShitGPT是一款非同寻常的聊天机器人,能够为用户提供娱乐和消遣。其特色在于具有个性化的角色,用户可以选择与海盗、主角或者愤怒的角色进行互动。用户可以免费开始使用,但也提供订阅服务。产品定位为提供娱乐、消遣和放松的聊天体验。
DeepSeek-R1-Distill-Llama-70B 是一款基于强化学习优化的大型语言模型,专注于推理和对话能力。
DeepSeek-R1-Distill-Llama-70B 是由 DeepSeek 团队开发的一款大型语言模型,基于 Llama-70B 架构并通过强化学习进行优化。该模型在推理、对话和多语言任务中表现出色,支持多种应用场景,包括代码生成、数学推理和自然语言处理。其主要优点是高效的推理能力和对复杂问题的解决能力,同时支持开源和商业使用。该模型适用于需要高性能语言生成和推理能力的企业和研究机构。
全栈开源机器人
智元灵犀X1是一款开源人形机器人,具有29个关节和2个夹爪,支持扩展头部3自由度。它提供了详细的开发指南和开源代码,使开发者能够快速搭建并进行二次开发。该产品代表了智能机器人领域的先进技术,具有高度的灵活性和可扩展性,适用于教育、研究和商业开发等多种场景。
© 2025 AIbase 备案号:闽ICP备08105208号-14