需求人群:
["机器人技能学习","带外部传感器的手持设备","人机交互界面设计"]
使用场景示例:
利用UMI进行各种日常动作的收集,如抛球、叠衣服、洗碗等
无需标定,直接在不同机器人平台上部署训练好的策略
采用CLIP预训练的ViT作为视觉编码器,使策略对变化更具反应性
产品特色:
便携式数据收集,2分钟内启动
相机主导的动作表示,无需标定,健壮性强
快速数据收集,每次演示30秒
零次调整泛化,可在新环境中部署
浏览量:226
最新流量情况
月访问量
4003
平均访问时长
00:00:41
每次访问页数
1.66
跳出率
48.49%
流量来源
直接访问
43.03%
自然搜索
29.97%
邮件
0.05%
外链引荐
10.45%
社交媒体
15.58%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
澳大利亚
6.61%
印度
2.55%
美国
83.68%
机器人教学框架,无需在野机器人
通用操作接口(UMI)是一个数据收集和策略学习框架,允许直接将现场人类演示中的技能转移到可部署的机器人策略。UMI采用手持夹具与仔细的界面设计相结合,实现便携、低成本和信息丰富的数据收集,用于挑战性的双手和动态操作演示。为促进可部署的策略学习,UMI结合了精心设计的策略界面,具有推理时延迟匹配和相对轨迹动作表示。从而产生的学习策略与硬件无关,并且可以在多个机器人平台上部署。配备这些功能,UMI框架解锁了新的机器人操作功能,仅通过为每个任务更改训练数据,允许泛化的动态、双手、精确和长时间的行为,从而实现零次调整。我们通过全面的真实环境实验演示了UMI的通用性和有效性,其中仅通过使用各种人类演示进行训练的UMI策略,在面对新环境和对象时实现了零次调整的泛化。
未来感机器人,轻松上手,玩得尽兴。
BabyAlpha Chat 是一款具有未来感的机器人模型,全身搭载12个高性能执行器,配合蔚蓝自研五层运动控制算法,使得其运动性能极其出众。最大前进速度可达每小时3.2公里,最大旋转速度可达每秒180度。BabyAlpha Chat 不仅是一个高科技玩具,也是教育和娱乐的完美结合,适合各个年龄段的用户。其价格亲民,起售价为4999元,并有特惠活动直降2000元,截止日期为11月16日。
基于文本提示生成物理稳定且可组装的乐高设计。
LegoGPT 是第一个通过文本提示生成物理稳定的乐高模型的方法。该技术使用大规模的乐高设计数据集,并通过自回归语言模型生成下一个乐高砖块,同时应用物理约束以保证模型的稳定性。其主要优点包括生成多样且美观的设计,支持人工和机器人组装,并具备自动化生成和纹理上色能力。
使用人工智能为孩子创建个性化的童话故事。
Dailos.ai是一款能够为孩子创建魔幻有趣的个性化故事的神奇笔记本。用户只需输入故事主角、希望传达的价值观以及想要包含的角色,即可创作充满魔力和乐趣的故事。Dailos.ai鼓励阅读,激发孩子的想象力。
利用AI驱动的问题生成器轻松创建独特而引人入胜的问题,为任何主题或目的生成定制问题。
QuestionX是一款免费的AI工具,可以帮助用户快速生成独特且引人入胜的问题。通过使用AI技术,用户可以节省时间,提升创造力,并在几秒钟内为任何主题或目的生成定制问题。产品背景信息包括:成立于2015年12月的OpenAI公司致力于发展人工智能技术,旨在开发安全和有益的人工通用智能(AGI),并已在AI领域取得领先地位。
个性化职业规划AI平台,为学生提供逐步指导、学习资源和活动更新,助您轻松实现梦想职业。
Career Roadmap是一款AI驱动的平台,提供个性化职业规划、资源推荐和实时活动通知,帮助学生实现梦想职业。其主要优点在于实时更新、定制化指导和价格亲民,定位于为学生提供完整的职业规划和支持。
AI生成、样式化、发布表单,提高表单构建效率。
Weavely是一款利用人工智能技术生成、样式化、发布表单的工具,旨在提高用户构建表单的效率和便利性。其主要优点在于快速生成各种类型的表单,并且可以根据用户需求定制样式,省时省力。
一个互动故事讲述的 AI 平台,通过图像和音频生成视频。
AvatarFX 是一个尖端的 AI 平台,专注于互动故事讲述。用户可以通过上传图片和选择声音,快速生成生动、真实的角色视频。其核心技术是基于 DiT 的扩散视频生成模型,能够高效生成高保真、时序一致的视频,特别适合需要多个角色和对话场景的创作。产品定位在为创作者提供工具,帮助他们实现想象力的无限可能。
智元机器人发布的具身智能一站式开发平台,覆盖数据采集到模型推理全链路
Genie Studio 是智元机器人专为具身智能场景打造的一站式开发平台,具备数据采集、模型训练、仿真评测、模型推理的全链路产品能力。它为开发者提供从‘采’到‘训’到‘测’再到‘推’的标准化解决方案,极大地降低了开发门槛,提升了开发效率。该平台通过高效的数据采集、灵活的模型训练、精准的仿真评测和无缝的模型推理,推动了具身智能技术的快速发展和应用。Genie Studio 不仅提供了强大的工具,还为具身智能的规模化落地提供了支持,加速了行业向标准化、平台化、量产化的新阶段跃进。
一个简单易用的语音克隆和语音模型训练工具。
EaseVoice Trainer 是一个后端项目,旨在简化和增强语音合成与转换训练过程。该项目基于 GPT-SoVITS 进行改进,注重用户体验和系统的可维护性。其设计理念不同于原始项目,旨在提供更模块化和定制化的解决方案,适用于从小规模实验到大规模生产的多种场景。该工具可以帮助开发者和研究人员更高效地进行语音合成和转换的研究与开发。
一个针对机器学习优化的多模态 OCR 管道。
该产品是一个专门设计的 OCR 系统,旨在从复杂的教育材料中提取结构化数据,支持多语言文本、数学公式、表格和图表,能够生成适用于机器学习训练的高质量数据集。该系统利用多种技术和 API,能够提供高精度的提取结果,适合学术研究和教育工作者使用。
通过知识与技能帮助教育者有效利用人工智能。
OpenAI Academy 致力于为教育者提供人工智能的知识与技能,帮助他们在教学中有效整合 AI 技术。通过针对 K-12 教育者的工作坊,OpenAI Academy 强调了生成性 AI 模型(如 ChatGPT)的构造和转型潜力,以及它们在课堂上的实际应用。这一平台旨在帮助教育者面对 AI 带来的机遇与挑战,培养他们在不断发展的数字环境中,为学生提供必要的安全性、技能和自主权。此项目是免费的,旨在为教育者和学生创造一个更美好的未来。
一款帮助科研人员发现学术论文的强大工具。
Ai2 PaperFinder 是一个致力于帮助科研人员快速找到所需文献的在线工具。该平台汇聚了超过 800 万篇全文论文及 1.08 亿篇摘要,具备强大的文献检索和合成功能。通过简单的关键词搜索,用户可以迅速获取相关研究,极大地提高了科研效率。该产品的背景源于对科研文献的迫切需求,定价为免费,适合各类科研人员使用。
一款先进的视觉推理模型,能分析图片和视频内容。
QVQ-Max 是 Qwen 团队推出的视觉推理模型,能够理解和分析图像及视频内容,提供解决方案。它不仅限于文本输入,更能够处理复杂的视觉信息。适合需要多模态信息处理的用户,如教育、工作和生活场景。该产品是基于深度学习和计算机视觉技术开发,适用于学生、职场人士和创意工作者。此版本为首发,后续将持续优化。
将文本转换为自然的语音,拥有 1000 多种逼真的 AI 声音。
这是一个强大的文本转语音生成器,拥有超过 1000 种高质量的 AI 语音。适合各种使用场景,如播客、教育和商业内容创作。用户可以利用该平台生成清晰、自然的语音内容,支持语音克隆和音频视频编辑,价格合理,每月仅需 39.99 美元,适合个人和企业使用。
业界首个超大规模混合 Mamba 推理模型,强推理能力。
混元T1 是腾讯推出的超大规模推理模型,基于强化学习技术,通过大量后训练显著提升推理能力。它在长文处理和上下文捕捉上表现突出,同时优化了计算资源的消耗,具备高效的推理能力。适用于各类推理任务,尤其在数学、逻辑推理等领域表现优异。该产品以深度学习为基础,结合实际反馈不断优化,适合科研、教育等多个领域的应用。
LG AI 推出的开源推理 AI 模型,具备卓越的推理能力。
EXAONE Deep 是 LG AI Research 推出的先进推理 AI 模型,标志着韩国在全球 AI 市场中的竞争力。它具备 32 亿参数,表现卓越,尤其在数学和科学问题解决方面展现出色。该模型的发布使得 LG 在 AI 领域迈入了自主决策的时代,其开源特性使得更多开发者能够利用这一技术进行研究与开发。EXAONE Deep 的轻量级和在设备上的模型设计使得其适用于多个行业,包括教育、科学研究、编程等。
集无限画布、AIGC、项目看板、音视频会议等功能于一体的可视化在线协作空间
英飞·思想家是一个AIGC赋能的可视化在线协作空间,旨在通过无限画布、音视频会议、思维导图等功能,为企业和团队提供高效协作的数字平台。它支持实时和异步协作,适用于多种场景,如项目管理、头脑风暴、培训等。产品定位为提升团队协作效率,促进知识共享和创新。目前提供个人免费使用和团队免费试用,具体定价需查看官网。
一款开源的14B参数量的数学模型,通过强化学习训练,性能卓越。
Light-R1-14B-DS 是由北京奇虎科技有限公司开发的开源数学模型。该模型基于 DeepSeek-R1-Distill-Qwen-14B 进行强化学习训练,在 AIME24 和 AIME25 数学竞赛基准测试中分别达到了 74.0 和 60.2 的高分,超越了许多 32B 参数量的模型。它在轻量级预算下成功实现了对已经长链推理微调模型的强化学习尝试,为开源社区提供了一个强大的数学模型工具。该模型的开源有助于推动自然语言处理在教育领域的应用,特别是数学问题解决方面,为研究人员和开发者提供了宝贵的研究基础和实践工具。
基于Gemini 2.0的机器人模型,将AI带入物理世界,具备视觉、语言和动作能力。
Gemini Robotics是Google DeepMind推出的一种先进的人工智能模型,专为机器人应用而设计。它基于Gemini 2.0架构,通过视觉、语言和动作(VLA)的融合,使机器人能够执行复杂的现实世界任务。该技术的重要性在于它推动了机器人从实验室走向日常生活和工业应用的进程,为未来智能机器人的发展奠定了基础。Gemini Robotics的主要优点包括强大的泛化能力、交互性和灵巧性,使其能够适应不同的任务和环境。目前,该技术处于研究和开发阶段,尚未明确具体的价格和市场定位。
一款用于检测文本是否由人工智能生成并可将AI文本改写为人类风格的工具。
该产品通过先进的技术检测文本是否由人工智能生成,同时提供文本改写功能,使AI生成的文本具有人类写作的自然风格。它对维护内容的原创性和真实性具有重要意义,尤其在学术、教育、内容创作等领域。产品完全免费,无需注册,支持多语言,适合广泛用户。
提供书籍总结的平台,支持听书和下载PDF、EPUB格式。
DeepSummary是一个专注于提供书籍总结的在线平台,旨在通过简洁高效的方式帮助用户快速获取书籍的核心内容。该平台支持多种书籍类别,包括科学、历史、哲学等,并提供听书和下载功能,方便用户随时随地学习。其主要优点是节省时间、提升知识获取效率,适合忙碌的专业人士和学习者。平台采用付费模式,价格亲民,提供灵活的订阅计划,致力于帮助用户实现个人和职业目标。
一个用于生成对话式语音的模型,支持从文本和音频输入生成高质量的语音。
CSM 是一个由 Sesame 开发的对话式语音生成模型,它能够根据文本和音频输入生成高质量的语音。该模型基于 Llama 架构,并使用 Mimi 音频编码器。它主要用于语音合成和交互式语音应用,例如语音助手和教育工具。CSM 的主要优点是能够生成自然流畅的语音,并且可以通过上下文信息优化语音输出。该模型目前是开源的,适用于研究和教育目的。
Zonos TTS 是一款支持多语言、情感控制和零样本文本到语音克隆的高质量 AI 文本转语音技术。
Zonos TTS 是一款先进的 AI 文本转语音技术,支持多语言、情感控制和零样本语音克隆。它能够生成自然、富有表现力的语音,适用于教育、有声读物、视频游戏、语音助手等多种场景。该技术通过高质量音频输出(44kHz)和快速实时处理能力,为用户提供高效且个性化的语音生成解决方案。虽然产品本身并非完全免费,但提供了灵活的定价方案以满足不同用户的需求。
智元发布首个通用具身基座大模型GO-1,开创性提出ViLLA架构,推动具身智能发展。
智元通用具身基座大模型GO-1是智元推出的一款革命性的人工智能模型。该模型基于创新的Vision-Language-Latent-Action(ViLLA)架构,通过多模态大模型(VLM)和混合专家(MoE)系统,实现了从视觉和语言输入到机器人动作执行的高效转换。GO-1能够利用人类视频和真实机器人数据进行学习,具备强大的泛化能力,能够在极少数据甚至零样本下快速适应新任务和环境。其主要优点包括高效的学习能力、强大的泛化性能以及对多种机器人本体的适配性。该模型的推出标志着具身智能向通用化、开放化和智能化方向迈出了重要一步,有望在商业、工业和家庭等多个领域发挥重要作用。
一个关于大型语言模型(LLM)后训练方法的教程、调查和指南资源库。
Awesome-LLM-Post-training 是一个专注于大型语言模型(LLM)后训练方法的资源库。它提供了关于 LLM 后训练的深入研究,包括教程、调查和指南。该资源库基于论文《LLM Post-Training: A Deep Dive into Reasoning Large Language Models》,旨在帮助研究人员和开发者更好地理解和应用 LLM 后训练技术。该资源库免费开放,适合学术研究和工业应用。
© 2025 AIbase 备案号:闽ICP备08105208号-14