浏览量:261
探索未来人机交互的AI代理项目
Project Mariner是Google DeepMind基于Gemini 2.0模型开发的早期研究原型,旨在探索未来的人机交互方式,特别是在网络浏览器中的应用。这个项目能够理解浏览器屏幕上的信息,包括像素和网页元素,如文本、代码、图像和表单,并利用这些信息完成任务。Project Mariner在技术上实现了通过Chrome扩展程序在浏览器中直接操作,为用户提供了一种全新的代理服务体验。
一个创新的元宇宙创作平台,提供多种活动管理功能。
百度元宇宙创作平台是一个专注于虚拟空间活动管理的创新型平台,提供丰富的互动空间,适合各种规模的活动。它允许用户创建、管理和参与不同类型的活动,旨在提升用户的互动体验。平台的价格策略灵活,适合企业及个人用户。此平台通过高效的活动管理和空间利用,帮助组织者更好地连接与参与者,提升活动效果。
探索人工智能如何塑造我们的世界和交互模式。
The Shape of AI 是一个专注于人工智能交互模式的网站,它提供了关于如何在设计中融入人工智能的深入见解。该网站强调了用户体验的重要性,并探讨了在AI驱动的世界中,如何通过设计来优化人机交互。它包含了丰富的资源和工具,帮助设计师和开发者理解AI的新兴模式,以及如何利用这些模式来提升他们的产品和服务。
物理模拟角色的指令驱动控制系统
InsActor是一个基于物理模拟的角色控制系统。它可以通过自然语言指令驱动角色在复杂环境中完成各种交互任务。该系统利用条件与对抗扩散模型进行多级规划,并与低级控制器相结合,实现稳定、鲁棒的控制。具有控制流畅、交互自然的优势,适用于创意内容生成、互动娱乐、人机交互等应用场景。
下一代情感智能的对话视频界面,让AI交互更自然、更人性。
Conversational Video Interface(CVI)是Tavus推出的一种情感智能对话视频界面。它通过Phoenix-3、Raven-0和Sparrow-0三个模型协同工作,赋予AI真正的人类感知、倾听、理解和实时互动能力。CVI不仅是一个工具,更是一种全新的人机沟通方式,可应用于医疗、心理健康、销售培训、客户服务等多个领域,具有无限的使用场景。其背后的技术突破在于将人类对话的细微情感和节奏融入AI交互中,使AI不再是简单的回应,而是能思考、反应并改变我们与机器的互动方式。
爱与接纳,自拍传递多元与骄傲!
Pride Selfie是一款旨在传递爱与接纳的产品。用户可以通过该平台创作自拍照,并传播包容与骄傲的信息。产品定位于提倡多元文化和骄傲,旨在让每个人都感受到爱与接纳的力量。该产品提供丰富的自拍创作功能,用户可以定制多彩的自拍照片,并分享到社交平台上。
实时语音交互的人工智能对话系统。
Listening-while-Speaking Language Model (LSLM)是一款旨在提升人机交互自然度的人工智能对话模型。它通过全双工建模(FDM)技术,实现了在说话时同时监听的能力,增强了实时交互性,尤其是在生成内容不满意时能够被打断和实时响应。LSLM采用了基于token的解码器仅TTS进行语音生成,以及流式自监督学习(SSL)编码器进行实时音频输入,通过三种融合策略(早期融合、中期融合和晚期融合)探索最佳交互平衡。
为与人类安全共存而开发的创新双臂机器人机制
AMBIDEX是NAVER LABS开发的双臂机器人,旨在实现与人类的安全共存。该机器人具有强大的动力传递机制,同时保持轻便和灵活,满足坚韧和安全性的要求。AMBIDEX项目正在研究新的学习方式,使机器人能够学习人类的动作能力,以执行日常遇到的复杂任务。
一个基于语音交互的故事创作聊天机器人,提供沉浸式的“选择你自己的冒险”体验。
该产品利用 Gemini 2.0 语言模型和 Google Imagen 图像生成技术,结合语音识别和语音合成,为用户提供一个互动式的故事创作体验。用户可以通过语音输入选择故事走向,系统会实时生成故事内容和相关图像。该产品的主要优点是创新的交互方式和强大的内容生成能力,适合用于教育、娱乐和创意启发。目前该产品处于开源阶段,未明确具体定价,主要面向开发者和教育机构。
01 Light是一款用于家用电脑的语音界面。
01 Light是一款语音控制界面,可以让你用语音控制家用电脑执行各种操作。它的优势是操作便捷、语音识别准确。定价暂未公布,定位是家用电脑的语音控制辅助工具。
多元树写作界面
Loom是一款用于人工智能协作的多元树写作界面。它提供了线性故事视图、树形导航栏、树视图、生成N个子节点以及文件I/O等功能。用户可以通过点击、热键等方式进行导航、编辑文本、生成内容,支持多种操作,是一款适用于人工智能协作的编程工具。
多模态语言模型
SpeechGPT是一种多模态语言模型,具有内在的跨模态对话能力。它能够感知并生成多模态内容,遵循多模态人类指令。SpeechGPT-Gen是一种扩展了信息链的语音生成模型。SpeechAgents是一种具有多模态多代理系统的人类沟通模拟。SpeechTokenizer是一种统一的语音标记器,适用于语音语言模型。这些模型和数据集的发布日期和相关信息均可在官方网站上找到。
AI创作故事与图像
TMRA是世界上第一个由人工智能驱动的故事、提示和图像创作工具。您可以与AI共同创作独特的世界,拥有丰富的角色背景故事、动态目标系统、行动提示、故事进展、NPC管理和惊人的图像,提供真正独特的故事体验。您的故事完成后,可以与他人分享,发送到打印,甚至自己打印。TMRA还提供了巧妙有趣的成就系统、伤害流血效果、伴侣子系统,以及丰富多彩的故事、提示、图像甚至声音。您可以手动挑选喜欢的图像,创建收藏并与他人分享,甚至将其打印在画布上,制作墙艺品或其他精美的打印产品。
AI创作儿童故事
Once Upon a Bot是一款使用人工智能技术创作儿童故事的网站。用户可以向AI提供故事创作的初始想法,然后AI将完全自动生成一篇故事。用户可以阅读、编辑、导出和分享这些故事。Once Upon a Bot适合家长、教师和孩子们使用,可以提高孩子的阅读能力并让他们享受创作的乐趣。
创作独特、生动的故事
fabula for kids是一款帮助用户轻松创作生动故事的工具。用户可以描述故事情节和图像,系统将根据描述生成定制图像和音频叙述,为用户创造独一无二的故事体验。该产品定位于帮助家长为孩子打造难忘的故事时光。
无审查,创作故事和角色
DreamGen是一个开源故事创作和角色创作模型平台。用户可以通过这个平台释放想象力,创建自己的故事和角色。该产品提供免费试用以及不同套餐的付费订阅,用户可以根据自己的需求选择相应的套餐进行订阅。通过DreamGen,用户可以进行创作,并将故事和角色模型变得更具个性化。
AI故事生成器,轻松创作真实的故事
DeepFiction是一个用于创作和分享故事的平台。它采用人工智能技术,提供各种类型、风格和设置的故事生成,帮助用户轻松克服写作障碍。无论是惊险刺激的动作冒险、经典感人的爱情故事,还是幽默搞笑的作品,DeepFiction都能满足每个人的需求。用户可以选择自己喜欢的题材,并由AI生成个性化、引人入胜的故事。DeepFiction不仅可以个性化娱乐,还能根据用户的口味和偏好进行持续调整。它尊重用户的表达自由,带你走进一个无尽且个性化的娱乐世界。
生成受控于参考图像、音频和V-Kps序列的头像视频。
V-Express是一个由腾讯AI实验室开发的头像视频生成模型,它通过一系列渐进式丢弃操作平衡不同的控制信号,使得生成的视频能够同时考虑姿态、输入图像和音频。该模型特别针对音频信号较弱的情况进行了优化,解决了在控制信号强度不同的情况下生成头像视频的挑战。
AI辅助视频创作,让故事生动起来。
寻光视频创作平台是一个利用人工智能技术,为用户提供全新视频创作模式的在线服务。它通过剧本到分镜的辅助,角色库管理,视觉素材创作,以及视频内容编辑等功能,帮助用户快速实现视频制作。该平台的主要优点包括高效的创作流程、个性化的角色定制、以及先进的AI技术,使得视频制作更加便捷和创新。
AI 驱动的故事创作平台
Deep Realms是一款 AI 驱动的故事创作平台,通过智能算法和大数据分析,帮助用户释放想象力,生成富有创意的故事。用户可以通过选择不同的故事元素和情节,让 AI 帮助编写出独特的故事内容。深域支持多种故事类型和风格,帮助用户轻松创作出精彩纷呈的故事作品。平台简洁易用,无需编程或写作技巧,适用于任何想要创作故事的人群。
全新的故事创作方式。
Chronicle是一个全新的故事创作工具,通过精心设计的模块化Blocks,让用户可以轻松地创建具有完美设计、互动性和动态效果的故事。用户可以定制Blocks、嵌入链接、以键盘为主的工作流程,并与团队实时协作,还可以通过专家认证的模板快速启动创作。
AI驱动的界面解决方案,引领智能新体验。
Ant Design X 是由Ant Design团队推出的AI界面解决方案,它基于RICH设计范式(角色、意图、会话和混合界面),延续Ant Design的设计语言,提供了全新的AGI混合界面(Hybrid-UI)解决方案。Ant Design X 旨在通过AI技术提升人机交互的效率和体验,它适用于多种AI场景,包括Web独立式、Web助手式和Web嵌入式等。Ant Design X 的主要优点包括易于配置、极致体验的通用图表库,以及能够快速理解和表达AI意图的能力。产品背景信息显示,Ant Design X 是在蚂蚁集团内部海量AI产品中实践和迭代的结果,它的目标是创造更美好的智能视界。
全身运动生成框架,支持多模态控制
ControlMM是一个全身运动生成框架,具有即插即用的多模态控制功能,能够在文本到运动(Text-to-Motion)、语音到手势(Speech-to-Gesture)和音乐到舞蹈(Music-to-Dance)等多个领域中生成稳健的运动。该模型在可控性、序列性和运动合理性方面具有明显优势,为人工智能领域提供了一种新的运动生成解决方案。
机器人教学框架,无需在野机器人
通用操作接口(UMI)是一个数据收集和策略学习框架,允许直接将现场人类演示中的技能转移到可部署的机器人策略。UMI采用手持夹具与仔细的界面设计相结合,实现便携、低成本和信息丰富的数据收集,用于挑战性的双手和动态操作演示。为促进可部署的策略学习,UMI结合了精心设计的策略界面,具有推理时延迟匹配和相对轨迹动作表示。从而产生的学习策略与硬件无关,并且可以在多个机器人平台上部署。配备这些功能,UMI框架解锁了新的机器人操作功能,仅通过为每个任务更改训练数据,允许泛化的动态、双手、精确和长时间的行为,从而实现零次调整。我们通过全面的真实环境实验演示了UMI的通用性和有效性,其中仅通过使用各种人类演示进行训练的UMI策略,在面对新环境和对象时实现了零次调整的泛化。
个性化创意短篇故事,创作、赠送
Make Tales是一个个性化创意短篇故事的平台。用户可以填写表单,选择故事类型以及希望出现的人物、地点或物品等要素,然后选择故事模板。系统会根据用户的要求生成一篇独特的故事,并将其发送到用户指定的邮箱。用户可以选择以数字形式分享故事,打印故事送给亲朋好友,或者直接通过邮件赠送。Make Tales提供了一种有趣的方式来创作和赠送独特的短篇故事。
与Leoline聊天,创作充满奇迹的独特冒险故事。
Leoline是一个与孩子交互创作神奇故事的平台。它提供安全的儿童故事内容,父母可以控制内容。Leoline的故事每次都是全新的,根据用户的要求即兴创作,深受孩子喜爱。
© 2025 AIbase 备案号:闽ICP备08105208号-14