浏览量:200
最新流量情况
月访问量
33.51k
平均访问时长
00:00:11
每次访问页数
1.61
跳出率
43.58%
流量来源
直接访问
38.27%
自然搜索
46.22%
邮件
0.14%
外链引荐
9.31%
社交媒体
5.17%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
巴西
5.73%
德国
10.73%
英国
3.82%
印度
7.62%
美国
14.01%
01 Light是一款用于家用电脑的语音界面。
01 Light是一款语音控制界面,可以让你用语音控制家用电脑执行各种操作。它的优势是操作便捷、语音识别准确。定价暂未公布,定位是家用电脑的语音控制辅助工具。
探索未来人机交互的AI代理项目
Project Mariner是Google DeepMind基于Gemini 2.0模型开发的早期研究原型,旨在探索未来的人机交互方式,特别是在网络浏览器中的应用。这个项目能够理解浏览器屏幕上的信息,包括像素和网页元素,如文本、代码、图像和表单,并利用这些信息完成任务。Project Mariner在技术上实现了通过Chrome扩展程序在浏览器中直接操作,为用户提供了一种全新的代理服务体验。
物理模拟角色的指令驱动控制系统
InsActor是一个基于物理模拟的角色控制系统。它可以通过自然语言指令驱动角色在复杂环境中完成各种交互任务。该系统利用条件与对抗扩散模型进行多级规划,并与低级控制器相结合,实现稳定、鲁棒的控制。具有控制流畅、交互自然的优势,适用于创意内容生成、互动娱乐、人机交互等应用场景。
实时语音交互的人工智能对话系统。
Listening-while-Speaking Language Model (LSLM)是一款旨在提升人机交互自然度的人工智能对话模型。它通过全双工建模(FDM)技术,实现了在说话时同时监听的能力,增强了实时交互性,尤其是在生成内容不满意时能够被打断和实时响应。LSLM采用了基于token的解码器仅TTS进行语音生成,以及流式自监督学习(SSL)编码器进行实时音频输入,通过三种融合策略(早期融合、中期融合和晚期融合)探索最佳交互平衡。
沟通无界,让每次对话都创造价值。
心辰Lingo语音大模型是一款先进的人工智能语音模型,专注于提供高效、准确的语音识别和处理服务。它能够理解并处理自然语言,使得人机交互更加流畅和自然。该模型背后依托西湖心辰强大的AI技术,致力于在各种场景下提供高质量的语音交互体验。
探索人工智能如何塑造我们的世界和交互模式。
The Shape of AI 是一个专注于人工智能交互模式的网站,它提供了关于如何在设计中融入人工智能的深入见解。该网站强调了用户体验的重要性,并探讨了在AI驱动的世界中,如何通过设计来优化人机交互。它包含了丰富的资源和工具,帮助设计师和开发者理解AI的新兴模式,以及如何利用这些模式来提升他们的产品和服务。
让应用通过语音与文本的转换实现智能交互。
Azure 认知服务语音是微软推出的一款语音识别与合成服务,支持超过100种语言和方言的语音转文本和文本转语音功能。它通过创建可处理特定术语、背景噪音和重音的自定义语音模型,提高听录的准确度。此外,该服务还支持实时语音转文本、语音翻译、文本转语音等功能,适用于多种商业场景,如字幕生成、通话后听录分析、视频翻译等。
下一代情感智能的对话视频界面,让AI交互更自然、更人性。
Conversational Video Interface(CVI)是Tavus推出的一种情感智能对话视频界面。它通过Phoenix-3、Raven-0和Sparrow-0三个模型协同工作,赋予AI真正的人类感知、倾听、理解和实时互动能力。CVI不仅是一个工具,更是一种全新的人机沟通方式,可应用于医疗、心理健康、销售培训、客户服务等多个领域,具有无限的使用场景。其背后的技术突破在于将人类对话的细微情感和节奏融入AI交互中,使AI不再是简单的回应,而是能思考、反应并改变我们与机器的互动方式。
个人智能语音助手,你的随身伴侣
r1是一款个人智能语音助手,采用自然语言交互,提供个性化操作系统,让用户像对待朋友一样与其交流。它具有语音识别、人机对话、个性化推荐等人工智能技术,能帮助用户更高效地处理日常事务,是用户的好帮手。
全身运动生成框架,支持多模态控制
ControlMM是一个全身运动生成框架,具有即插即用的多模态控制功能,能够在文本到运动(Text-to-Motion)、语音到手势(Speech-to-Gesture)和音乐到舞蹈(Music-to-Dance)等多个领域中生成稳健的运动。该模型在可控性、序列性和运动合理性方面具有明显优势,为人工智能领域提供了一种新的运动生成解决方案。
用于构建理解和模拟人类语音表情的声控人工智能接口。
Hume AI的同理心语音接口(EVI)是一种由同理心大型语言模型(eLLM)驱动的API,可以理解和模拟语音音调、词语重音等,从而优化人机交互。它基于10多年的研究成果、数百万专利数据点和30多篇发表在顶尖期刊的论文。EVI旨在为任何应用程序提供更自然、富有同情心的语音界面,让人与AI的互动更加人性化。该技术可广泛应用于销售/会议分析、健康与保健、AI研究服务、社交网络等领域。
多模态语言模型
SpeechGPT是一种多模态语言模型,具有内在的跨模态对话能力。它能够感知并生成多模态内容,遵循多模态人类指令。SpeechGPT-Gen是一种扩展了信息链的语音生成模型。SpeechAgents是一种具有多模态多代理系统的人类沟通模拟。SpeechTokenizer是一种统一的语音标记器,适用于语音语言模型。这些模型和数据集的发布日期和相关信息均可在官方网站上找到。
语音交互人工智能助手
魔撰写作是一款基于语音交互和软硬结合的人工智能助手,可以帮助用户完成日常生活中的各种任务,包括语音助手、智能家居控制、语音翻译、语音记事本等功能。小问智能的优势在于准确率高、响应速度快、支持多语言、可定制化等特点。定价方面,提供免费版和付费版两种选择,付费版功能更加丰富,价格合理。小问智能的定位是成为用户日常生活中的智能助手。
Step-Audio是一个开源智能语音交互框架,支持多语言对话、情感语调和语音克隆等功能。
Step-Audio是首个生产级开源智能语音交互框架,整合了语音理解与生成能力,支持多语言对话、情感语调、方言、语速和韵律风格控制。其核心技术包括130B参数多模态模型、生成式数据引擎、精细语音控制和增强智能。该框架通过开源模型和工具,推动智能语音交互技术的发展,适用于多种语音应用场景。
实时语音提取智能耳机交互系统
LookOnceToHear 是一种创新的智能耳机交互系统,允许用户通过简单的视觉识别来选择想要听到的目标说话者。这项技术在 CHI 2024 上获得了最佳论文荣誉提名。它通过合成音频混合、头相关传输函数(HRTFs)和双耳房间脉冲响应(BRIRs)来实现实时语音提取,为用户提供了一种新颖的交互方式。
强化 ChatGPT,加入语音控制和文本转语音功能
ChatGPT Voice Assistant是一款增强版的ChatGPT插件,集成了语音控制和文本转语音功能。该插件允许您通过录音按钮捕捉和发送语音查询给ChatGPT,省去了打字的必要性。AI的回答会通过语音播放,确保无缝的听觉交互。这样,您可以轻松地与智能对话伙伴互动,并探索先进AI的能力。 特点: - 捕捉语音输入并发送给ChatGPT - 回答会通过语音播放(如果您喜欢阅读,可以关闭语音播放) - 支持多种语言 - 通过点击麦克风按钮或按住空格键来捕捉语音 - 重复播放语音回答 ChatGPT Voice Assistant使用浏览器的本地语音识别功能。请确保在提示时授予麦克风权限。
扩展ChatGPT,语音控制与朗读
Voice Control for ChatGPT x Mia AI是一个扩展,为ChatGPT提供语音控制和朗读功能。通过录音按钮,您可以录制并发送语音查询给ChatGPT,无需打字。AI的回答会朗读出来,确保流畅的听觉交互。此外,该插件还可以将ChatGPT变成您的个人语音助手,具备Mia AI的功能。
为与人类安全共存而开发的创新双臂机器人机制
AMBIDEX是NAVER LABS开发的双臂机器人,旨在实现与人类的安全共存。该机器人具有强大的动力传递机制,同时保持轻便和灵活,满足坚韧和安全性的要求。AMBIDEX项目正在研究新的学习方式,使机器人能够学习人类的动作能力,以执行日常遇到的复杂任务。
ChatGPT AI助手,语音查询,眼镜控制
Lucyd App是一款配有ChatGPT AI助手的应用程序,支持语音查询和眼镜控制。通过Lucyd App,您可以通过语音与ChatGPT进行交流,无需键盘输入。该应用程序具有简洁易用的界面和灵活的历史功能,支持导出和回放查询记录。Lucyd App免费提供,适用于iOS和Android设备。
智能穿戴设备领域的创新者
Gyges Labs致力于创造AI时代的智能穿戴设备,结合了独特的先进光学技术和协作AI技术。公司利用团队在微纳米光学方面的专业知识,开发了基于视网膜投影原理的DigiWindow技术,实现了世界上最小最轻的近眼显示模块。与Birdbath和波导等光学解决方案相比,DigiWindow不仅将尺寸从厘米减少到毫米,还降低了功耗,并提供了完整的视光学兼容性。此外,基于团队在协作AI方面的累积经验,Gyges Labs开发了基于镜像神经元原理并针对可穿戴设备定制的AI引擎Mirron,以增强未来可穿戴设备的感知和交互能力,为未来的“第二大脑”设备奠定了坚实的基础。
WhatsApp语音助手,与ChatGPT通过语音信息交互
GabbyGPT是一个通过WhatsApp实现的AI语音助手,用户可以方便地通过语音信息与ChatGPT进行交互。它可以回答问题、提供信息、执行任务等。GabbyGPT的优势在于其简便易用的操作方式和智能的语音识别功能。定价方面,用户可以免费使用基本功能,或选择订阅高级功能的付费套餐。GabbyGPT适用于个人用户和商业用户,能够满足不同场景的需求。
多智能体任务规划与推理的基准测试
PARTNR是由Meta FAIR发布的一个大规模基准测试,包含100,000个自然语言任务,旨在研究多智能体推理和规划。PARTNR利用大型语言模型(LLMs)生成任务,并通过模拟循环来减少错误。它还支持与真实人类伙伴的AI代理评估,通过人类在环基础设施进行。PARTNR揭示了现有基于LLM的规划器在任务协调、跟踪和从错误中恢复方面的显著局限性,人类能解决93%的任务,而LLMs仅能解决30%。
构建最节能的人工智能硬件
Rain AI专注于开发高能效的人工智能硬件。在当前能源消耗日益增长的背景下,Rain AI的产品通过优化硬件设计,减少能源消耗,同时保持高性能,这对于数据中心和需要大量计算资源的企业来说至关重要。产品的主要优点包括高能效、高性能和环保。Rain AI的产品背景信息显示,公司致力于推动人工智能技术的可持续发展,通过技术创新减少对环境的影响。产品的价格和定位尚未明确,但可以推测其目标市场为需要高性能计算且对能源效率有高要求的企业。
生成受控于参考图像、音频和V-Kps序列的头像视频。
V-Express是一个由腾讯AI实验室开发的头像视频生成模型,它通过一系列渐进式丢弃操作平衡不同的控制信号,使得生成的视频能够同时考虑姿态、输入图像和音频。该模型特别针对音频信号较弱的情况进行了优化,解决了在控制信号强度不同的情况下生成头像视频的挑战。
音频指令演示,体验智能交互。
Qwen2 Audio Instruct Demo 是一个基于音频指令的交互式演示网站,它利用最新的人工智能技术,让用户通过语音指令与网页进行互动。这种技术不仅增强了用户体验,还为残障人士提供了更便捷的访问方式。产品背景信息包括其开发团队和技术支持,价格定位为免费试用,主要面向对人工智能交互感兴趣的用户群体。
AI智能语音助手
小爱同学是小米推出的AI智能语音助手,具有语音控制、智能问答、生活服务等功能。它可以帮助用户完成各种任务,提供实时天气、股票查询、音乐播放等服务。小爱同学可以与用户进行自然对话,提供个性化的建议和回答。同时,小爱同学还支持多平台接入,方便用户在不同设备上使用。
AI驱动的界面解决方案,引领智能新体验。
Ant Design X 是由Ant Design团队推出的AI界面解决方案,它基于RICH设计范式(角色、意图、会话和混合界面),延续Ant Design的设计语言,提供了全新的AGI混合界面(Hybrid-UI)解决方案。Ant Design X 旨在通过AI技术提升人机交互的效率和体验,它适用于多种AI场景,包括Web独立式、Web助手式和Web嵌入式等。Ant Design X 的主要优点包括易于配置、极致体验的通用图表库,以及能够快速理解和表达AI意图的能力。产品背景信息显示,Ant Design X 是在蚂蚁集团内部海量AI产品中实践和迭代的结果,它的目标是创造更美好的智能视界。
生成和交互控制开放世界游戏视频的扩散变换模型
GameGen-X是专为生成和交互控制开放世界游戏视频而设计的扩散变换模型。该模型通过模拟游戏引擎的多种特性,如创新角色、动态环境、复杂动作和多样事件,实现了高质量、开放领域的视频生成。此外,它还提供了交互控制能力,能够根据当前视频片段预测和改变未来内容,从而实现游戏玩法模拟。为了实现这一愿景,我们首先从零开始收集并构建了一个开放世界视频游戏数据集(OGameData),这是第一个也是最大的开放世界游戏视频生成和控制数据集,包含超过150款游戏的100多万个多样化游戏视频片段,这些片段都配有GPT-4o的信息性字幕。GameGen-X经历了两阶段的训练过程,包括基础模型预训练和指令调优。首先,模型通过文本到视频生成和视频续集进行预训练,赋予了其长序列、高质量开放领域游戏视频生成的能力。进一步,为了实现交互控制能力,我们设计了InstructNet来整合与游戏相关的多模态控制信号专家。这使得模型能够根据用户输入调整潜在表示,首次在视频生成中统一角色交互和场景内容控制。在指令调优期间,只有InstructNet被更新,而预训练的基础模型被冻结,使得交互控制能力的整合不会损失生成视频内容的多样性和质量。GameGen-X代表了使用生成模型进行开放世界视频游戏设计的一次重大飞跃。它展示了生成模型作为传统渲染技术的辅助工具的潜力,有效地将创造性生成与交互能力结合起来。
© 2025 AIbase 备案号:闽ICP备08105208号-14