浏览量:138
最新流量情况
月访问量
4.75m
平均访问时长
00:06:34
每次访问页数
6.10
跳出率
36.20%
流量来源
直接访问
52.19%
自然搜索
32.64%
邮件
0.04%
外链引荐
12.93%
社交媒体
2.02%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
14.32%
德国
3.68%
印度
9.04%
俄罗斯
3.92%
美国
19.25%
物理模拟角色的指令驱动控制系统
InsActor是一个基于物理模拟的角色控制系统。它可以通过自然语言指令驱动角色在复杂环境中完成各种交互任务。该系统利用条件与对抗扩散模型进行多级规划,并与低级控制器相结合,实现稳定、鲁棒的控制。具有控制流畅、交互自然的优势,适用于创意内容生成、互动娱乐、人机交互等应用场景。
Wan 2.1 AI 是一款将文本和图像转化为高质量视频的先进 AI 视频生成模型。
Wan 2.1 AI 是由阿里巴巴开发的开源大规模视频生成 AI 模型。它支持文本到视频(T2V)和图像到视频(I2V)的生成,能够将简单的输入转化为高质量的视频内容。该模型在视频生成领域具有重要意义,能够极大地简化视频创作流程,降低创作门槛,提高创作效率,为用户提供丰富多样的视频创作可能性。其主要优点包括高质量的视频生成效果、复杂动作的流畅展现、逼真的物理模拟以及丰富的艺术风格等。目前该产品已完全开源,用户可以免费使用其基础功能,对于有视频创作需求但缺乏专业技能或设备的个人和企业来说,具有很高的实用价值。
基于Gemini 2.0的机器人模型,将AI带入物理世界,具备视觉、语言和动作能力。
Gemini Robotics是Google DeepMind推出的一种先进的人工智能模型,专为机器人应用而设计。它基于Gemini 2.0架构,通过视觉、语言和动作(VLA)的融合,使机器人能够执行复杂的现实世界任务。该技术的重要性在于它推动了机器人从实验室走向日常生活和工业应用的进程,为未来智能机器人的发展奠定了基础。Gemini Robotics的主要优点包括强大的泛化能力、交互性和灵巧性,使其能够适应不同的任务和环境。目前,该技术处于研究和开发阶段,尚未明确具体的价格和市场定位。
在浏览器中运行AI代理的用户界面
WebUI 是一个基于 Gradio 构建的用户界面,旨在为 AI 代理提供便捷的浏览器交互体验。该产品支持多种大型语言模型(LLM),如 Gemini、OpenAI 等,使得用户可以根据自己的需求选择合适的模型进行交互。WebUI 的主要优点在于其用户友好的界面设计和强大的自定义功能,用户可以使用自己的浏览器进行操作,避免了重复登录和认证的问题。此外,WebUI 还支持高清屏幕录制功能,为用户提供了更多的使用场景。该产品定位于为开发者和研究人员提供一个简单易用的 AI 交互平台,帮助他们更好地进行 AI 应用的开发和研究。
大规模基础世界模型,生成多样的3D可操作环境
Genie 2是由Google DeepMind开发的一款大规模基础世界模型,能够基于单一提示图像生成无尽的、可操作的、可玩的3D环境,用于训练和评估具身智能体。Genie 2代表了深度学习和人工智能领域的一大进步,它通过模拟虚拟世界及其行动后果,展示了在大规模生成模型中的多种紧急能力,如物体交互、复杂角色动画、物理模拟等。Genie 2的研究推动了新的创意工作流程,用于原型化交互体验,并为未来更通用的AI系统和智能体的研究提供了新的可能性。
基于Transformer的实时开放世界AI模型
Oasis是由Decart AI开发的首个可玩、实时、开放世界的AI模型,它是一个互动视频游戏,由Transformer端到端生成,基于逐帧生成。Oasis能够接收用户键盘和鼠标输入,实时生成游戏玩法,内部模拟物理、游戏规则和图形。该模型通过直接观察游戏玩法学习,允许用户移动、跳跃、拾取物品、破坏方块等。Oasis被视为研究更复杂交互世界的基础模型的第一步,未来可能取代传统的游戏引擎。Oasis的实现需要模型架构的改进和模型推理技术的突破,以实现用户与模型的实时交互。Decart AI采用了最新的扩散训练和Transformer模型方法,并结合了大型语言模型(LLMs)来训练一个自回归模型,该模型可以根据用户即时动作生成视频。此外,Decart AI还开发了专有的推理框架,以提供NVIDIA H100 Tensor Core GPU的峰值利用率,并支持Etched即将推出的Sohu芯片。
基于物理的图像到视频生成技术
PhysGen是一个创新的图像到视频生成方法,它能够将单张图片和输入条件(例如,对图片中物体施加的力和扭矩)转换成现实、物理上合理且时间上连贯的视频。该技术通过将基于模型的物理模拟与数据驱动的视频生成过程相结合,实现了在图像空间中的动态模拟。PhysGen的主要优点包括生成的视频在物理和外观上都显得逼真,并且可以精确控制,通过定量比较和全面的用户研究,展示了其在现有数据驱动的图像到视频生成工作中的优越性。
基于物理的角色动画研究项目
ProtoMotions是一个致力于创建交互式物理模拟虚拟代理的项目。它支持IsaacGym和IsaacSim,并且基于Hydra和OmegaConfig构建,使得配置组合变得简单。这个项目为研究者和开发者提供了一个平台,用于开发和测试基于物理的角色动画技术。它不仅能够用于学术研究,还能在游戏、电影和虚拟现实等领域中应用。
实时表情生成人类模型
PROTEUS是Apparate Labs推出的一款下一代基础模型,用于实时表情生成人类。它采用先进的transformer架构的潜在扩散模型,创新的潜在空间设计实现了实时效率,并能通过进一步的架构和算法改进,达到每秒100帧以上视频流。PROTEUS旨在提供一种通过语音控制的视觉体现,为人工对话实体提供直观的接口,并且与多种大型语言模型兼容,可定制用于多种不同应用。
一个由真实世界用户与ChatGPT交互构成的语料库。
WildChat数据集是一个由100万真实世界用户与ChatGPT交互组成的语料库,特点是语言多样和用户提示的多样性。该数据集用于微调Meta的Llama-2,创建了WildLlama-7b-user-assistant聊天机器人,能够预测用户提示和助手回应。
通过视频生成实现基于物理的3D对象交互
PhysDreamer是一个基于物理的方法,它通过利用视频生成模型学习到的对象动力学先验,为静态3D对象赋予交互式动力学。这种方法允许在缺乏真实物体物理属性数据的情况下,模拟出对新颖交互(如外力或代理操作)的真实反应。PhysDreamer通过用户研究评估合成交互的真实性,推动了更吸引人和真实的虚拟体验的发展。
从单一视频创建实时互动游戏环境
Video2Game是一项技术,可以将单一视频转换成具有实时、互动、真实感和浏览器兼容性的高质量虚拟环境。它通过构建大规模的NeRF模型来实现高质量的表面几何形状,然后将该模型转换为带有对应刚体动力学的网格表示,以支持交互。使用UV映射的神经纹理,既能表达丰富,又与游戏引擎兼容。最终得到的是一个虚拟环境,虚拟角色可以与之互动,响应用户控制,并能从新的相机视角实时提供高分辨率渲染。
UFO是一个用于Windows操作系统交互的UI聚焦双Agent框架
UFO是一个用于Windows操作系统交互的UI聚焦双Agent框架。它通过自然语言理解用户请求,并在一个或跨多个应用程序内无缝导航和操作来执行这些请求。该框架包含AppAgent和ActAgent两个agent。AppAgent负责根据用户请求选择应用程序。ActAgent负责在选定的应用程序内迭代执行操作,直到任务成功完成。两者都利用GPT-Vision的多模态功能来理解应用程序的UI并满足用户的请求。
与各种AI人物互动,解决任何问题
Inquire是一个AI交互平台,用户可以与各种AI人物互动,解决各种问题。无论您是需要建肌肉、编程问题、写作灵感还是其他任何问题,Inquire都能帮助您得到最有效的AI助手。
PDF文件交互工具,提高生产力
CelestialPDF是一款能够让您与任何PDF文件进行交互的工具。只需上传您的文件,立即开始提出问题。我们致力于为您提供最佳工具,以提升您的生产力。让人工智能为您总结和创建,让您可以专注于真正重要的工作。您可以通过免费计划或选择我们的专业计划开始使用CelestialPDF。上传您的PDF文件,我们将处理您的文件并准备好让您进行交互。CelestialPDF让您与PDF文件进行交谈变得前所未有的简单。
一分钟创建网站演示视频,无需编程
DDLE.DEV是一个通过AI生成语音和人脸的网站演示视频工具。它可以在1分钟内为您的网站创建交互式演示,就像视频通话,但没有安排的麻烦。主要功能包括全屏录制、即时分享链接、无需下载等。
AI语音助手,代替您进行个性化回复
AI Twin是一个基于AI的虚拟助手,它可以在语音通话中准确地模拟您的声音及语调,从而以极其逼真的方式代表您进行交流。无论您是网红、专业人士、企业家还是时间紧迫的忙碌者,AI Twin都可以帮助您代理个性化的语音回复,使您能更专注于重要的事情。只需将AI Twin添加到您的个人资料中,它就可以为您处理语音通话中的交互应答,从而帮助您扩大影响力及建立更牢固的人脉关系。
LinkedIn评论助手
Easy Comments-GPT是一款Chrome插件,通过ChatGPT 3.5的强大功能,提供更便捷、快速和相关的LinkedIn评论体验。具备高度的定制化功能,包括写作风格、表情符号和上下文响应等。支持多种语言和风格选择,可同时生成多条评论,节省时间并提供个性化的交互。
AI游戏NPC交互平台
ChatDev是一款先进的AI游戏NPC研究平台,通过多个大型模型接口支持对NPC交互进行复杂操作,并通过自定义提示流程在游戏中生成视觉效果。可以探索多个大型模型的聊天功能,创建自定义工作流程以生成令人印象深刻的游戏演示和结果。无论是与AI进行深入对话还是快速生成精彩内容,我们都为您提供丰富的功能。
音乐发现与推荐应用
Swipefy for Spotify是一个基于交互式滑块的音乐发现与推荐APP。它通过用户左右滑动选择喜欢或不喜欢的方式,记录用户的音乐口味,并利用强大的AI算法为用户推荐个性化的音乐和播放列表。该APP提供免费基本功能和付费高级功能,支持iOS设备。
根据您的心情为您匹配歌单的网站
ImFeeling是一个根据用户心情播放对应歌单的音乐网站。用户输入当前心情,网站会智能匹配心情对应的歌单,用户可以边聆听音乐边调节心情。该网站拥有海量正版歌曲,支持个性化推荐。其简单的交互方式和人性化的情感识别功能,让用户能够轻松找到适合自己现在心情的音乐,是优质的音乐伴侣。
自定义模板提升ChatGPT的效果
LLM Format是一个在线工具,用于创建自定义模板,以提升ChatGPT的提示效果。它提供了一个简单易用的界面,让用户可以创建自己的模板,并将其应用于ChatGPT的输入。通过使用LLM Format,用户可以更好地控制ChatGPT生成的回答内容,从而提高交互的质量和效果。LLM Format还提供示例模板,方便用户快速上手。
© 2025 AIbase 备案号:闽ICP备08105208号-14