需求人群:
"自动驾驶研究、仿真、数据增强"
使用场景示例:
基于视频输入生成不同的可能驾驶场景
结合文本提示生成不同天气条件下的驾驶场景
输入行动序列控制自己车辆的运动轨迹
产品特色:
基于多模态输入生成视频
支持精细控制自己车辆行为
支持精细控制场景特征
可生成长时间高质量驾驶场景
浏览量:70
最新流量情况
月访问量
69.98k
平均访问时长
00:01:39
每次访问页数
3.21
跳出率
42.42%
流量来源
直接访问
37.47%
自然搜索
51.75%
邮件
0.10%
外链引荐
7.09%
社交媒体
2.86%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
德国
4.67%
英国
27.34%
日本
4.38%
韩国
6.10%
美国
28.74%
安博思公司开发的40亿参数通用式生成世界模型
GAIA-1是一种具有90亿参数的通用式生成世界模型,专为自动驾驶而设计。它可以通过视频、文本和动作输入生成逼真的驾驶场景视频,并可以精细控制自己车辆的行为以及场景中的特征。GAIA-1利用多模态学习方法,可以生成丰富多样的驾驶场景,增强自动驾驶系统的学习和解释能力。它的关键功能包括:基于视频、文本和动作的生成能力、可控性高、支持长时间生成、可扩展等。GAIA-1可用于自动驾驶研究、仿真、数据增强等多种应用场景。它代表了生成式AI在自动驾驶领域的先进探索,为创新提供了无限可能。
AI博客自动驾驶
BLOGBOOSTER.ai是一款专为WordPress网站设计的AI自动驾驶工具。它可以生成适用于您的博客的主题,并每月自动写作和发布文章。通过定期添加内容,提升您的网站的SEO效果,吸引更多的流量和销售。价格灵活,可根据每月所需的文章数量选择计划。
用于自动驾驶的大规模视频生成模型
GenAD是由上海人工智能实验室联合香港科技大学、德国图宾根大学和香港大学共同推出的首个大规模自动驾驶视频生成模型。它通过预测和模拟真实世界场景,为自动驾驶技术的研究和应用提供支撑。GenAD在理解复杂动态环境、适应开放世界场景、精准预测等方面具有较强能力,能够通过语言和行车轨迹进行控制,并展现出应用于自动驾驶规划任务的潜力,有助于提高行车安全性和效率。
自动驾驶与视觉语言模型的融合
DriveVLM是一个自动驾驶系统,它利用视觉语言模型(VLMs)来增强场景理解和规划能力。该系统通过独特的推理模块组合,包括场景描述、场景分析和分层规划,以提高对复杂和长尾场景的理解。此外,为了解决VLMs在空间推理和计算需求上的局限性,提出了DriveVLM-Dual,这是一个混合系统,结合了DriveVLM的优势和传统自动驾驶流程。在nuScenes数据集和SUP-AD数据集上的实验表明,DriveVLM和DriveVLM-Dual在处理复杂和不可预测的驾驶条件方面非常有效。最终,DriveVLM-Dual在生产车辆上进行了部署,验证了其在现实世界自动驾驶环境中的有效性。
实时端到端自动驾驶的截断扩散模型
DiffusionDrive是一个用于实时端到端自动驾驶的截断扩散模型,它通过减少扩散去噪步骤来加快计算速度,同时保持高准确性和多样性。该模型直接从人类示范中学习,无需复杂的预处理或后处理步骤,即可实现实时的自动驾驶决策。DiffusionDrive在NAVSIM基准测试中取得了88.1 PDMS的突破性成绩,并且能够在45 FPS的速度下运行。
开源的端到端自动驾驶多模态模型
OpenEMMA是一个开源项目,复现了Waymo的EMMA模型,提供了一个端到端框架用于自动驾驶车辆的运动规划。该模型利用预训练的视觉语言模型(VLMs)如GPT-4和LLaVA,整合文本和前视摄像头输入,实现对未来自身路径点的精确预测,并提供决策理由。OpenEMMA的目标是为研究人员和开发者提供易于获取的工具,以推进自动驾驶研究和应用。
GAIA-2 是一个先进的视频生成模型,用于创建安全的自动驾驶场景。
GAIA-2 是 Wayve 开发的先进视频生成模型,旨在为自动驾驶系统提供多样化和复杂的驾驶场景,以提高安全性和可靠性。该模型通过生成合成数据来解决依赖现实世界数据收集的限制,能够创建各种驾驶情境,包括常规和边缘案例。GAIA-2 支持多种地理和环境条件的模拟,帮助开发者在没有高昂成本的情况下快速测试和验证自动驾驶算法。
NVIDIA Cosmos是用于物理AI开发的世界基础模型平台。
NVIDIA Cosmos是一个先进的世界基础模型平台,旨在加速物理AI系统的开发,如自动驾驶车辆和机器人。它提供了一系列预训练的生成模型、高级分词器和加速数据处理管道,使开发者能够更容易地构建和优化物理AI应用。Cosmos通过其开放的模型许可,降低了开发成本,提高了开发效率,适用于各种规模的企业和研究机构。
特斯拉自动驾驶技术与机器人的未来愿景
We, Robot 是特斯拉公司展示其在自动驾驶技术和机器人技术领域愿景的页面。它强调了特斯拉对于创建可持续未来、提高交通效率、可负担性和安全性的承诺。该页面介绍了特斯拉的全自动驾驶技术(监督)以及未来自动驾驶汽车和机器人的潜在应用,如Robotaxi、Robovan和Tesla Bot。这些技术旨在通过自动化提高日常生活的便利性,同时减少交通事故,降低交通成本。
首款实时生成式AI开放世界模型
Decart是一个高效的AI平台,提供了在训练和推理大型生成模型方面的数量级改进。利用这些先进的能力,Decart能够训练基础的生成交互模型,并使每个人都能在实时中访问。Decart的OASIS模型是一个实时生成的AI开放世界模型,代表了实时视频生成的未来。该平台还提供了对1000+ NVIDIA H100 Tensor Core GPU集群进行训练或推理的能力,为AI视频生成领域带来了突破性进展。
Stability AI 生成模型是一个开源的生成模型库。
Stability AI 生成模型是一个开源的生成模型库,提供了各种生成模型的训练、推理和应用功能。该库支持各种生成模型的训练,包括基于 PyTorch Lightning 的训练,提供了丰富的配置选项和模块化的设计。用户可以使用该库进行生成模型的训练,并通过提供的模型进行推理和应用。该库还提供了示例训练配置和数据处理的功能,方便用户进行快速上手和定制。
Dart - 项目管理自动驾驶
Dart是项目管理自动驾驶。通过AI驱动的自动化,Dart通常可以节省团队三分之一的项目管理时间。利用最新的AI技术,避免标准的项目管理开销。自动填写描述或简短的PRD,自动分类、分配、规模化、优先级和安排任务。将任务分解为子任务,优化工作流程以节省时间。使用直观的键盘快捷键和Dart超高效的命令中心,通过插件与ChatGPT一起查看、编辑和创建任务,使用NLP自动添加属性,利用键盘快捷键进行操作。加速管理,计划任务、子任务和项目,然后自动滚动冲刺周期,灵活度百分百。通过教授Dart您团队的特定模式和工作流程,自动消除乏味的责任。利用ChatGPT和最新的AI力量,帮助您在困惑或受阻时前进。使用丰富的键盘命令快速完成任务,并通过有用的工具提示学习。个性化您的工作区和工作流程,使用自定义字段、状态、颜色、标签等。通过专为团队跨职能和角色优化的工具,简化沟通和协同。与ChatGPT、电子邮件、Notion、Slack、GitHub等集成,不再切换上下文。加速您的整个团队,包括设计、工程、销售和管理。
面向生成场景的可控大语言模型
孟子生成式大模型(孟子 GPT)是一个面向生成场景的可控大语言模型,能够通过多轮的方式帮助用户完成特定场景中的多种工作任务。它支持知识问答、多语言翻译、通用写作和金融场景任务等功能,具有更可控、更灵活、更个性、更专业的优势。具体定价和使用方式请咨询官方网站。
生成开放世界视频游戏的扩散变换模型
GameGen-O 是首个为生成开放世界视频游戏而定制的扩散变换模型。该模型通过模拟游戏引擎的多种特性,如创新角色、动态环境、复杂动作和多样化事件,实现了高质量、开放领域的生成。此外,它还提供了交互式可控性,允许游戏玩法模拟。GameGen-O 的开发涉及从零开始的全面数据收集和处理工作,包括构建首个开放世界视频游戏数据集(OGameData),通过专有的数据管道进行高效的排序、评分、过滤和解耦标题。这个强大且广泛的 OGameData 构成了模型训练过程的基础。
将LinkedIn上的活动放在自动驾驶模式下,使用ChatGPT自动生成评论。
PowerIn是一款利用ChatGPT自动生成评论的工具,可以自动评论LinkedIn上的Top Voice帖子,帮助提高您在LinkedIn上的活跃度。让您的在线存在自动化。
AlloyDB AI助力PostgreSQL构建生成式AI应用
AlloyDB AI是Google Cloud推出的一项数据库服务,可帮助开发者在PostgreSQL数据库上构建生成式AI应用。它提供了熟悉的PostgreSQL接口,支持向量、模型管理,并可深度集成Google Vertex AI,轻松访问各种生成式AI模型。AlloyDB AI拥有企业级的可扩展性、可用性与安全性,可实现超高性能的向量运算,是构建PostgreSQL生成式AI应用的理想选择。
高精度单目深度估计模型
Depth Pro是一个用于单目深度估计的研究项目,它能够快速生成高精度的深度图。该模型利用多尺度视觉变换器进行密集预测,并结合真实与合成数据集进行训练,以实现高准确度和细节捕捉。它在标准GPU上生成2.25百万像素深度图仅需0.3秒,具有速度快、精度高的特点,对于机器视觉和增强现实等领域具有重要意义。
新一代生成式AI模型
Liquid Foundation Models (LFMs) 是一系列新型的生成式AI模型,它们在各种规模上都达到了最先进的性能,同时保持了更小的内存占用和更高效的推理效率。LFMs 利用动态系统理论、信号处理和数值线性代数的计算单元,可以处理包括视频、音频、文本、时间序列和信号在内的任何类型的序列数据。这些模型是通用的AI模型,旨在处理大规模的序列多模态数据,实现高级推理,并做出可靠的决策。
通过生成式AI激活人类潜能
Stability AI是一个专注于生成式人工智能技术的公司,提供多种AI模型,包括文本到图像、视频、音频、3D和语言模型。这些模型能够处理复杂提示,生成逼真的图像和视频,以及高质量的音乐和音效。公司提供灵活的许可选项,包括自托管许可和平台API,以满足不同用户的需求。Stability AI致力于通过开放模型,为全球每个人提供高质量的AI服务。
欧洲最大的私人人工智能实验室
Silo AI 是欧洲最大的私人人工智能实验室,与行业领导者合作开发智能设备、自动驾驶车辆、工业4.0和智能城市。其产品和技术致力于将最先进的人工智能带入生产,为客户带来利益。
无限可能的AI生成世界
Dreamix是一款AI生成世界的产品,通过Dream Maker提供无限的创造可能。用户可以使用Dream Maker创造出各种想象中的世界,包括场景、角色、物品等,并根据自己的需求定制世界的规则和行为。Dreamix提供丰富的功能,包括AI生成、场景编辑、角色管理、物品定制等。优势是可以快速生成各种复杂的世界,并且支持多种形态的导出和分享。定价根据使用场景和功能点进行灵活定制,定位为面向创作者、开发者和设计师的创造工具。
自动化的生成式AI评估平台
AutoArena是一个自动化的生成式AI评估平台,专注于评估大型语言模型(LLMs)、检索增强生成(RAG)系统和生成式AI应用。它通过自动化的头对头判断来提供可信的评估,帮助用户快速、准确、经济地找到系统的最佳版本。该平台支持使用来自不同供应商的判断模型,如OpenAI、Anthropic等,也可以使用本地运行的开源权重判断模型。AutoArena还提供了Elo评分和置信区间计算,帮助用户将多次头对头投票转化为排行榜排名。此外,AutoArena支持自定义判断模型的微调,以实现更准确、特定领域的评估,并可以集成到持续集成(CI)流程中,以自动化评估生成式AI系统。
生成和交互控制开放世界游戏视频的扩散变换模型
GameGen-X是专为生成和交互控制开放世界游戏视频而设计的扩散变换模型。该模型通过模拟游戏引擎的多种特性,如创新角色、动态环境、复杂动作和多样事件,实现了高质量、开放领域的视频生成。此外,它还提供了交互控制能力,能够根据当前视频片段预测和改变未来内容,从而实现游戏玩法模拟。为了实现这一愿景,我们首先从零开始收集并构建了一个开放世界视频游戏数据集(OGameData),这是第一个也是最大的开放世界游戏视频生成和控制数据集,包含超过150款游戏的100多万个多样化游戏视频片段,这些片段都配有GPT-4o的信息性字幕。GameGen-X经历了两阶段的训练过程,包括基础模型预训练和指令调优。首先,模型通过文本到视频生成和视频续集进行预训练,赋予了其长序列、高质量开放领域游戏视频生成的能力。进一步,为了实现交互控制能力,我们设计了InstructNet来整合与游戏相关的多模态控制信号专家。这使得模型能够根据用户输入调整潜在表示,首次在视频生成中统一角色交互和场景内容控制。在指令调优期间,只有InstructNet被更新,而预训练的基础模型被冻结,使得交互控制能力的整合不会损失生成视频内容的多样性和质量。GameGen-X代表了使用生成模型进行开放世界视频游戏设计的一次重大飞跃。它展示了生成模型作为传统渲染技术的辅助工具的潜力,有效地将创造性生成与交互能力结合起来。
微软推出的针对初学者的生成式AI课程
该课程包含12节内容,从生成式AI和语言模型的基础知识讲起,逐步帮助学习者掌握使用OpenAI等平台进行应用开发的核心技能,如提示工程、构建聊天机器人、语义搜索等,最后还提供了一些案例用于实践检验。整个课程免费提供,适合想要快速上手生成式AI开发的初学者学习。
使用生成式AI赋能人类创造力与生产力
HiDream.ai是一个使用生成式AI来提升人类创造力和生产力的平台。它提供了像Pixeling这样的产品,可以自动生成图像、视频、文字等创意内容,帮助用户提高工作效率,创造更多价值。平台采用自主研发的多模态基础模型,可以处理文本、图像、音频等不同形式的数据,实现多模态的生成。平台面向创意工作者、企事业单位等用户,提供基于订阅的服务模式。用户可以通过WEB页面访问该平台,体验其强大的生成能力。
为您的产品提供AI副驾驶
Spine是一个能够极大简化构建AI副驾驶功能的产品。它可以让您的用户通过一个简单的命令完成繁琐的产品工作流程,帮助他们从多次点击转变为一次命令。您可以在产品上直接启用聊天界面,结合您的文档、数据库和API文档,简化复杂的工作流程。Spine支持自定义报告、批量操作和自动化多步骤工作流程等各种复杂操作,提供稳定可靠的副驾驶体验。请加入等待名单以了解更多详情。
Muse 是微软推出的首个用于游戏创意构思的生成式 AI 模型,能够生成游戏视觉效果和操作动作。
Muse 是微软研究团队与 Xbox Games Studios 合作开发的生成式 AI 模型,旨在支持游戏创意构思。它基于大规模人类游戏数据训练,能够生成连贯的游戏视觉和操作序列。该技术展示了 AI 在游戏设计中的潜力,为未来的游戏开发提供了新的创作方式和体验。
© 2025 AIbase 备案号:闽ICP备08105208号-14