需求人群:
"适用于复杂长期任务的视觉规划"
使用场景示例:
将物体堆叠在桌子中央
将水果放入顶层抽屉
将积木按颜色分组
产品特色:
训练视觉语言模型和文本到视频模型
生成详细的多模态规划
合成长期视频规划
转化为真实机器人动作
浏览量:57
最新流量情况
月访问量
2676
平均访问时长
00:00:32
每次访问页数
0.60
跳出率
53.63%
流量来源
直接访问
26.11%
自然搜索
8.80%
邮件
0
外链引荐
65.09%
社交媒体
0
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
24.51%
土耳其
22.91%
美国
21.64%
西班牙
11.62%
德国
8.62%
开源框架,用于构建语音和多模态对话AI。
Pipecat是一个开源框架,用于构建语音和多模态对话代理,如个人教练、会议助手、儿童故事玩具、客户支持机器人、接待流程和机智的社交伴侣。它支持本地运行,并可迁移到云端,集成了多种AI服务和传输方式,具有高度的可定制性和扩展性。
用于人形机器人学习的通用基础模型
NVIDIA Project GR00T是一种通用基础模型,可在仿真和真实世界中改变人形机器人的学习方式。通过在NVIDIA GPU加速模拟中进行训练,GR00T使得人形机器人能够从少量的人类演示中通过模仿学习和NVIDIA Isaac Lab进行强化学习,并可从视频数据生成机器人动作。GR00T模型接受多模态指令和过去的交互作为输入,并输出机器人需要执行的动作。
谷歌最新一代AI助手
Gemini是谷歌最新一代的AI助手模型,它可以进行长篇语境的理解,支持多模态输入,在文本、代码、图像、音频和视频领域都有出色的表现。Gemini 1.5采用了更高效的模型结构,大大提升了性能。它还实现了突破性的百万级token语境长度,支持更复杂的推理和跨模态理解。Gemini可用于构建对话机器人、知识问答、语音助手、图像识别等应用。
3D世界中的全能代理人
LEO是一个基于大型语言模型的多模态、多任务全能代理人,能够在3D世界中感知、定位、推理、规划和执行任务。LEO通过两个阶段的训练实现:(i)3D视觉语言对齐和(ii)3D视觉语言动作指令调整。我们精心策划和生成了一个包含物体级和场景级多模态任务的大规模数据集,需要对3D世界进行深入的理解和交互。通过严格的实验,我们展示了LEO在3D字幕、问答、推理、导航和机器人操作等广泛任务中的出色表现。
企业智能服务解决方案
阿里云智能客服结合通义大模型全面升级,提供全渠道联络中心与AI应用深度整合的整体方案,助力企业服务向信息化、智能化、多模态转型。对话机器人更加智能的AI Agent,连接知识即可对话,更类人的对话体验,更多服务场景,连接即对话,大幅降低运营成本。支持多种形态的知识,比如文档网页、高频问题、复杂多轮、表格、数据库等。
了解客户对话的多模态 AI 聊天
User Evaluation Chat 是一款多模态 AI 聊天工具,帮助团队了解客户对话并改进产品。通过与我们的 AI 聊天进行自然、人性化的对话,您可以提问有关客户数据洞察的问题,并获得额外的背景和澄清。AI 助手会查找正确的答案并提供相关的引用。此外,您还可以使用聊天机器人快速生成柱状图、流程图和表格等数据可视化工具,帮助您快速理解客户洞察并做出更好的产品决策。
AI和Web3驱动的创建机器人的首个平台
MyShell是一个创造个性化聊天机器人的创新平台。在这里,您可以通过交互式工作坊打造名为Shell的实用和娱乐性机器人,不仅适合个人使用,还可以与朋友和社区分享。平台提供可定制的知识集成、语音工作室、无限记忆、互联网和API集成、多模态集成以及自定义数据微调等功能。价格和定位请查看官方网站。
Google 一款轻量级、高效能的AI模型,专为大规模高频任务设计。
Gemini 1.5 Flash是Google DeepMind团队推出的最新AI模型,它通过'蒸馏'过程从更大的1.5 Pro模型中提炼出核心知识和技能,以更小、更高效的模型形式提供服务。该模型在多模态推理、长文本处理、聊天应用、图像和视频字幕生成、长文档和表格数据提取等方面表现出色。它的重要性在于为需要低延迟和低成本服务的应用提供了解决方案,同时保持了高质量的输出。
一个快速、轻量级的开源聊天界面。
lluminous是一个快速、轻量级的开源聊天界面,支持多供应商API密钥,提供完整的隐私保护,所有对话历史和密钥都存储在本地。它支持多模态输入、多轮对话提示、预填充响应、模型切换以及对话分享等功能。
MyCharacter.AI是一个基于AI协议构建的dApp,利用CharacterGPT V2多模态AI系统生成逼真、智能、交互式的AI角色,这些角色可在Polygon区块链上收藏。
MyCharacter.AI利用CharacterGPT V2多模态AI系统生成逼真、智能、交互式的AI角色。它的主要优点是生成的角色具有逼真的外观和智能的行为,可以与用户进行互动,并且可在Polygon区块链上收藏。MyCharacter.AI定位于提供一个独特的虚拟角色创作和收藏平台。
您的AI伙伴,帮助您更好地写作、绘图和演示。
AFFiNE AI是一个多模态的AI助手,旨在通过其先进的人工智能技术帮助用户提高写作、绘图和演示的效率和质量。它通过提供即时的洞察力、完美的语调、快速的图像转换以及智能的演示生成,来辅助用户从概念到完成的整个创造过程。AFFiNE AI的主要优点包括其用户友好的界面、高效的AI驱动功能以及对数据隐私的重视。该产品目前定价为每月8.9美元,按年计费,同时提供免费试用。
轻量级但功能强大的多模态模型家族。
Bunny 是一系列轻量级但功能强大的多模态模型,提供多种即插即用的视图编码器和语言主干网络。通过从更广泛的数据源进行精选选择,构建更丰富的训练数据,以补偿模型尺寸的减小。Bunny-v1.0-3B 模型在性能上超越了同类大小甚至更大的 MLLMs(7B)模型,并与 13B 模型性能相当。
一款由XTuner优化的LLaVA模型,结合了图像和文本处理能力。
llava-llama-3-8b-v1_1是一个由XTuner优化的LLaVA模型,它基于meta-llama/Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336,并通过ShareGPT4V-PT和InternVL-SFT进行了微调。该模型专为图像和文本的结合处理而设计,具有强大的多模态学习能力,适用于各种下游部署和评估工具包。
多模态知识图谱补全工具
MyGO是一个用于多模态知识图谱补全的工具,它通过将离散模态信息作为细粒度的标记来处理,以提高补全的准确性。MyGO利用transformers库对文本标记进行嵌入,进而在多模态数据集上进行训练和评估。它支持自定义数据集,并且提供了训练脚本以复现实验结果。
Meta 新一代开源大型语言模型,性能卓越
Meta Llama 3是Meta公司推出的新一代开源大型语言模型,性能卓越,在多项行业基准测试中表现出色。它可支持广泛的使用场景,包括改善推理能力等新功能。该模型将在未来支持多语种、多模态,提供更长的上下文窗口和整体性能提升。Llama 3秉承开放理念,将被部署在主要云服务、托管和硬件平台上,供开发者和社区使用。
先进的文本到图像生成系统
Stable Diffusion 3是一款先进的文本到图像生成系统,它在排版和提示遵循方面与DALL-E 3和Midjourney v6等顶尖系统相匹敌或更优。该系统采用新的多模态扩散变换器(MMDiT)架构,使用不同的权重集来改善图像和语言的表示,从而提高文本理解和拼写能力。Stable Diffusion 3 API现已在Stability AI开发者平台上线,与Fireworks AI合作提供快速可靠的API服务,并承诺在不久的将来通过Stability AI会员资格开放模型权重以供自托管。
AI创造性视觉的突破性AI
Stable Diffusion 3是Stability AI推出的最新创新,为创造性图像生成带来突破性的AI。它提供了改进的文本到图像生成算法、多模态能力和用户友好的许可证,免费使用SDXLTurbo.ai。革新设计、动画、游戏等领域,提升文本到图像生成、多模态能力和用户友好的许可证。探索、创造、转化。
一个通用的多模态模型,可用于问答、图像描述等任务
HuggingFaceM4/idefics-80b-instruct是一个开源的多模态模型,它可以接受图像和文本的输入,输出相关的文本内容。该模型在视觉问答、图像描述等任务上表现出色,是一个通用的智能助手模型。它由Hugging Face团队开发,基于开放数据集训练,提供免费使用。
强大的多模态LLM,商业解决方案
Reka Core是一个GPT-4级别的多模态大型语言模型(LLM),具备图像、视频和音频的强大上下文理解能力。它是目前市场上仅有的两个商用综合多模态解决方案之一。Core在多模态理解、推理能力、编码和Agent工作流程、多语言支持以及部署灵活性方面表现出色。
多模态AI模型,图像理解与生成兼备
Mini-Gemini是由香港中文大学终身教授贾佳亚团队开发的多模态模型,具备精准的图像理解能力和高质量的训练数据。该模型结合图像推理和生成,提供不同规模的版本,性能与GPT-4和DALLE3相媲美。Mini-Gemini采用Gemini的视觉双分支信息挖掘方法和SDXL技术,通过卷积网络编码图像并利用Attention机制挖掘信息,同时结合LLM生成文本链接两个模型。
连接数字和物理世界的首款多模态模型
Grok-1.5V是X.AI公司推出的第一代多模态模型。除了强大的文本处理能力外,Grok还可以处理各种视觉信息,包括文档、图表、截图和照片等。该模型在多学科推理、文档理解、科学图表理解、图表解读和现实世界理解等方面表现出色,并将于近期向早期测试用户和现有Grok用户推出。
面向长期视频理解的大规模多模态模型
MA-LMM是一种基于大语言模型的大规模多模态模型,主要针对长期视频理解进行设计。它采用在线处理视频的方式,并使用记忆库存储过去的视频信息,从而可以在不超过语言模型上下文长度限制或GPU内存限制的情况下,参考历史视频内容进行长期分析。MA-LMM可以无缝集成到当前的多模态语言模型中,并在长视频理解、视频问答和视频字幕等任务上取得了领先的性能。
基于生成式 AI 的文档处理平台
V7 Go 是一款基于生成式 AI 的文档处理平台,可以理性处理文档、图像、视频等多模态数据,并提供高精度的自动化工作流。它可以识别打印和手写文字,并支持连接外部 AI 模型。V7 Go 提供多种价格选项,包括免费试用和付费版本。
将 Google Gemini 引入到 ComfyUI 中,用于生成提示词和对话
ComfyUI-Gemini 是一款将 Google Gemini 模型集成到 ComfyUI 中的插件。用户可以利用 Gemini 模型生成提示词、与之对话聊天,并且支持多模态输入如图像。该插件免费使用,提供隐式和显式两种 API Key 使用方式,适合个人和团队使用。
理解复杂视频,作诗配文的AI视频模型
MiniGPT4-Video是为视频理解设计的多模态大模型,能处理时态视觉数据和文本数据,配标题、宣传语,适用于视频问答。基于MiniGPT-v2,结合视觉主干EVA-CLIP,训练多阶段阶段,包括大规模视频-文本预训练和视频问题解答微调。在MSVD、MSRVTT、TGIF和TVQA基准上取得显著提升。定价未知。
Jax 库,计算机视觉研究及更多
Scenic 是一个专注于基于注意力模型的计算机视觉研究的代码库,提供优化训练和评估循环、基线模型等功能,适用于图像、视频、音频等多模态数据。提供 SOTA 模型和基线,支持快速原型设计,价格免费。
文档理解的模块化多模态大语言模型
mPLUG-DocOwl 是一款用于文档理解的模块化多模态大语言模型,能够处理 OCR-free 文档理解任务。该模型具有出色的性能表现,支持文档视觉问答、信息问答、图表问答等多种任务。用户可以通过模型提供的在线演示来体验其强大功能。
© 2024 AIbase 备案号:闽ICP备2023012347号-1