需求人群:
"用于长期视频理解、视频问答和视频字幕等应用场景"
使用场景示例:
在长视频数据集上评估MA-LMM的长期视频理解能力
在视频问答任务中使用MA-LMM进行问题回答
将MA-LMM集成到视频字幕生成系统中,提升字幕生成质量
产品特色:
在线处理视频帧
使用长期记忆库存储视频信息
支持长期视频理解
集成到多模态语言模型中
在多项视频理解任务上取得领先性能
浏览量:85
最新流量情况
月访问量
1384
平均访问时长
00:00:07
每次访问页数
0.34
跳出率
31.79%
流量来源
直接访问
0
自然搜索
68.59%
邮件
0
外链引荐
31.41%
社交媒体
0
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
阿拉伯联合酋长国
54.43%
墨西哥
45.57%
理解复杂视频,作诗配文的AI视频模型
MiniGPT4-Video是为视频理解设计的多模态大模型,能处理时态视觉数据和文本数据,配标题、宣传语,适用于视频问答。基于MiniGPT-v2,结合视觉主干EVA-CLIP,训练多阶段阶段,包括大规模视频-文本预训练和视频问题解答微调。在MSVD、MSRVTT、TGIF和TVQA基准上取得显著提升。定价未知。
文档理解的模块化多模态大语言模型
mPLUG-DocOwl 是一款用于文档理解的模块化多模态大语言模型,能够处理 OCR-free 文档理解任务。该模型具有出色的性能表现,支持文档视觉问答、信息问答、图表问答等多种任务。用户可以通过模型提供的在线演示来体验其强大功能。
苹果发布多模态LLM模型MM1
苹果发布了自己的大语言模型MM1,这是一个最高有30B规模的多模态LLM。通过预训练和SFT,MM1模型在多个基准测试中取得了SOTA性能,展现了上下文内预测、多图像推理和少样本学习能力等吸引人的特性。
通过自然语言指令实现智能图像编辑的开源技术。
MGIE(多模态大语言模型引导的编辑)是一项由苹果开源的技术,利用多模态大型语言模型(MLLMs)生成图像编辑指令,通过端到端训练,捕捉视觉想象力并执行图像处理操作,使图像编辑更加智能、直观。
腾讯混元大模型,中文创作能力
腾讯混元大模型是由腾讯研发的大语言模型,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。该模型持续训练终身学习,覆盖五大核心优势能力,包括多轮对话、内容创作、逻辑推理、知识增强和多模态(敬请期待)。丰富的应用场景,提供多样化服务,包括文档场景、会议场景、广告场景和营销场景等。
视频理解领域的新型状态空间模型,提供视频建模的多功能套件。
Video Mamba Suite 是一个用于视频理解的新型状态空间模型套件,旨在探索和评估Mamba在视频建模中的潜力。该套件包含14个模型/模块,覆盖12个视频理解任务,展示了在视频和视频-语言任务中的高效性能和优越性。
视频理解基础模型
VideoPrism是一个通用的视频编码模型,能够在各种视频理解任务上取得领先的性能,包括分类、定位、检索、字幕生成和问答等。其创新点在于预训练的数据集非常大且多样,包含3600万高质量的视频-文本对,以及5.82亿带有嘈杂文本的视频剪辑。预训练采用两阶段策略,先利用对比学习匹配视频和文本,然后预测遮蔽的视频块,充分利用不同的监督信号。一个固定的VideoPrism模型可以直接适配到下游任务,并在30个视频理解基准上刷新状态最优成绩。
利用视觉令牌与语言令牌的等距离关系,实现可靠的视频叙述。
Vista-LLaMA是一种先进的视频语言模型,旨在改善视频理解。它通过保持视觉令牌与语言令牌之间的一致距离,无论生成文本的长度如何,都能减少与视频内容无关的文本产生。这种方法在计算视觉与文本令牌之间的注意力权重时省略了相对位置编码,使视觉令牌在文本生成过程中的影响更为显著。Vista-LLaMA还引入了一个顺序视觉投影器,能够将当前视频帧投影到语言空间的令牌中,捕捉视频内的时间关系,同时减少了对视觉令牌的需求。在多个开放式视频问答基准测试中,该模型的表现显著优于其他方法。
您的AI伙伴,帮助您更好地写作、绘图和演示。
AFFiNE AI是一个多模态的AI助手,旨在通过其先进的人工智能技术帮助用户提高写作、绘图和演示的效率和质量。它通过提供即时的洞察力、完美的语调、快速的图像转换以及智能的演示生成,来辅助用户从概念到完成的整个创造过程。AFFiNE AI的主要优点包括其用户友好的界面、高效的AI驱动功能以及对数据隐私的重视。该产品目前定价为每月8.9美元,按年计费,同时提供免费试用。
深度学习算法与大模型面试指南,持续更新的面试题目集合。
DeepLearing-Interview-Awesome-2024 是一个开源的面试题目集合项目,专注于深度学习算法和大模型领域的面试准备。该项目由社区成员共同维护,旨在提供最新的面试题目和答案解析,帮助求职者和研究人员深入理解深度学习领域的前沿技术和应用。它包含了丰富的面试题目,覆盖了大语言模型、视觉模型、通用问题等多个方面,是准备深度学习相关职位的宝贵资源。
轻量级但功能强大的多模态模型家族。
Bunny 是一系列轻量级但功能强大的多模态模型,提供多种即插即用的视图编码器和语言主干网络。通过从更广泛的数据源进行精选选择,构建更丰富的训练数据,以补偿模型尺寸的减小。Bunny-v1.0-3B 模型在性能上超越了同类大小甚至更大的 MLLMs(7B)模型,并与 13B 模型性能相当。
一款由XTuner优化的LLaVA模型,结合了图像和文本处理能力。
llava-llama-3-8b-v1_1是一个由XTuner优化的LLaVA模型,它基于meta-llama/Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336,并通过ShareGPT4V-PT和InternVL-SFT进行了微调。该模型专为图像和文本的结合处理而设计,具有强大的多模态学习能力,适用于各种下游部署和评估工具包。
大语言模型驱动的AI饮食记录员,智能识别、营养分析、个性化推荐。
胃之书 AI是一款利用大语言模型驱动的饮食记录应用,通过先进的计算机视觉技术实现食物图像识别、营养分析和个性化推荐。用户可探索食物文化故事,增加饮食趣味性。
多模态知识图谱补全工具
MyGO是一个用于多模态知识图谱补全的工具,它通过将离散模态信息作为细粒度的标记来处理,以提高补全的准确性。MyGO利用transformers库对文本标记进行嵌入,进而在多模态数据集上进行训练和评估。它支持自定义数据集,并且提供了训练脚本以复现实验结果。
Meta 新一代开源大型语言模型,性能卓越
Meta Llama 3是Meta公司推出的新一代开源大型语言模型,性能卓越,在多项行业基准测试中表现出色。它可支持广泛的使用场景,包括改善推理能力等新功能。该模型将在未来支持多语种、多模态,提供更长的上下文窗口和整体性能提升。Llama 3秉承开放理念,将被部署在主要云服务、托管和硬件平台上,供开发者和社区使用。
连接先进AI与用户的革命性平台
HuggingChat是一款iOS应用程序,旨在促进用户与多家提供商(如Mistral AI、Meta和Google)的多个顶尖大型语言模型之间的无缝沟通。它可以满足多种场景需求:激发创意,提供专家指导,促进教育与自我提升,提高工作效率,快速响应日常问题等。作为变革性AI技术的先锋采用者,HuggingChat将让您体验与先进大语言模型对话的无限可能。
使用AI技术来自动生成PPTX 支持在线修改
Ai-to-pptx 是一个使用 AI 技术 (ChatGpt 和 Gemini) 制作 PPTX 的助手,支持在线修改和导出 PPTX。主要功能包括使用 ChatGPT 等大语言模型生成大纲、允许用户再次修改内容、选择不同模板、在线修改 PPTX 的文字、样式、图片等,支持导出 PPTX、PDF、PNG 等多种格式。价格为付费,商业授权价格为 22000 元人民币或 3000 美元。
先进的文本到图像生成系统
Stable Diffusion 3是一款先进的文本到图像生成系统,它在排版和提示遵循方面与DALL-E 3和Midjourney v6等顶尖系统相匹敌或更优。该系统采用新的多模态扩散变换器(MMDiT)架构,使用不同的权重集来改善图像和语言的表示,从而提高文本理解和拼写能力。Stable Diffusion 3 API现已在Stability AI开发者平台上线,与Fireworks AI合作提供快速可靠的API服务,并承诺在不久的将来通过Stability AI会员资格开放模型权重以供自托管。
AI创造性视觉的突破性AI
Stable Diffusion 3是Stability AI推出的最新创新,为创造性图像生成带来突破性的AI。它提供了改进的文本到图像生成算法、多模态能力和用户友好的许可证,免费使用SDXLTurbo.ai。革新设计、动画、游戏等领域,提升文本到图像生成、多模态能力和用户友好的许可证。探索、创造、转化。
一个通用的多模态模型,可用于问答、图像描述等任务
HuggingFaceM4/idefics-80b-instruct是一个开源的多模态模型,它可以接受图像和文本的输入,输出相关的文本内容。该模型在视觉问答、图像描述等任务上表现出色,是一个通用的智能助手模型。它由Hugging Face团队开发,基于开放数据集训练,提供免费使用。
强大的多模态LLM,商业解决方案
Reka Core是一个GPT-4级别的多模态大型语言模型(LLM),具备图像、视频和音频的强大上下文理解能力。它是目前市场上仅有的两个商用综合多模态解决方案之一。Core在多模态理解、推理能力、编码和Agent工作流程、多语言支持以及部署灵活性方面表现出色。
多模态AI模型,图像理解与生成兼备
Mini-Gemini是由香港中文大学终身教授贾佳亚团队开发的多模态模型,具备精准的图像理解能力和高质量的训练数据。该模型结合图像推理和生成,提供不同规模的版本,性能与GPT-4和DALLE3相媲美。Mini-Gemini采用Gemini的视觉双分支信息挖掘方法和SDXL技术,通过卷积网络编码图像并利用Attention机制挖掘信息,同时结合LLM生成文本链接两个模型。
连接数字和物理世界的首款多模态模型
Grok-1.5V是X.AI公司推出的第一代多模态模型。除了强大的文本处理能力外,Grok还可以处理各种视觉信息,包括文档、图表、截图和照片等。该模型在多学科推理、文档理解、科学图表理解、图表解读和现实世界理解等方面表现出色,并将于近期向早期测试用户和现有Grok用户推出。
基于 LLM 大语言模型的知识库问答系统。
MaxKB 是一款基于 LLM 大语言模型的知识库问答系统,旨在成为企业的最强大脑。支持文档上传、自动爬取在线文档,智能问答交互体验好。支持快速嵌入到第三方业务系统。技术栈包括 Vue.js、Python/Django、Langchain、PostgreSQL/pgvector。
基于生成式 AI 的文档处理平台
V7 Go 是一款基于生成式 AI 的文档处理平台,可以理性处理文档、图像、视频等多模态数据,并提供高精度的自动化工作流。它可以识别打印和手写文字,并支持连接外部 AI 模型。V7 Go 提供多种价格选项,包括免费试用和付费版本。
扩展Transformer模型处理无限长输入
Google开发的“Infini-attention”技术旨在扩展基于Transformer的大语言模型以处理无限长的输入,通过压缩记忆机制实现无限长输入处理,并在多个长序列任务上取得优异表现。技术方法包括压缩记忆机制、局部与长期注意力的结合和流式处理能力等。实验结果显示在长上下文语言建模、密钥上下文块检索和书籍摘要任务上的性能优势。
© 2024 AIbase 备案号:闽ICP备2023012347号-1