浏览量:498
最新流量情况
月访问量
922
平均访问时长
00:00:42
每次访问页数
2.97
跳出率
15.99%
流量来源
直接访问
0
自然搜索
0
邮件
0
外链引荐
0
社交媒体
0
展示广告
0
截止目前所有流量趋势图
强大的多模态LLM,商业解决方案
Reka Core是一个GPT-4级别的多模态大型语言模型(LLM),具备图像、视频和音频的强大上下文理解能力。它是目前市场上仅有的两个商用综合多模态解决方案之一。Core在多模态理解、推理能力、编码和Agent工作流程、多语言支持以及部署灵活性方面表现出色。
苹果发布多模态LLM模型MM1
苹果发布了自己的大语言模型MM1,这是一个最高有30B规模的多模态LLM。通过预训练和SFT,MM1模型在多个基准测试中取得了SOTA性能,展现了上下文内预测、多图像推理和少样本学习能力等吸引人的特性。
人工智能入门教程网站,提供全面的机器学习与深度学习知识。
该网站由作者从 2015 年开始学习机器学习和深度学习,整理并编写的一系列实战教程。涵盖监督学习、无监督学习、深度学习等多个领域,既有理论推导,又有代码实现,旨在帮助初学者全面掌握人工智能的基础知识和实践技能。网站拥有独立域名,内容持续更新,欢迎大家关注和学习。
推动人工智能安全治理,促进技术健康发展
《人工智能安全治理框架》1.0版是由全国网络安全标准化技术委员会发布的技术指南,旨在鼓励人工智能创新发展的同时,有效防范和化解人工智能安全风险。该框架提出了包容审慎、确保安全,风险导向、敏捷治理,技管结合、协同应对,开放合作、共治共享等原则。它结合人工智能技术特性,分析风险来源和表现形式,针对模型算法安全、数据安全和系统安全等内生安全风险,以及网络域、现实域、认知域、伦理域等应用安全风险,提出了相应的技术应对和综合防治措施。
HyperGAI推出的创新多模态LLM框架,旨在理解和处理文本、图像、视频等多种输入模态
HPT(Hyper-Pretrained Transformers)是HyperGAI研究团队推出的新型多模态大型语言模型框架,它能够高效且可扩展地训练大型多模态基础模型,理解包括文本、图像、视频等多种输入模态。HPT框架可以从头开始训练,也可以通过现有的预训练视觉编码器和/或大型语言模型进行高效适配。
京东自主研发的人工智能开放平台
京东人工智能开放平台NeuHub,汇聚京东自主研发的人工智能核心技术,包含语音、图像、视频、NLP等技术,通过平台向外开放,助力行业智能升级。平台还提供数据标注、模型开发、训练和发布等全流程服务,以及创新应用案例,帮助企业实现智能化转型。
为人工智能提供多模态数据支持的高效数据库解决方案。
Activeloop Deep Lake是一个专为人工智能设计的数据库,支持多模态数据(如文本、图像、视频等)的高效存储和检索。它通过优化数据处理流程,帮助企业和开发者快速构建和部署AI应用,显著提升数据准备和模型训练的效率。Deep Lake的技术优势在于其高性能、可扩展性和易用性,使其成为AI开发中的重要基础设施。产品主要面向企业级用户和AI开发者,提供灵活的定价方案以满足不同规模用户的需求。
一款轻量级的多模态语言模型安卓应用。
MNN-LLM 是一款高效的推理框架,旨在优化和加速大语言模型在移动设备和本地 PC 上的部署。它通过模型量化、混合存储和硬件特定优化,解决高内存消耗和计算成本的问题。MNN-LLM 在 CPU 基准测试中表现卓越,速度显著提升,适合需要隐私保护和高效推理的用户。
OLAMI是一个人工智能开放平台
OLAMI是一个提供云端API、管理界面、多元机器感知解决方案的人工智能软件开发平台。OLAMI平台具有语音识别、自然语言理解、对话管理、语音合成等语音AI技术,以及图像识别、语义理解等视觉AI技术,可以轻松地为产品加入人工智能,提升用户体验。
一款多模态人工智能系统,可以根据文字、图片或视频剪辑生成新颖的视频。
Gen-2是一款多模态人工智能系统,可以根据文字、图片或视频剪辑生成新颖的视频。它可以通过将图像或文字提示的构图和风格应用于源视频的结构(Video to Video),或者仅使用文字(Text to Video)来实现。就像拍摄了全新的内容,而实际上并没有拍摄任何东西。Gen-2提供了多种模式,可以将任何图像、视频剪辑或文字提示转化为引人注目的影片作品。
革命性AI技术,多模态智能互动
GPT-4o是OpenAI的最新创新,代表了人工智能技术的前沿。它通过真正的多模态方法扩展了GPT-4的功能,包括文本、视觉和音频。GPT-4o以其快速、成本效益和普遍可访问性,革命性地改变了我们与AI技术的互动。它在文本理解、图像分析和语音识别方面表现出色,提供流畅直观的AI互动,适合从学术研究到特定行业需求的多种应用。
由人工智能强力驱动,为职场人打造千人千面创意写作工作流
多墨智能写作是一款由人工智能强力驱动的创意写作工具,帮助职场人提高工作交付效率。它独家支持根据不同岗位通过算法一键生成工作文档,适合各种职业需求,包括产品经理、抖音运营专员、战略咨询专家、老师、医生、公职人员、旅游导游、公关等。多墨智能写作提供一键成文、辅助撰写、命令自定义和私有化部署等功能,可定制解决方案并保护内部数据隐私。
多模态长篇故事生成模型
SEED-Story是一个基于大型语言模型(MLLM)的多模态长篇故事生成模型,能够根据用户提供的图片和文本生成丰富、连贯的叙事文本和风格一致的图片。它代表了人工智能在创意写作和视觉艺术领域的前沿技术,具有生成高质量、多模态故事内容的能力,为创意产业提供了新的可能性。
多模态视觉语言模型
MouSi是一种多模态视觉语言模型,旨在解决当前大型视觉语言模型(VLMs)面临的挑战。它采用集成专家技术,将个体视觉编码器的能力进行协同,包括图像文本匹配、OCR、图像分割等。该模型引入融合网络来统一处理来自不同视觉专家的输出,并在图像编码器和预训练LLMs之间弥合差距。此外,MouSi还探索了不同的位置编码方案,以有效解决位置编码浪费和长度限制的问题。实验结果表明,具有多个专家的VLMs表现出比孤立的视觉编码器更出色的性能,并随着整合更多专家而获得显著的性能提升。
一款强大的多模态小语言模型
Imp项目旨在提供一系列强大的多模态小语言模型(MSLMs)。我们的imp-v1-3b是一个拥有30亿参数的强大MSLM,它建立在一个小而强大的SLM Phi-2(27亿)和一个强大的视觉编码器SigLIP(4亿)之上,并在LLaVA-v1.5训练集上进行了训练。Imp-v1-3b在各种多模态基准测试中明显优于类似模型规模的对手,甚至在各种多模态基准测试中表现略优于强大的LLaVA-7B模型。
提供AI和机器学习课程
Udacity人工智能学院提供包括深度学习、计算机视觉、自然语言处理和AI产品管理在内的AI培训和机器学习课程。这些课程旨在帮助学生掌握人工智能领域的最新技术,为未来的职业生涯打下坚实的基础。
新一代多模态模型
Adept Fuyu-Heavy是一款新型的多模态模型,专为数字代理设计。它在多模态推理方面表现出色,尤其在UI理解方面表现出色,同时在传统的多模态基准测试中也表现良好。此外,它展示了我们可以扩大Fuyu架构并获得所有相关好处的能力,包括处理任意大小/形状的图像和有效地重复使用现有的变压器优化。它还具有匹配或超越相同计算级别模型性能的能力,尽管需要将部分容量用于图像建模。
绘图,问答,图片处理一站式 AI 服务
小门道 AI 是一个提供 AI 服务的网站,包括 Midjourney 和 Stable Diffusion 绘图,chatgpt 对话,抠图,去除水印,魔法抹除,图片变清,无损放大等功能。我们提供智能问答功能,可联网搜索,任务式 (基于 AutoGPT),学术助理,上传文件,数学解题等。同时,我们还提供抠图、放大变清、转矢量图、人脸融合等图片处理功能。产品定价根据具体功能和使用情况而定,定位于提供高质量的 AI 服务。
多模态语言模型的视觉推理工具
Visual Sketchpad 是一种为多模态大型语言模型(LLMs)提供视觉草图板和绘图工具的框架。它允许模型在进行规划和推理时,根据自己绘制的视觉工件进行操作。与以往使用文本作为推理步骤的方法不同,Visual Sketchpad 使模型能够使用线条、框、标记等更接近人类绘图方式的元素进行绘图,从而更好地促进推理。此外,它还可以在绘图过程中使用专家视觉模型,例如使用目标检测模型绘制边界框,或使用分割模型绘制掩码,以进一步提高视觉感知和推理能力。
Fugaku-LLM是一个专注于文本生成的人工智能模型。
Fugaku-LLM是一个由Fugaku-LLM团队开发的人工智能语言模型,专注于文本生成领域。它通过先进的机器学习技术,能够生成流畅、连贯的文本,适用于多种语言和场景。Fugaku-LLM的主要优点包括其高效的文本生成能力、对多种语言的支持以及持续的模型更新,以保持技术领先。该模型在社区中拥有广泛的应用,包括但不限于写作辅助、聊天机器人开发和教育工具。
多模态智能代理框架,解决复杂任务
OmAgent是一个复杂的多模态智能代理系统,致力于利用多模态大型语言模型和其他多模态算法来完成引人入胜的任务。该项目包括一个轻量级的智能代理框架omagent_core,精心设计以应对多模态挑战。OmAgent由三个核心组件构成:Video2RAG、DnCLoop和Rewinder Tool,分别负责长视频理解、复杂问题分解和信息回溯。
开源多模态大型语言模型系列
InternVL 2.5是基于InternVL 2.0的高级多模态大型语言模型系列,它在保持核心模型架构的同时,在训练和测试策略以及数据质量方面引入了显著的增强。该模型深入探讨了模型扩展与性能之间的关系,系统地探索了视觉编码器、语言模型、数据集大小和测试时配置的性能趋势。通过在包括多学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力和纯语言处理在内的广泛基准测试中进行的广泛评估,InternVL 2.5展现出了与GPT-4o和Claude-3.5-Sonnet等领先商业模型相媲美的竞争力。特别是,该模型是第一个在MMMU基准测试中超过70%的开源MLLM,通过链式思考(CoT)推理实现了3.7个百分点的提升,并展示了测试时扩展的强大潜力。
多模态视觉任务的高效转换模型
LLaVA-OneVision是一款由字节跳动公司与多所大学合作开发的多模态大型模型(LMMs),它在单图像、多图像和视频场景中推动了开放大型多模态模型的性能边界。该模型的设计允许在不同模态/场景之间进行强大的迁移学习,展现出新的综合能力,特别是在视频理解和跨场景能力方面,通过图像到视频的任务转换进行了演示。
大型多模态模型中视频理解的探索
Apollo是一个专注于视频理解的先进大型多模态模型家族。它通过系统性地探索视频-LMMs的设计空间,揭示了驱动性能的关键因素,提供了优化模型性能的实用见解。Apollo通过发现'Scaling Consistency',使得在较小模型和数据集上的设计决策能够可靠地转移到更大的模型上,大幅降低计算成本。Apollo的主要优点包括高效的设计决策、优化的训练计划和数据混合,以及一个新型的基准测试ApolloBench,用于高效评估。
先进的开源多模态模型
Yi-VL-34B是 Yi Visual Language(Yi-VL)模型的开源版本,是一种多模态模型,能够理解和识别图像,并进行关于图像的多轮对话。Yi-VL 在最新的基准测试中表现出色,在 MMM 和 CMMMU 两个基准测试中均排名第一。
多模态人工智能模型,辅助病理学研究和教育。
PathChat 2是Modella AI最新推出的多模态生成性人工智能模型,专为病理学家、学员和研究人员设计,能够对病理图像和文本进行推理,作为研究和教育的辅助工具。与前一代模型PathChat 1相比,PathChat 2在鉴别诊断、形态描述、指令遵循以及执行多样化任务(如开放式问题回答和报告总结)方面有显著的性能提升。
人工智能领域的多轮对话处理专家
汉王天地大模型是汉王科技推出的一款专注于人工智能领域的大语言模型,拥有30年的行业积累。它能够实现多轮对话,高效处理任务,并深耕办公、教育、人文等多个垂直细分领域。该模型通过从人类反馈中进行强化学习,不断优化自身智能,提供包括智能校对、自动翻译、法律咨询、绘画生成、文案生成等在内的多样化服务,以赋能法律、人文、办公、教育、医养等行业,提升效率和创意。
© 2025 AIbase 备案号:闽ICP备08105208号-14