浏览量:327
最新流量情况
月访问量
36.37k
平均访问时长
00:04:09
每次访问页数
3.48
跳出率
38.54%
流量来源
直接访问
80.25%
自然搜索
10.90%
邮件
0
外链引荐
6.21%
社交媒体
2.65%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
瑞典
57.37%
匈牙利
12.47%
美国
8.78%
西班牙
4.93%
法国
4.86%
轻量级但功能强大的多模态模型家族。
Bunny 是一系列轻量级但功能强大的多模态模型,提供多种即插即用的视图编码器和语言主干网络。通过从更广泛的数据源进行精选选择,构建更丰富的训练数据,以补偿模型尺寸的减小。Bunny-v1.0-3B 模型在性能上超越了同类大小甚至更大的 MLLMs(7B)模型,并与 13B 模型性能相当。
多模态AI模型,图像理解与生成兼备
Mini-Gemini是由香港中文大学终身教授贾佳亚团队开发的多模态模型,具备精准的图像理解能力和高质量的训练数据。该模型结合图像推理和生成,提供不同规模的版本,性能与GPT-4和DALLE3相媲美。Mini-Gemini采用Gemini的视觉双分支信息挖掘方法和SDXL技术,通过卷积网络编码图像并利用Attention机制挖掘信息,同时结合LLM生成文本链接两个模型。
苹果发布多模态LLM模型MM1
苹果发布了自己的大语言模型MM1,这是一个最高有30B规模的多模态LLM。通过预训练和SFT,MM1模型在多个基准测试中取得了SOTA性能,展现了上下文内预测、多图像推理和少样本学习能力等吸引人的特性。
集成音乐能力的开源LLM
ChatMusician是一个开源的大型语言模型(LLM),它通过持续的预训练和微调,集成了音乐能力。该模型基于文本兼容的音乐表示法(ABC记谱法),将音乐视为第二语言。ChatMusician能够在不依赖外部多模态神经结构或分词器的情况下,理解和生成音乐。
用户友好的LLMs WebUI
Open WebUI是一个为LLMs(大型语言模型)设计的友好型Web用户界面,支持Ollama和OpenAI兼容的API。它提供了直观的聊天界面、响应式设计、快速响应性能、简易安装、代码语法高亮、Markdown和LaTeX支持、本地RAG集成、Web浏览能力、提示预设支持、RLHF注释、会话标记、模型下载/删除、GGUF文件模型创建、多模型支持、多模态支持、模型文件构建器、协作聊天、OpenAI API集成等功能。
通过自然语言指令实现智能图像编辑的开源技术。
MGIE(多模态大语言模型引导的编辑)是一项由苹果开源的技术,利用多模态大型语言模型(MLLMs)生成图像编辑指令,通过端到端训练,捕捉视觉想象力并执行图像处理操作,使图像编辑更加智能、直观。
多模态视觉语言模型
MouSi是一种多模态视觉语言模型,旨在解决当前大型视觉语言模型(VLMs)面临的挑战。它采用集成专家技术,将个体视觉编码器的能力进行协同,包括图像文本匹配、OCR、图像分割等。该模型引入融合网络来统一处理来自不同视觉专家的输出,并在图像编码器和预训练LLMs之间弥合差距。此外,MouSi还探索了不同的位置编码方案,以有效解决位置编码浪费和长度限制的问题。实验结果表明,具有多个专家的VLMs表现出比孤立的视觉编码器更出色的性能,并随着整合更多专家而获得显著的性能提升。
多模态文档理解模型
DocLLM是一个提供多模态文档理解模型的平台,旨在处理企业文档中的文本和空间布局,并提供优于现有大型语言模型的性能。其模型采用轻量级扩展,避免昂贵的图像编码器,专注于边界框信息以纳入空间布局结构。通过分解经典Transformer中的注意机制,捕获文本和空间模态之间的交叉对齐。此外,设计了一个预训练目标,学习填充文本段落,以解决视觉文档中经常遇到的不规则布局和异质内容。该解决方案在14个任务的16个数据集中优于现有大型语言模型,并且对5个以前未见数据集具有良好的泛化能力。
端到端MLLM,实现精准引用和定位
ml-ferret是一个端到端的机器学习语言模型(MLLM),能够接受各种形式的引用并响应性地在多模态环境中进行精准定位。它结合了混合区域表示和空间感知的视觉采样器,支持细粒度和开放词汇的引用和定位。此外,ml-ferret还包括GRIT数据集(约110万个样本)和Ferret-Bench评估基准。
智能手机应用的多模态代理框架
AppAgent是一个基于LLM(大型语言模型)的多模态代理框架,设计用于操作智能手机应用。通过简化的动作空间(如点击和滑动),模仿人类般的互动方式,实现应用操作,无需系统后端访问。代理通过自主探索或观察人类演示学习新应用的使用方法,创建知识库用于执行不同应用中的复杂任务。
一框架,统一所有语言模态
OneLLM是一个旨在统一所有语言模态的框架。它提供了预览模型,并允许本地演示。该框架的功能包括模型安装、模型预览和本地演示。OneLLM的优势在于能够统一不同的模态,如图像和文本,以及语音和文本。该框架的定位是为了简化多模态任务的处理。
简化AI生成的提示的创建、测试和分享过程。
GeneratedBy简化了为提示工程师和数字劳动者创建、测试和分享AI生成的提示的过程。通过我们的平台,您可以轻松编写、优化和共享提示,提高工作效率。主要功能包括:提示编辑和优化、多模态内容和LLM支持、启发式提示收藏、表单、聊天泡泡或微型SaaS生成、ChatGPT插件和提示工具、协作API和角色管理等。
一个新的高效开源大型语言模型标准
DBRX是一个由Databricks的Mosaic研究团队构建的通用大型语言模型(LLM),在标准基准测试中表现优于所有现有开源模型。它采用Mixture-of-Experts (MoE)架构,使用362亿个参数,拥有出色的语言理解、编程、数学和逻辑推理能力。DBRX旨在推动高质量开源LLM的发展,并且便于企业根据自身数据对模型进行定制。Databricks为企业用户提供了交互式使用DBRX、利用其长上下文能力构建检索增强系统,并基于自身数据构建定制DBRX模型的能力。
零编码GPT开发平台
iGOT.ai是一个零编码GPT开发平台,可帮助用户无需编程就可以构建、定义、探索和执行GPT模型,从而简化AI引擎的创建。它提供了一个直观的界面,用户可以通过自然语言描述问题和解决方案,平台会自动将其转换成GPT可以理解的推理对象,然后执行任务并审核结果,确保得到最优的输出。主要功能包括语句探索、推理对象创建、用户测试、LLM任务执行等。适用于各行各业将专业知识自动化的企业用户。
代码生成优化工具
AlphaCodium是一种基于测试的、多阶段、面向代码的迭代流方法,旨在提高LLMs在代码问题上的性能。它通过优化模型在代码生成任务上的表现,特别适用于竞赛性编程问题。用户可以根据配置选择相应的模型(如“gpt-4”、“gpt-3.5-turbo-16k”等),并使用AlphaCodium解决特定问题或整个数据集。该工具还提供了一系列最佳实践,如YAML结构化输出、语义推理、模块化代码生成等,可广泛适用于其他代码生成任务。
一款专为生物医学领域设计的开源大型语言模型
OpenBioLLM-8B是由Saama AI Labs开发的先进开源语言模型,专为生物医学领域设计。该模型在大量高质量的生物医学数据上进行了微调,能够理解并生成具有领域特定准确性和流畅性的文字。它在生物医学基准测试中的表现超越了其他类似规模的开源生物医学语言模型,并与更大的专有和开源模型如GPT-3.5和Meditron-70B相比也展现出更好的结果。
先进的开源生物医学大型语言模型,专为医疗领域设计。
OpenBioLLM-70B是由Saama AI Labs开发的先进开源语言模型,专为生物医学领域设计。该模型在大量高质量的生物医学数据上进行了微调,能够理解和生成具有领域特定准确性和流畅性的文字。它在生物医学基准测试中展示了超越其他类似规模开源生物医学语言模型的优越性能,并且在与更大的专有和开源模型如GPT-4、Gemini、Medtron-70B、Med-PaLM-1和Med-PaLM-2的比较中也展现了更好的结果。
与多个AI聊天机器人同时对话,发现最佳答案
ChatALL是一款桌面客户端软件,它允许用户同时与多个大型语言模型(LLMs)基础的AI聊天机器人进行对话,帮助用户发现最佳的对话结果。这款软件的主要优点在于其能够并发发送提示给不同的AI机器人,从而快速比较它们在不同任务上的表现,并找到最适合的机器人。产品背景信息显示,ChatALL适合于希望从LLMs中找到最佳答案或创作的专家、研究人员以及LLM应用的开发者。目前,ChatALL是免费提供给用户的。
AI基础设施,适用于每个人,一键部署团队AI助手。
NextChat是一个多功能的AI聊天服务平台,支持与领先的大型语言模型(LLMs)兼容,允许用户轻松部署团队范围内的AI辅助工具。它提供了一个优雅的用户界面,集中管理所有数据,并提供统计追踪团队AI使用情况的功能。此外,它还包括反馈分析工具,帮助用户聆听并分析其受众。NextChat支持OpenAI和Gemini模型,是一个面向所有人的AI基础设施,旨在提供个性化的AI聊天服务。
开源的基于深度文档理解的RAG(检索增强生成)引擎
RAGFlow是一个开源的RAG(Retrieval-Augmented Generation)引擎,基于深度文档理解,提供流线型的RAG工作流程,适用于各种规模的企业。它结合了大型语言模型(LLM)提供真实的问答能力,支持从各种复杂格式数据中引用确凿的引文。
CoreNet 是一个用于训练深度神经网络的库。
CoreNet 是一个深度神经网络工具包,使研究人员和工程师能够训练标准和新颖的小型和大型规模模型,用于各种任务,包括基础模型(例如 CLIP 和 LLM)、对象分类、对象检测和语义分割。
结合文本提取、网络分析和大型语言模型提示与总结的端到端系统
GraphRAG (Graphs + Retrieval Augmented Generation) 是一种通过结合文本提取、网络分析以及大型语言模型(LLM)的提示和总结,来丰富理解文本数据集的技术。该技术即将在GitHub上开源,是微软研究项目的一部分,旨在通过先进的算法提升文本数据的处理和分析能力。
Pongo是一个语义过滤器,使用1行代码可以将RAG工作流中的LLM幻觉减少80%。
Pongo的语义过滤器可以通过一行代码将RAG工作流中的LLM幻觉减少80%。它利用多种先进的语义相似性模型和专有的排名算法,确保您始终获得正确的信息。Pongo可以与现有的流程集成,并提供快速的响应时间和零数据保留。
AI预算优化工具,比较和计算大型语言模型API的最新价格。
LLM Price Check是一个在线工具,它允许用户比较和计算不同大型语言模型(LLM)API的价格,这些API由领先的提供商如OpenAI、Anthropic、Google等提供。该工具可以帮助用户优化他们的AI预算,通过比较不同模型的价格和性能,用户可以做出更明智的选择。
探索不同的文本生成模型,通过草拟消息和微调响应来提升体验。
Workers AI LLM Playground是一个在线平台,允许用户通过草拟消息和微调响应来探索不同的文本生成模型。该平台由先进的人工智能技术驱动,旨在为开发者和研究人员提供一个实验和学习的环境,以更好地理解和利用大型语言模型(LLM)的能力。
高效的企业级人工智能模型,低成本实现高质量定制模型。
Snowflake Arctic 是一款专为企业级人工智能任务设计的大规模语言模型(LLM),它在 SQL 生成、编码以及指令遵循等基准测试中表现出色,即使与计算预算更高的开源模型相比也毫不逊色。Arctic 通过其高效的训练和推理,为 Snowflake 客户以及广大 AI 社区提供了一种成本效益极高的定制模型创建方式。此外,Arctic 采用 Apache 2.0 许可,提供无门槛的权重和代码访问,并通过开源数据配方和研究洞察,进一步推动了社区的开放性和成本效益。
用于构建理解和模拟人类语音表情的声控人工智能接口。
Hume AI的同理心语音接口(EVI)是一种由同理心大型语言模型(eLLM)驱动的API,可以理解和模拟语音音调、词语重音等,从而优化人机交互。它基于10多年的研究成果、数百万专利数据点和30多篇发表在顶尖期刊的论文。EVI旨在为任何应用程序提供更自然、富有同情心的语音界面,让人与AI的互动更加人性化。该技术可广泛应用于销售/会议分析、健康与保健、AI研究服务、社交网络等领域。
AI驱动的全自动测试解决方案,让您可以10倍更快地启动。
TestSprite是一个基于AI的全自动测试解决方案,利用最先进的大型语言模型(LLM)技术和云计算基础设施,提供高效、安全的测试服务。只需一次点击,我们的AI就能负责编写端到端测试代码的所有方面,节省宝贵的时间。我们的测试报告设计简洁易懂,提供全面的测试总结,识别任何失败,并提供潜在原因的建议。通过TestSprite,您可以减少测试时间、提高测试效率。
© 2024 AIbase 备案号:闽ICP备2023012347号-1