浏览量:36
最新流量情况
月访问量
9076
平均访问时长
00:00:32
每次访问页数
2.26
跳出率
47.50%
流量来源
直接访问
39.93%
自然搜索
45.79%
邮件
0.08%
外链引荐
7.17%
社交媒体
6.30%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
加拿大
12.67%
德国
8.81%
印度
9.39%
意大利
3.96%
美国
46.17%
定制化大型语言模型的训练平台
Entry Point AI是一款训练大型语言模型的平台,可以快速高效地进行训练、管理和评估自定义模型,无需编写代码。它提供了跨平台的训练工具,可以比较模型性能、标注数据集、生成合成数据,并以速度和质量优于基于对话的模型。
一个实时适应未见任务的自适应大型语言模型框架。
SakanaAI/self-adaptive-llms是一个名为Transformer²的自适应框架,旨在解决传统微调方法计算密集且处理多样化任务能力静态的挑战。该框架能够在推理过程中通过两步机制实时调整大型语言模型(LLMs)以适应未见任务:首先,调度系统识别任务属性;然后,使用强化学习训练的任务特定'专家'向量被动态混合,以获得针对输入提示的目标行为。主要优点包括实时任务适应性、计算效率和灵活性。该项目由SakanaAI团队开发,目前在GitHub上开源,拥有195颗星和12次分叉。
MinMo是一款多模态大型语言模型,用于无缝语音交互。
MinMo是阿里巴巴集团通义实验室开发的一款多模态大型语言模型,拥有约80亿参数,专注于实现无缝语音交互。它通过多个阶段的训练,包括语音到文本对齐、文本到语音对齐、语音到语音对齐和全双工交互对齐,在140万小时的多样化语音数据和广泛的语音任务上进行训练。MinMo在语音理解和生成的各种基准测试中达到了最先进的性能,同时保持了文本大型语言模型的能力,并支持全双工对话,即用户和系统之间的同时双向通信。此外,MinMo还提出了一种新颖且简单的语音解码器,在语音生成方面超越了以往的模型。MinMo的指令遵循能力得到了增强,支持根据用户指令控制语音生成,包括情感、方言和语速等细节,并模仿特定的声音。MinMo的语音到文本延迟约为100毫秒,全双工延迟理论上约为600毫秒,实际约为800毫秒。MinMo的开发旨在克服以往对齐多模态模型的主要限制,为用户提供更自然、流畅和人性化的语音交互体验。
Agent Laboratory是一个端到端的自主研究工作流,旨在协助人类研究人员实施研究想法。
Agent Laboratory是一个由Samuel Schmidgall等人开发的项目,旨在通过大型语言模型驱动的专门代理,帮助研究人员完成从文献综述到实验执行再到报告撰写的整个研究流程。它不是为了取代人类的创造力,而是为了补充创造力,使研究人员能够专注于构思和批判性思维,同时自动化编码和文档等重复性和耗时的任务。该工具的源代码采用MIT许可证,允许在遵守MIT许可证条款的情况下使用、修改和分发代码。
Sonus-1:开启大型语言模型(LLMs)的新时代
Sonus-1是Sonus AI推出的一系列大型语言模型(LLMs),旨在推动人工智能的边界。这些模型以其高性能和多应用场景的多功能性而设计,包括Sonus-1 Mini、Sonus-1 Air、Sonus-1 Pro和Sonus-1 Pro (w/ Reasoning)等不同版本,以满足不同需求。Sonus-1 Pro (w/ Reasoning)在多个基准测试中表现突出,特别是在推理和数学问题上,展现了其超越其他专有模型的能力。Sonus AI致力于开发高性能、可负担、可靠且注重隐私的大型语言模型。
多模态大型语言模型,优化图像与文本交互能力
InternVL2_5-4B-MPO-AWQ是一个多模态大型语言模型(MLLM),专注于提升模型在图像和文本交互任务中的表现。该模型基于InternVL2.5系列,并通过混合偏好优化(MPO)进一步提升性能。它能够处理包括单图像和多图像、视频数据在内的多种输入,适用于需要图像和文本交互理解的复杂任务。InternVL2_5-4B-MPO-AWQ以其卓越的多模态能力,为图像-文本到文本的任务提供了一个强大的解决方案。
多模态大型语言模型,提升文本、图像和视频数据处理能力。
Valley是由字节跳动开发的多模态大型模型(MLLM),旨在处理涉及文本、图像和视频数据的多种任务。该模型在内部电子商务和短视频基准测试中取得了最佳结果,远超过其他开源模型,并在OpenCompass多模态模型评估排行榜上展现了出色的性能,平均得分67.40,位列已知开源MLLMs(<10B)中的前两名。
开源多模态大型语言模型系列
InternVL 2.5是基于InternVL 2.0的高级多模态大型语言模型系列,它在保持核心模型架构的同时,在训练和测试策略以及数据质量方面引入了显著的增强。该模型深入探讨了模型扩展与性能之间的关系,系统地探索了视觉编码器、语言模型、数据集大小和测试时配置的性能趋势。通过在包括多学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力和纯语言处理在内的广泛基准测试中进行的广泛评估,InternVL 2.5展现出了与GPT-4o和Claude-3.5-Sonnet等领先商业模型相媲美的竞争力。特别是,该模型是第一个在MMMU基准测试中超过70%的开源MLLM,通过链式思考(CoT)推理实现了3.7个百分点的提升,并展示了测试时扩展的强大潜力。
O1复制之旅:战略进展报告第一部分
O1-Journey是由上海交通大学GAIR研究组发起的一个项目,旨在复制和重新想象OpenAI的O1模型的能力。该项目提出了“旅程学习”的新训练范式,并构建了首个成功整合搜索和学习在数学推理中的模型。这个模型通过试错、纠正、回溯和反思等过程,成为处理复杂推理任务的有效方法。
长视频语言理解的时空自适应压缩模型
LongVU是一种创新的长视频语言理解模型,通过时空自适应压缩机制减少视频标记的数量,同时保留长视频中的视觉细节。这一技术的重要性在于它能够处理大量视频帧,且在有限的上下文长度内仅损失少量视觉信息,显著提升了长视频内容理解和分析的能力。LongVU在多种视频理解基准测试中均超越了现有方法,尤其是在理解长达一小时的视频任务上。此外,LongVU还能够有效地扩展到更小的模型尺寸,同时保持最先进的视频理解性能。
多语言大型语言模型
Llama 3.2是由Meta公司推出的多语言大型语言模型(LLMs),包含1B和3B两种规模的预训练和指令调优生成模型。这些模型在多种语言对话用例中进行了优化,包括代理检索和总结任务。Llama 3.2在许多行业基准测试中的表现优于许多现有的开源和封闭聊天模型。
前沿级多模态大型语言模型,实现视觉-语言任务的先进性能。
NVLM 1.0是一系列前沿级的多模态大型语言模型(LLMs),在视觉-语言任务上取得了与领先专有模型和开放访问模型相媲美的先进成果。值得注意的是,NVLM 1.0在多模态训练后,其文本性能甚至超过了其LLM主干模型。我们为社区开源了模型权重和代码。
免费且快速的提示链生成器
PromptChainer 是一个旨在提高大型语言模型输出质量的工具,通过自动化提示链的生成,帮助用户将复杂任务分解成可管理的小步骤,从而获得更精确和高质量的结果。它特别适合需要多步骤和/或大量上下文和知识的任务。
高质量、类人同声传译系统
CLASI是一个由字节跳动研究团队开发的高质量、类人同声传译系统。它通过新颖的数据驱动读写策略平衡翻译质量和延迟,采用多模态检索模块来增强特定领域术语的翻译,利用大型语言模型(LLMs)生成容错翻译,考虑输入音频、历史上下文和检索信息。在真实世界场景中,CLASI在中英和英中翻译方向上分别达到了81.3%和78.0%的有效信息比例(VIP),远超其他系统。
基于大型语言模型的智能代理研究
xLAM是一个由Salesforce AI Research团队开发的基于大型语言模型(Large Language Models, LLMs)的智能代理研究项目。它通过聚合来自不同环境的智能代理轨迹,标准化并统一这些轨迹到一致的格式,以创建一个优化的通用数据加载器,专门用于智能代理的训练。xLAM-v0.1-r是此模型系列的0.1版本,专为研究目的设计,与VLLM和FastChat平台兼容。
一款具有128k有效上下文长度的70B参数的大型语言模型。
Llama-3-Giraffe-70B-Instruct是Abacus.AI推出的一款大型语言模型,它通过PoSE和动态NTK插值的训练方法,具有更长的有效上下文长度,能够处理大量的文本数据。该模型在训练中使用了约1.5B个token,并且通过适配器转换技术,将Llama-3-70B-Base模型的适配器应用到Llama-3-Giraffe-70B-Instruct上,以提高模型的性能。
简化 LLM 提示管理和促进团队协作
Langtail 是一个旨在简化大型语言模型(LLM)提示管理的平台。通过Langtail,您可以增强团队协作、提高效率,并更深入地了解您的AI工作原理。尝试Langtail,以更具协作和洞察力的方式构建LLM应用。
通过自然语言描述创建定制软件(基于LLM的多智能体协作)
ChatDev是一个虚拟软件公司,由扮演不同角色(如CEO、产品经理、技术总监、程序员、测试员等)的智能体组成。这些智能体通过参与设计、编码、测试等专门的功能研讨会来协作开发软件。ChatDev旨在提供一个易于使用、高度可定制和可扩展的框架,基于大型语言模型(LLM),是研究集体智能的理想场景。它支持定制化设置,如自定义软件开发流程、角色设置等。用户只需使用自然语言描述想法,ChatDev就能高效生成对应的软件。
一个新的高效开源大型语言模型标准
DBRX是一个由Databricks的Mosaic研究团队构建的通用大型语言模型(LLM),在标准基准测试中表现优于所有现有开源模型。它采用Mixture-of-Experts (MoE)架构,使用362亿个参数,拥有出色的语言理解、编程、数学和逻辑推理能力。DBRX旨在推动高质量开源LLM的发展,并且便于企业根据自身数据对模型进行定制。Databricks为企业用户提供了交互式使用DBRX、利用其长上下文能力构建检索增强系统,并基于自身数据构建定制DBRX模型的能力。
Stability AI推出的Stable Code Instruct 3B,一款基于代码指令的大型语言模型
Stability AI宣布推出Stable Code Instruct 3B,这是一个大型的语言模型,专门设计用于理解和执行代码相关的指令。该模型的目的是帮助开发者更高效地编写、审查和优化代码,提高软件开发的生产力。
基于 AI 的知识处理平台,执行商业任务的简单 API
KPU (Knowledge Processing Unit) 是一种专有的丰富框架,利用了大型语言模型的强大功能,并将推理和数据处理分离在一个能够解决复杂任务的开放系统中。它由推理引擎、执行引擎和虚拟上下文窗口三个主要组件组成。推理引擎负责设计解决用户任务的分步计划,利用了可插拔的大型语言模型(目前广泛测试了 GPT-4 Turbo)。执行引擎接收来自推理引擎的命令并执行,结果作为反馈发送回推理引擎进行重新规划。虚拟上下文窗口管理推理引擎和执行引擎之间的数据和信息输入输出。这种分离推理和执行的架构使大型语言模型能专注于推理,避免了谎言、数据处理或检索最新信息等缺陷。KPU 旨在提升任务质量和性能,解决大数据量、多模态内容、开放性问题解决和交互性等挑战。
通过加权平均奖励模型提高大型语言模型的效率和可靠性。
WARM是一种通过加权平均奖励模型(WARM)来对齐大型语言模型(LLMs)与人类偏好的解决方案。首先,WARM对多个奖励模型进行微调,然后在权重空间中对它们进行平均。通过加权平均,WARM相对于传统的预测集成方法提高了效率,同时改善了在分布转移和偏好不一致性下的可靠性。我们的实验表明,WARM在摘要任务上的表现优于传统方法,使用最佳N和RL方法,WARM提高了LLM预测的整体质量和对齐性。
Generative AI 模型评估工具
Deepmark AI 是一款用于评估大型语言模型(LLM)的基准工具,可在自己的数据上对各种任务特定指标进行评估。它与 GPT-4、Anthropic、GPT-3.5 Turbo、Cohere、AI21 等领先的生成式 AI API 进行预集成。
先进的大型语言模型,用于编程
Code Llama 是一款先进的大型语言模型,可以通过文本提示生成代码。它是当前公开可用的语言模型中在编程任务上达到最佳性能的模型之一。Code Llama 可以帮助开发人员提高工作效率,降低编码门槛,并作为一个教育工具帮助编程学习者编写更健壮、更好文档化的软件。Code Llama 提供了多个版本,包括基础版、针对 Python 的专用版和针对自然语言指令的定制版。它支持多种流行的编程语言,如 Python、C++、Java 等。Code Llama 免费供研究和商业使用。
构建监督式大型语言模型的无代码平台
Supervised AI是一个无代码AI开发平台,利用OpenAI的GPT引擎,构建由您自己的数据支持的监督式大型语言模型。您可以使用我们的自定义模型和数据源,在高准确率和快速开发的环境下构建强大且可扩展的AI。同时,您还可以使用Supervised API将您的AI模型集成到任何地方。
利用 AI 将您的创意变为现实,生成美观的应用程序。
HeroUI Chat 是一个利用人工智能生成美观应用程序的平台,无论用户的设计经验如何,都可以轻松创建专业级的应用界面。该产品旨在帮助创业者、开发者及设计师快速实现他们的想法。产品目前提供 30% 的折扣,吸引了众多用户参与和讨论。
加速视频扩散模型,生成速度提升 8.5 倍。
AccVideo 是一种新颖的高效蒸馏方法,通过合成数据集加速视频扩散模型的推理速度。该模型能够在生成视频时实现 8.5 倍的速度提升,同时保持相似的性能。它使用预训练的视频扩散模型生成多条有效去噪轨迹,从而优化了数据的使用和生成过程。AccVideo 特别适用于需要高效视频生成的场景,如电影制作、游戏开发等,适合研究人员和开发者使用。
通过测试时间缩放显著提升视频生成质量。
Video-T1 是一个视频生成模型,通过测试时间缩放技术(TTS)显著提升生成视频的质量和一致性。该技术允许在推理过程中使用更多的计算资源,从而优化生成结果。相较于传统的视频生成方法,TTS 能够提供更高的生成质量和更丰富的内容表达,适用于数字创作领域。该产品的定位主要面向研究人员和开发者,价格信息未明确。
© 2025 AIbase 备案号:闽ICP备08105208号-14