浏览量:63
最新流量情况
月访问量
22216.76k
平均访问时长
00:04:50
每次访问页数
5.52
跳出率
47.80%
流量来源
直接访问
46.24%
自然搜索
30.97%
邮件
0.78%
外链引荐
13.53%
社交媒体
8.45%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
15.26%
美国
13.36%
印度
6.45%
俄罗斯
3.91%
法国
3.77%
高质量英文网页数据集
FineWeb数据集包含超过15万亿个经过清洗和去重的英文网页数据,来源于CommonCrawl。该数据集专为大型语言模型预训练设计,旨在推动开源模型的发展。数据集经过精心处理和筛选,以确保高质量,适用于各种自然语言处理任务。
基于Pile数据集训练的T5模型
Pile-T5是EleutherAI推出的一款自然语言处理模型,它在原有的T5模型基础上,采用了Pile数据集和LLAMA分词器进行训练,以改善对代码任务的理解能力。该模型经过了2万亿个token的训练,是原T5模型训练量的两倍。Pile-T5在多项下游任务中表现出色,尤其是在代码相关任务上。此外,EleutherAI还提供了中间检查点,以便研究人员研究模型随时间的演变。
生成式室内设计训练框架
StableDesign项目旨在为生成式室内设计提供数据集和训练方法。用户上传空房间图片和文字提示,生成装修效果图。通过爱彼迎数据下载、特征提取和ControlNet模型训练,结合图像处理和自然语言处理技术,提供新思路和方法。
文本转音乐和音频
MAGNeT是一个提供各种人工智能模型和数据集的社区平台。用户可以在平台上找到各种先进的自然语言处理和机器学习模型,以及相关的数据集。该平台还提供了一系列解决方案,包括文本到语音转换、图像处理等。MAGNeT定位于为开发人员、研究人员和企业提供高质量的人工智能模型和数据集。
使用大型语言模型改进文本嵌入
E5-mistral-7b-instruct 是一个具有 32 层和 4096 个嵌入大小的文本嵌入模型。它可以用于编码查询和文档,以生成语义向量表示。该模型使用自然语言任务描述指导文本嵌入过程,可以根据不同的任务进行定制。该模型在 MS-MARCO passage ranking 数据集上进行了训练,可用于信息检索、问答等自然语言处理任务。
开源文本到图像生成模型
aMUSEd是一个开源平台,提供各种自然语言处理(NLP)模型、数据集和工具。其中包括aMUSEd,一个基于MUSE的轻量级遮蔽图像模型(MIM),用于文本到图像的生成。相比于潜在扩散(latent diffusion),MIM需要更少的推理步骤并且更易解释。此外,MIM可以通过仅有一张图片进行微调以学习额外的风格。aMUSEd还提供了两个模型的检查点,可以直接生成256x256和512x512分辨率的图像。
3D人物生成模型
En3D是一个提供先进自然语言处理模型的平台。他们提供了各种各样的模型和数据集,以帮助开发者构建和部署自然语言处理应用。En3D平台的优势在于提供了大量预训练模型和方便的部署工具,使得开发者能够快速、高效地构建自然语言处理应用。
AI模型数据集平台
始智AI是一家提供AI模型和数据集的平台,致力于为科研单位、企事业单位和个人提供高质量的AI模型和数据集。始智AI的优势在于提供多种类型的AI模型和数据集,包括图像、视频、自然语言处理等,用户可以根据自己的需求选择合适的模型和数据集。始智AI的定价合理,用户可以根据自己的需求选择不同的套餐,满足不同的需求。始智AI的定位是成为AI模型和数据集领域的领先平台。
AI模型库与数据集平台
I2VGen-XL是一款AI模型库与数据集平台,提供丰富的AI模型和数据集,帮助用户快速构建AI应用。平台支持多种AI任务,包括图像识别、自然语言处理、语音识别等。用户可以通过平台上传、下载和分享模型和数据集,也可以使用平台提供的API接口进行调用。平台提供免费和付费两种服务,用户可以根据需求选择适合自己的服务。
AI 插件,内容发现与分析
VoxScript 是由 Allwire 开发的一款先进的 AI 插件,利用自然语言处理技术,革新了探索和分析数字内容的方式。它可以与各种在线平台无缝集成,为用户提供实时信息、视频分析、股市趋势分析等功能。VoxScript 的核心是 OpenAI 最先进的语言模型,经过大规模、多样化的数据集训练,提供无与伦比的准确性和多功能性。无论您是内容创作者、金融分析师,还是对科学技术等领域充满好奇心的学习者,VoxScript 都是您获取有价值见解、扩展知识的理想助手。
提升大型语言模型解决数学问题的能力
ChatGLM-Math 是一个基于自我批评流程定制的数学问题解决模型,旨在提高大型语言模型(LLMs)在数学问题解决方面的能力。该模型通过训练一个通用的Math-Critique模型来提供反馈信号,并采用拒绝采样微调和直接偏好优化来增强LLM的数学问题解决能力。它在学术数据集和新创建的挑战性数据集MathUserEval上进行了实验,显示出在保持语言能力的同时,显著提升了数学问题解决能力。
使用Kolmogorov-Arnold网络实现的预训练生成式变换器(GPTs)的语言模型
kan-gpt是一个基于PyTorch的Generative Pre-trained Transformers (GPTs) 实现,它利用Kolmogorov-Arnold Networks (KANs) 进行语言建模。该模型在文本生成任务中展现出了潜力,特别是在处理长距离依赖关系时。它的重要性在于为自然语言处理领域提供了一种新的模型架构,有助于提升语言模型的性能。
一种用于生成超详细图像描述的模型,用于训练视觉语言模型。
ImageInWords (IIW) 是一个由人类参与的循环注释框架,用于策划超详细的图像描述,并生成一个新的数据集。该数据集通过评估自动化和人类并行(SxS)指标来实现最先进的结果。IIW 数据集在生成描述时,比以往的数据集和GPT-4V输出在多个维度上有了显著提升,包括可读性、全面性、特异性、幻觉和人类相似度。此外,使用IIW数据微调的模型在文本到图像生成和视觉语言推理方面表现出色,能够生成更接近原始图像的描述。
为真实世界机器人提供最先进的机器学习模型、数据集和工具。
LeRobot 是一个旨在降低进入机器人领域的门槛,让每个人都能贡献并从共享数据集和预训练模型中受益的开源项目。它包含了在真实世界中经过验证的最先进的方法,特别关注模仿学习和强化学习。LeRobot 提供了一组预训练模型、带有人类收集演示的数据集和模拟环境,以便用户无需组装机器人即可开始。未来几周内,计划增加对最实惠和最有能力的真实世界机器人的支持。
构建定制的大型语言模型(LLM)以增强聊天机器人的能力。
ChatRTX 是 NVIDIA 提供的一个用于构建定制大型语言模型(LLM)的平台,旨在提升聊天机器人的智能水平和交互能力。它利用先进的 AI 技术,通过理解自然语言处理(NLP)来提供更加人性化的对话体验。ChatRTX 的主要优点包括高度的可定制性、强大的语言理解能力和高效的交互设计,适合需要高级对话系统的各种商业应用。
一个公益项目,致力于帮助国内AI开发者快速、稳定的下载模型、数据集。
HuggingFace镜像站是一个非盈利性项目,旨在为国内的AI开发者提供一个快速且稳定的模型和数据集下载平台。通过优化下载过程,减少因网络问题导致的中断,它极大地提高了开发者的工作效率。该镜像站支持多种下载方式,包括网页直接下载、使用官方命令行工具huggingface-cli、本站开发的hfd下载工具以及通过设置环境变量来实现非侵入式下载。
扩展LLaVA模型,集成Phi-3和LLaMA-3,提升视觉与语言模型的交互能力。
LLaVA++是一个开源项目,旨在通过集成Phi-3和LLaMA-3模型来扩展LLaVA模型的视觉能力。该项目由Mohamed bin Zayed University of AI (MBZUAI)的研究人员开发,通过结合最新的大型语言模型,增强了模型在遵循指令和学术任务导向数据集上的表现。
构建最好的中文Llama大模型,完全开源可商用。
Llama中文社区是一个专注于Llama模型在中文方面的优化和上层建设的技术社区。社区提供基于大规模中文数据的预训练模型,并对Llama2和Llama3模型进行持续的中文能力迭代升级。社区拥有高级工程师团队支持,丰富的社区活动,以及开放共享的合作环境,旨在推动中文自然语言处理技术的发展。
结合文本提取、网络分析和大型语言模型提示与总结的端到端系统
GraphRAG (Graphs + Retrieval Augmented Generation) 是一种通过结合文本提取、网络分析以及大型语言模型(LLM)的提示和总结,来丰富理解文本数据集的技术。该技术即将在GitHub上开源,是微软研究项目的一部分,旨在通过先进的算法提升文本数据的处理和分析能力。
一种优化扩散模型采样时间表的方法,以提高生成模型的输出质量。
Align Your Steps 是一种用于优化扩散模型(Diffusion Models, DMs)采样时间表的方法。这种方法利用随机微积分的方法,为不同的求解器、训练有素的DMs和数据集找到特定的最优采样时间表。它通过最小化KLUB项来优化时间离散化,即采样调度,从而在相同的计算预算下提高输出质量。该方法在图像、视频以及2D玩具数据合成基准测试中表现出色,优化的采样时间表在几乎所有实验中都优于之前手工制定的时间表。
OpenVoice V2是一款支持多语言的语音合成模型,提供高质量的语音克隆与风格控制功能。
OpenVoice V2是一款文本到语音(Text-to-Speech, TTS)的模型,它在2024年4月发布,包含了V1的所有功能,并进行了改进。它采用了不同的训练策略,提供了更好的音质,支持英语、西班牙语、法语、中文、日语和韩语等多种语言。此外,它还允许商业用途的免费使用。OpenVoice V2能够精确地克隆参考音调色彩,并在多种语言和口音中生成语音。它还支持零样本跨语言语音克隆,即生成语音的语言和参考语音的语言不需要在大规模多语种训练数据集中出现。
OpenELM是一套高效的语言模型家族,具备开源训练和推理框架。
OpenELM是由苹果公司开发的语言模型家族,旨在为开源研究社区提供先进的语言模型。这些模型基于公开可用的数据集训练,不提供任何安全保证,可能产生不准确、有害、有偏见或令人反感的输出。因此,用户和开发者需要进行彻底的安全测试,并实施适当的过滤机制。
一款人工智能助手,可提供各种形象模拟对话服务。
蓝心千询是一款强大的人工智能对话模型,可模拟各种形象与用户进行对话互动。它包含了多个经典文学角色、历史名人等丰富的虚拟形象库,用户可以选择自己感兴趣的形象与之对话,体验不同风格的语言互动。该模型由先进的自然语言处理和深度学习技术驱动,能够理解上下文语义,给出贴切内容丰富的回复。无论是文字游戏、知识问答还是情感交流,蓝心千询都能提供极佳的体验。该产品面向喜欢阅读、交流、探索的广大用户群体,可满足各种对话和模拟需求。
视频超分辨率模型,细节丰富
VideoGigaGAN是一款基于大规模图像上采样器GigaGAN的视频超分辨率(VSR)模型。它能够生成具有高频细节和时间一致性的视频。该模型通过添加时间注意力层和特征传播模块,显著提高了视频的时间一致性,并使用反锯齿块减少锯齿效应。VideoGigaGAN在公共数据集上与最先进的VSR模型进行了比较,并展示了8倍超分辨率的视频结果。
开源的先进文本嵌入模型
Snowflake Arctic Embed是一系列基于Apache 2.0许可开源的文本嵌入模型,专为检索用例设计。这些模型在Massive Text Embedding Benchmark (MTEB)检索基准测试中提供了领先的检索性能,为组织在结合专有数据集与大型语言模型(LLMs)进行检索增强生成(RAG)或语义搜索服务时提供了新的优势。这些模型的尺寸从超小型(xs)到大型(l),具有不同的上下文窗口和参数数量,以满足不同企业的延迟、成本和检索性能需求。
以低成本实现高性能的大型语言模型
JetMoE-8B是一个开源的大型语言模型,通过使用公共数据集和优化的训练方法,以低于10万美元的成本实现了超越Meta AI LLaMA2-7B的性能。该模型在推理时仅激活22亿参数,大幅降低了计算成本,同时保持了优异的性能。
一个通用的多模态模型,可用于问答、图像描述等任务
HuggingFaceM4/idefics-80b-instruct是一个开源的多模态模型,它可以接受图像和文本的输入,输出相关的文本内容。该模型在视觉问答、图像描述等任务上表现出色,是一个通用的智能助手模型。它由Hugging Face团队开发,基于开放数据集训练,提供免费使用。
音乐生成工具,助力音乐制作人
musicgen-songstarter-v0.2是一个针对音乐制作人设计的音频生成模型,专门用于生成有用的旋律循环。该模型在Splice样本库中的旋律循环数据集上进行了微调,能够生成立体声音频,音频频率为32kHz。与v0.1版本相比,v0.2版本使用了三倍的独特样本,并且模型大小从中等提升到了大型。
© 2024 AIbase 备案号:闽ICP备2023012347号-1