浏览量:13
最新流量情况
月访问量
30.01k
平均访问时长
00:00:13
每次访问页数
0.14
跳出率
61.28%
流量来源
直接访问
5.69%
自然搜索
94.31%
邮件
0
外链引荐
0
社交媒体
0
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
安道尔
7.92%
美国
7.13%
马尔代夫
4.26%
萨尔瓦多
3.53%
土耳其
2.91%
Google的尖端开放视觉语言模型
PaliGemma是Google发布的一款先进的视觉语言模型,它结合了图像编码器SigLIP和文本解码器Gemma-2B,能够理解图像和文本,并通过联合训练实现图像和文本的交互理解。该模型专为特定的下游任务设计,如图像描述、视觉问答、分割等,是研究和开发领域的重要工具。
Qwen1.5系列首个千亿参数开源模型,多语言支持,高效Transformer解码器架构。
Qwen1.5-110B是Qwen1.5系列中规模最大的模型,拥有1100亿参数,支持多语言,采用高效的Transformer解码器架构,并包含分组查询注意力(GQA),在模型推理时更加高效。它在基础能力评估中与Meta-Llama3-70B相媲美,在Chat评估中表现出色,包括MT-Bench和AlpacaEval 2.0。该模型的发布展示了在模型规模扩展方面的巨大潜力,并且预示着未来通过扩展数据和模型规模,可以获得更大的性能提升。
一款12.1B参数的解码型语言模型
Stable LM 2 12B是一种12.1十亿参数的解码器式语言模型,经过2万亿token的多语种和代码数据集预训练。该模型可用作基础模型进行下游任务的微调,但在使用前需要评估和微调以确保安全可靠的性能。该模型可能包含不当内容,建议使用时谨慎评估,不要用于可能会给他人造成伤害的应用。
基于 Transformer 的预训练语言模型系列
Qwen1.5 是基于 Transformer 架构的解码器语言模型系列,包括不同规模的模型。具有 SwiGLU 激活、注意力 QKV 偏置、组查询注意力等特性。支持多种自然语言和代码。推荐进行后续训练,如 SFT、RLHF 等。定价免费。
实时一步潜在扩散模型,可用图像条件控制生成
SDXS是一种新的扩散模型,通过模型微型化和减少采样步骤,大幅降低了模型延迟。它利用知识蒸馏来简化U-Net和图像解码器架构,并引入了一种创新的单步DM训练技术,使用特征匹配和分数蒸馆。SDXS-512和SDXS-1024模型可在单个GPU上分别实现约100 FPS和30 FPS的推理速度,比之前模型快30至60倍。此外,该训练方法在图像条件控制方面也有潜在应用,可实现高效的图像到图像翻译。
通用视觉-语义物体检测,无需任务特定调优
T-Rex2是一种范式突破的物体检测技术,能够识别从日常到深奥的各种物体,无需任务特定调优或大量训练数据集。它将视觉和文本提示相结合,赋予其强大的零射能力,可广泛应用于各种场景的物体检测任务。T-Rex2综合了四个组件:图像编码器、视觉提示编码器、文本提示编码器和框解码器。它遵循DETR的端到端设计原理,涵盖多种应用场景。T-Rex2在COCO、LVIS、ODinW和Roboflow100等四个学术基准测试中取得了最优秀的表现。
无需相机校准信息的密集立体3D重建
DUSt3R是一种新颖的密集和无约束立体3D重建方法,适用于任意图像集合。它不需要事先了解相机校准或视点姿态信息,通过将成对重建问题视为点图的回归,放宽了传统投影相机模型的严格约束。DUSt3R提供了一种统一的单目和双目重建方法,并在多图像情况下提出了一种简单有效的全局对齐策略。基于标准的Transformer编码器和解码器构建网络架构,利用强大的预训练模型。DUSt3R直接提供场景的3D模型和深度信息,并且可以从中恢复像素匹配、相对和绝对相机信息。
亚马逊的大规模语音合成模型
BASE TTS是亚马逊开发的大规模文本到语音合成模型,运用了10亿参数的自动回归转换器,可将文本转换成语音代码,再通过卷积解码器生成语音波形。该模型使用了超过10万小时的公共语音数据进行训练,实现了语音自然度的新状态。还具有音素解离和压缩等新颖的语音编码技术。随着模型规模的增大,BASE TTS展现出了处理复杂句子的自然语调能力。
时序预测的解码器基础模型
TimesFM是一款基于大型时序数据集预训练的解码器基础模型,具有200亿参数。相较于大型语言模型,虽然规模较小,但在不同领域和时间粒度的多个未见数据集上,其零-shot性能接近最先进的监督方法。TimesFM无需额外训练即可提供出色的未见时间序列预测。
预训练T5模型,采用段落破坏和替换标记检测
SpacTor是一种新的训练程序,包括(1)结合了段落破坏(SC)和标记替换检测(RTD)的混合目标,以及(2)一个两阶段课程,该课程在初始tau次迭代中优化混合目标,然后过渡到标准的SC损失。我们在多种NLP任务上进行了实验,使用编码器-解码器架构(T5),SpacTor-T5在下游性能方面与标准的SC预训练相当,同时减少了50%的预训练迭代次数和40%的总FLOPs。另外,在相同的计算预算下,我们发现SpacTor能够显著提高下游基准性能。
高效的 Intel GPU 上的 LLM 推理解决方案
这是一种在 Intel GPU 上实现的高效的 LLM 推理解决方案。通过简化 LLM 解码器层、使用分段 KV 缓存策略和自定义的 Scaled-Dot-Product-Attention 内核,该解决方案在 Intel GPU 上相比标准的 HuggingFace 实现可实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。详细功能、优势、定价和定位等信息请参考官方网站。
基于图形的通用姿势估计方法
Pose Anything是一种基于图形的通用姿势估计方法,旨在使关键点定位适用于任意物体类别,使用单个模型,需要最少带有注释关键点的支持图像。该方法通过全新设计的图形转换解码器利用关键点之间的几何关系,提高了关键点定位的准确性。Pose Anything在MP-100基准测试中表现优异,超过了先前的最先进技术,并在1-shot和5-shot设置下取得显著改进。与以往的CAPE方法相比,该方法的端到端训练显示出可扩展性和效率。
图片马赛克去除神器
CodeFormer是一个基于 Transformer 的预测网络,用于图片马赛克恢复。通过学习离散码本和解码器,它能够减少恢复映射的不确定性,生成高质量人脸。它具有优秀的抗退化鲁棒性,适用于合成数据集和真实数据集。
Trancy提供AI双语字幕,支持YouTube和Netflix。
Trancy为您提供AI双语字幕,支持YouTube和Netflix,同时还有ChatGPT AI网页翻译器。您可以通过收集视频、句子和单词来创建自己的学习数据库,并随时随地进行练习和巩固。
稳定扩散VAE的一致性解码器
Consistency Decoder是一种用于稳定扩散VAE的改进解码器,提供更稳定的图像生成。它具有2.49GB的模型大小,支持从原始图像进行编码和使用GAN解码以及一致性解码。该产品定位于为图像生成提供更好的解码效果。
自动翻译,让机器为您工作
Tolgee是一款自动翻译工具,利用先进的技术帮助您节省时间和金钱。通过Tolgee翻译器,您可以立即本地化您的应用程序,而无需等待人工翻译。Tolgee具有上下文技术,可以提供最佳的翻译结果。您只需将字符串添加到Tolgee平台,即可自动翻译。使用Tolgee的In-context编辑器,您可以轻松地添加键并自动翻译所有内容。
实时翻译器,捕捉来自WINDOWS扬声器和麦克风的任何音频
Hanami Live Translator是一个实时翻译器,可以捕捉来自WINDOWS扬声器和麦克风的任何音频。它使用轻量级多进程和分块处理音频,每个块处理时间约为3-5秒。该应用程序通过低级访问创建硬件回环,即使扬声器静音,也可以监听内容。它使用soundcard库捕获音频信号,SpeechRecognition库将二进制音频转换为文本,selenium库模拟deepl服务器的网络调用进行免费翻译。该应用程序需要与互联网连接才能运行,并通过Traces.log文件记录所有操作。
PaLI-3 视觉语言模型:更小、更快、更强
Pali3是一种视觉语言模型,通过对图像进行编码并与查询一起传递给编码器-解码器Transformer来生成所需的答案。该模型经过多个阶段的训练,包括单模态预训练、多模态训练、分辨率增加和任务专业化。Pali3的主要功能包括图像编码、文本编码、文本生成等。该模型适用于图像分类、图像字幕、视觉问答等任务。Pali3的优势在于模型结构简单、训练效果好、速度快。该产品定价为免费开源。
13B参数阿拉伯语英语同构模型
这是一个130亿参数的预训练双语大型语言模型,支持阿拉伯语和英语,在720亿阿拉伯语标记和2790亿英语/代码标记的数据集上进行训练。阿拉伯语数据迭代了1.6个时代(相比英语/代码的1个时代),总计3950亿个标记进行训练。该模型基于Transformer解码器专用架构(GPT-3),使用SwiGLU非线性激活函数。它实现了ALiBi位置嵌入,可以外推到长序列长度,提供改进的上下文处理和模型精度。
AI翻译器 - 精准翻译,比任何之前使用过的翻译器更好。
AI翻译器是一款功能强大的插件,利用先进的人工智能技术实时翻译文本,提供准确自然的翻译结果。它支持100多种语言,适用于旅行、商务和学习等场景。此外,它还可以与AI聊天助手配合使用,实现多语言交流。免费下载安装。
在一个地方探索多个人工智能工具
Third Garden是一个集成了多个人工智能工具的网站,包括文档阅读、聊天机器人、提示生成器、网络搜索、AI翻译器、代码翻译器、主页构建器和代码调试器等。用户可以在一个地方方便地使用这些工具,提高生产力和工作效率。Third Garden的优势在于集成了多个工具,用户可以根据自己的需求选择使用,同时也可以在一个平台上探索不同的人工智能技术。
免费AI工具集合
FreeAiKit是一个免费的AI工具集合,提供多种功能,包括编程教程生成器、电子邮件生成器、博客标题生成器、故事生成器、文章生成器、数学辅导、诗歌生成器、评论生成器、代码翻译器、图像提示生成器、内容摘要生成器等。该工具集适用于各种场景,用户可以根据需求选择合适的工具。所有工具都由Prgmine提供支持。
将您的文本翻译成不同的英语俚语
Canvish是一个在线俚语翻译器,可以将您的文本翻译成苏格兰英语、澳大利亚英语等多种俚语。它使用AI技术,并提供各种英语俚语风格选择。您可以通过输入文本,选择俚语风格,并获取翻译结果。Canvish还提供高级翻译系统slAItor,可用于校对和翻译您自己的文本。
音频处理和生成的深度学习库
AudioCraft 是一个用于音频处理和生成的 PyTorch 库。它包含了两个最先进的人工智能生成模型:AudioGen 和 MusicGen,可以生成高质量的音频。AudioCraft 还提供了 EnCodec 音频压缩 / 分词器和 Multi Band Diffusion 解码器等功能。该库适用于音频生成的深度学习研究。
即时将法律文件翻译成简明的英语
法律术语解码器是一个AI律师,可以即时将法律文件中的复杂术语和法律用语翻译成易于理解的简明英语。它简化了日常生活中的专业术语和法律用语,帮助人们更轻松地理解法律文件。该产品提供免费的工具,用户可以将法律文件粘贴到解码器中,然后立即获得简明的翻译结果。此外,法律术语解码器还提供商业/专业版本,适用于需要频繁处理法律文件的专业人士和企业。商业版本提供更多高级功能和定制选项。请访问官方网站了解更多信息和定价详情。
© 2024 AIbase 备案号:闽ICP备2023012347号-1