浏览量:61
最新流量情况
月访问量
21755.37k
平均访问时长
00:04:24
每次访问页数
3.11
跳出率
46.13%
流量来源
直接访问
32.70%
自然搜索
44.92%
邮件
1.60%
外链引荐
16.28%
社交媒体
4.47%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
美国
20.68%
中国
16.31%
印度
3.92%
日本
3.91%
高保真图像到视频生成框架
AtomoVideo是一个新颖的高保真图像到视频(I2V)生成框架,它从输入图像生成高保真视频,与现有工作相比,实现了更好的运动强度和一致性,并且无需特定调整即可与各种个性化T2I模型兼容。
低成本高质量文本到图像生成模型
PIXART-α是一种基于Transformer的文本到图像生成模型,其图像生成质量与最先进的图像生成器相当,支持高分辨率图像合成,训练速度明显优于现有的大规模T2I模型,训练成本低,可节省近30万美元,并减少90%的CO2排放。PIXART-α在图像质量、艺术性和语义控制方面表现出色,可为AIGC社区和初创企业提供新的见解,加速从头开始构建高质量、低成本的生成模型。
AI图像生成与无限Moodboard合成
M👀D.tech是一款AI图像生成与无限Moodboard合成的工具。它提供了易于设置的界面,支持TXT2IMG、IMG2IMG、InPaint、Upscale等功能,并支持与渲染节点共享资源。具备基本的绘画工具,支持SDXL和Stable Diffusion 1.5,拥有时间线界面和多人协作功能。适用于Windows NVIDIA CUDA和Mac M1系统。
基于大语言模型的个性化图像生成工具
MoMA Personalization 是一款基于开源 Multimodal Large Language Model (MLLM) 的个性化图像生成工具。它专注于主题驱动的个性化图像生成,可以根据参考图像和文本提示生成高质量、保留目标物体特征的图像。MoMA 不需要任何 fine-tuning,是一个插件式的模型,可以直接应用于现有的 diffusion 模型中,并在保留原模型性能的同时提高生成图像的细节和 prompt 忠实度。
官方实现的自纠正LLM控制的扩散模型
SLD是一个自纠正的LLM控制的扩散模型框架,它通过集成检测器增强生成模型,以实现精确的文本到图像对齐。SLD框架支持图像生成和精细编辑,并且与任何图像生成器兼容,如DALL-E 3,无需额外训练或数据。
100个AI模型,1个API,最高可访问性
aimlapi.com是一个AI模型平台,通过1个API可以访问100多个AI模型。该平台提供低延迟、全天候访问的AI服务,可节省高达80%的成本。AI模型包括高级LLM、语音转文字、文字转语音、聊天机器人和图像生成等功能。定价简单明了,为开发者提供最低市场价格。支持与OpenAI兼容,无缝切换使用。适用于各种场景,包括聊天、语音、图像等。支持快速响应和高效扩展,保证99%的运行时间。欢迎免费试用1个月。
基于LLM的文本到图像生成系统
DiffusionGPT是一种基于大型语言模型(LLM)的文本到图像生成系统。它利用扩散模型构建了针对各种生成模型的领域特定树,从而能够无缝地适应各种类型的提示并集成领域专家模型。此外,DiffusionGPT引入了优势数据库,其中的思维树得到了人类反馈的丰富,使模型选择过程与人类偏好保持一致。通过广泛的实验和比较,我们展示了DiffusionGPT的有效性,展示了它在不同领域推动图像合成边界的潜力。
学习模型间字符串关系,检查视觉世界
这篇论文系统评估了大型语言模型(LLMs)生成和识别逐渐复杂的视觉概念的能力,并展示了如何使用文本模型训练初步的视觉表示学习系统。虽然语言模型不能直接处理像素级的视觉信息,但使用代码表示图像进行研究。LLM 生成的图像虽然不像自然图像,但在图像生成和纠正方面的结果表明,准确建模字符串可以教会语言模型许多关于视觉世界的方面。此外,利用文本模型生成的图像进行自监督视觉表示学习的实验,突出了只使用 LLMs 就能训练能够对自然图像进行语义评估的视觉模型的潜力。
基于LLMs和生成式AI模型的AI产品的基础研究和技术
LMOps是一个基于LLMs和生成式AI模型的AI产品的基础研究和技术。它提供了自动提示优化、Promptist、可扩展的提示、通用提示检索、LLM检索等功能。此外,还包括结构化提示、可扩展的提示、LLM加速器、LLM定制化和理解上下文学习等基本功能。LMOps的链接包括microsoft/unilm和microsoft/torchscale等。它适用于各种场景,如文本到图像生成、长序列提示消耗和扩展提示等。LMOps是一个开源项目,遵循MIT许可证。
Surya是一个用于任何语言中准确的逐行文本检测和识别(OCR)的项目。
Surya是一个多语言文档OCR工具包,具有准确的逐行文本检测功能。它在一系列文档和语言上都有效(参见使用和基准测试以获取更多细节)。Surya的命名源自印度太阳神,象征着具有普遍视野。Surya通过Python 3.9+和PyTorch实现,支持多种语言的高效OCR处理,包括图像动画和个性化T2I模型。Surya的特点是其高效性和多语言支持能力。
I2V-Adapter是一种用于视频扩散模型的通用图像到视频适配器。
I2V-Adapter旨在将静态图像转换为动态、逼真的视频序列,同时保持原始图像的保真度。它使用轻量级适配器模块并行处理带噪声的视频帧和输入图像。此模块充当桥梁,有效地将输入连接到模型的自注意力机制,保持空间细节,无需更改T2I模型的结构。I2V-Adapter参数少于传统模型,并确保与现有的T2I模型和控制工具兼容。实验结果表明,I2V-Adapter能够生成高质量的视频输出,这对于AI驱动的视频生成,尤其是创意应用领域,具有重大意义。
AI图像质量优化工具
Q-Refine是一个提供AI图像质量优化工具的平台。其中,Q-Refine是一款基于人类视觉系统偏好的图像质量评估指标(IQA)的优化工具。它通过三个自适应流程修改不同质量的图像,为主流T2I模型提供有效的优化,扩大了T2I生成模型的应用范围。
使用扩散模型实现时域一致的人体图像动画
MagicAnimate是一款基于扩散模型的先进框架,用于人体图像动画。它能够从单张图像和动态视频生成动画视频,具有时域一致性,能够保持参考图像的特征,并显著提升动画的保真度。MagicAnimate支持使用来自各种来源的动作序列进行图像动画,包括跨身份的动画和未见过的领域,如油画和电影角色。它还与DALLE3等T2I扩散模型无缝集成,可以根据文本生成的图像赋予动态动作。MagicAnimate由新加坡国立大学Show Lab和Bytedance字节跳动共同开发。
高保真文本到4D生成
4D-fy是一种文本到4D生成方法,通过混合分数蒸馏采样技术,结合了多种预训练扩散模型的监督信号,实现了高保真的文本到4D场景生成。其方法通过神经表示参数化4D辐射场,使用静态和动态多尺度哈希表特征,并利用体积渲染从表示中渲染图像和视频。通过混合分数蒸馏采样,首先使用3D感知文本到图像模型(3D-T2I)的梯度来优化表示,然后结合文本到图像模型(T2I)的梯度来改善外观,最后结合文本到视频模型(T2V)的梯度来增加场景的运动。4D-fy可以生成具有引人入胜外观、3D结构和运动的4D场景。
真实人类舞蹈视频生成
MagicDance是一种新颖有效的方法,可以生成逼真的人类视频,实现生动的动作和面部表情转移,以及一致的2D卡通风格动画零调优生成。通过MagicDance,我们可以精确生成外观一致的结果,而原始的T2I模型(如稳定扩散和ControlNet)很难准确地保持主题身份信息。此外,我们提出的模块可以被视为原始T2I模型的扩展/插件,而不需要修改其预训练权重。
你值得信赖的 Photoshop 副驾驶
ImageCreator 是一款专业的生成式人工智能插件,支持 SDXL 1.0。它能够帮助用户快速创建美丽的艺术作品,提供了多种有效的功能,包括 TXT2IMG、IMG2IMG、FILL 等多种生成方法。用户可以通过选择模型和输入参数来生成图片,同时支持多种控制模型和处理设置。ImageCreator 还提供了丰富的模型库,用户可以应用这些模型来创作独特的艺术项目。通过 ImageCreator,用户可以探索无限的可能性,创建各种生产就绪的艺术资产。
AI预算优化工具,比较和计算大型语言模型API的最新价格。
LLM Price Check是一个在线工具,它允许用户比较和计算不同大型语言模型(LLM)API的价格,这些API由领先的提供商如OpenAI、Anthropic、Google等提供。该工具可以帮助用户优化他们的AI预算,通过比较不同模型的价格和性能,用户可以做出更明智的选择。
探索不同的文本生成模型,通过草拟消息和微调响应来提升体验。
Workers AI LLM Playground是一个在线平台,允许用户通过草拟消息和微调响应来探索不同的文本生成模型。该平台由先进的人工智能技术驱动,旨在为开发者和研究人员提供一个实验和学习的环境,以更好地理解和利用大型语言模型(LLM)的能力。
轻量级但功能强大的多模态模型家族。
Bunny 是一系列轻量级但功能强大的多模态模型,提供多种即插即用的视图编码器和语言主干网络。通过从更广泛的数据源进行精选选择,构建更丰富的训练数据,以补偿模型尺寸的减小。Bunny-v1.0-3B 模型在性能上超越了同类大小甚至更大的 MLLMs(7B)模型,并与 13B 模型性能相当。
HiDiffusion,解锁预训练扩散模型中的高分辨率创作与效率。
HiDiffusion是一个预训练扩散模型,通过仅添加一行代码即可提高扩散模型的分辨率和速度。该模型通过Resolution-Aware U-Net (RAU-Net)和Modified Shifted Window Multi-head Self-Attention (MSW-MSA)技术,动态调整特征图大小以解决对象复制问题,并优化窗口注意力以减少计算量。HiDiffusion能够将图像生成分辨率扩展到4096×4096,同时保持1.5-6倍于以往方法的推理速度。
高效的企业级人工智能模型,低成本实现高质量定制模型。
Snowflake Arctic 是一款专为企业级人工智能任务设计的大规模语言模型(LLM),它在 SQL 生成、编码以及指令遵循等基准测试中表现出色,即使与计算预算更高的开源模型相比也毫不逊色。Arctic 通过其高效的训练和推理,为 Snowflake 客户以及广大 AI 社区提供了一种成本效益极高的定制模型创建方式。此外,Arctic 采用 Apache 2.0 许可,提供无门槛的权重和代码访问,并通过开源数据配方和研究洞察,进一步推动了社区的开放性和成本效益。
用于构建理解和模拟人类语音表情的声控人工智能接口。
Hume AI的同理心语音接口(EVI)是一种由同理心大型语言模型(eLLM)驱动的API,可以理解和模拟语音音调、词语重音等,从而优化人机交互。它基于10多年的研究成果、数百万专利数据点和30多篇发表在顶尖期刊的论文。EVI旨在为任何应用程序提供更自然、富有同情心的语音界面,让人与AI的互动更加人性化。该技术可广泛应用于销售/会议分析、健康与保健、AI研究服务、社交网络等领域。
AI驱动的全自动测试解决方案,让您可以10倍更快地启动。
TestSprite是一个基于AI的全自动测试解决方案,利用最先进的大型语言模型(LLM)技术和云计算基础设施,提供高效、安全的测试服务。只需一次点击,我们的AI就能负责编写端到端测试代码的所有方面,节省宝贵的时间。我们的测试报告设计简洁易懂,提供全面的测试总结,识别任何失败,并提供潜在原因的建议。通过TestSprite,您可以减少测试时间、提高测试效率。
高效图像合成的新框架
Hyper-SD是一个创新的图像合成框架,它通过轨迹分割一致性模型和低步数推理的优势,实现了高效的图像合成。该框架结合了ODE轨迹保留和重构的优势,同时通过人类反馈学习进一步提升了性能,并通过分数蒸馏技术增强了低步数生成能力。Hyper-SD在1到8步推理步骤中实现了SOTA性能,特别适合需要快速且高质量图像生成的应用场景。
快速训练和微调大型语言模型
Unsloth 是一个旨在提高大型语言模型(LLMs)训练和微调速度的平台。它通过手动推导所有计算密集型数学步骤并手写GPU内核,实现了无需硬件更改即可显著加快训练速度。Unsloth 支持多种GPU,包括NVIDIA、AMD和Intel,并提供开源版本供用户在Google Colab或Kaggle Notebooks上免费试用。它还提供了不同级别的定价方案,包括免费版、Pro版和企业版,以满足不同用户的需求。
开源AI软件工程师
Devika AI是一个开源的AI软件工程师,可以理解高级人类指令,将其分解为步骤,研究相关信息并生成相应代码。它使用Claude 3、GPT 4、GPT 3.5和Local LLMs via Ollama。
智能工具,激发创意无限
DeepAI是一个提供多种人工智能工具的网站,包括AI视频生成器、AI图像生成器、AI图像编辑器和AI角色聊天等。用户可以利用这些工具将静态图片和文本提示转换成简短的视频动画,或者通过输入提示来生成图像。DeepAI的AI图像编辑器允许用户快速编辑图片,而AI角色聊天则可以与各种角色进行互动。此外,还有去除背景和给黑白照片上色的功能。DeepAI提供PRO会员服务,享受无广告体验、私有图片存储和API访问等特权。
AI学习平台
Generative AI Courses是一家提供AI学习课程的在线平台。通过课程学习,用户可以掌握GenAI、AI、机器学习、深度学习、chatGPT、DALLE、图像生成、视频生成、文本生成等技术,并了解2024年AI领域的最新发展。
© 2024 AIbase 备案号:闽ICP备2023012347号-1