需求人群:
CM3leon可以广泛应用于图像生成、编辑、图像描述生成、视觉问答等多个场景。
产品特色:
文本到图像生成
图像到文本生成
文本引导图像生成和编辑
多种文本任务执行
浏览量:19
最新流量情况
月访问量
3984.23k
平均访问时长
00:02:01
每次访问页数
1.96
跳出率
60.01%
流量来源
直接访问
23.86%
自然搜索
56.23%
邮件
0.47%
外链引荐
9.62%
社交媒体
9.81%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
美国
30.76%
印度
5.28%
英国
5.14%
中国
4.80%
加拿大
4.00%
Yi-1.5是零一万物2024年5月更新的先进文本生成模型。
Yi-1.5是零一万物一款文本生成模型,它利用最新的人工智能技术,能够生成流畅、连贯且多样化的文本。该模型特别适合于需要大量文本创作的领域,如内容创作、新闻撰写、社交媒体管理等。它的优势在于能够快速生成高质量的文本,提高工作效率,同时降低人力成本。
一款由Gradient AI团队开发的高性能文本生成模型。
Llama-3 8B Instruct 262k是一款由Gradient AI团队开发的文本生成模型,它扩展了LLama-3 8B的上下文长度至超过160K,展示了SOTA(State of the Art)大型语言模型在学习长文本操作时的潜力。该模型通过适当的调整RoPE theta参数,并结合NTK-aware插值和数据驱动的优化技术,实现了在长文本上的高效学习。此外,它还基于EasyContext Blockwise RingAttention库构建,以支持在高性能硬件上的可扩展和高效训练。
探索不同的文本生成模型,通过草拟消息和微调响应来提升体验。
Workers AI LLM Playground是一个在线平台,允许用户通过草拟消息和微调响应来探索不同的文本生成模型。该平台由先进的人工智能技术驱动,旨在为开发者和研究人员提供一个实验和学习的环境,以更好地理解和利用大型语言模型(LLM)的能力。
开源自然语言生成模型
OLMo是一个开源的自然语言生成模型,由Allen AI研究所开发,基于Transformer架构,可用于生成高质量的英文文本。它具有生成长度可达4096个token的长文本的能力。OLMo-7B是目前公开的参数量最大的开源英文语言模型之一,拥有69亿参数,在多个英文NLP任务上的表现优于同类模型。它可用于文本生成、任务导向的微调等多种自然语言处理任务。
对视觉生成模型进行基准测试
GenAI-Arena是一个用于在野外对视觉生成模型进行基准测试的平台。用户可以匿名参与竞技,对比目标模型的表现,并投票选出更优秀的模型。平台支持不同领域的匿名模型对决,帮助用户找到最佳的条件图像生成模型。用户可以点击“New Round”开始新的对决,并通过点击按钮投票选择更优秀的模型。
文本编码器微调技术,提升文本到图像生成模型性能
TextCraftor是一种创新的文本编码器微调技术,能够显著提升文本到图像生成模型的性能。通过奖励函数优化,它改善了图像质量与文本对齐,无需额外数据集。
专注于动漫风格的生成模型,呈现细腻的画面效果
AWPainting是一款基于Stable Diffusion的图像生成模型,专注于动漫风格的图像生成。相比于标准模型,AWPainting在光照和细节表现方面有着更出色的效果,画面更加细腻、有呼吸感,人物面部光照更加柔和自然。同时AWPainting也对Prompt指令的响应更加良好。无论是单纯的动漫风格图像生成,还是动画化真人照片等场景,AWPainting都能提供满意的输出效果。
基于稳定扩散生成高质量动漫风格图像的文本到图像模型
Animagine XL 3.1 是一款能够基于文本提示生成高质量动漫风格图像的文本到图像生成模型。它建立在稳定扩散 XL 的基础之上,专门针对动漫风格进行了优化。该模型具有更广泛的动漫角色知识、优化过的数据集和新的美学标签,从而提高了生成图像的质量和准确性。它旨在为动漫爱好者、艺术家和内容创作者提供有价值的资源。
CRM是一个高保真的单图像到3D纹理网格的卷积重建模型
CRM是一个高保真的单图像到3D纹理网格的生成模型,它通过整合几何先验到网络设计中,能够从单个输入图像生成六个正交视图图像,然后利用卷积U-Net创建高分辨率的三平面(triplane)。CRM进一步使用Flexicubes作为几何表示,便于在纹理网格上进行直接的端到端优化。整个模型能够在10秒内从图像生成高保真的纹理网格,无需测试时优化。
官方实现的自纠正LLM控制的扩散模型
SLD是一个自纠正的LLM控制的扩散模型框架,它通过集成检测器增强生成模型,以实现精确的文本到图像对齐。SLD框架支持图像生成和精细编辑,并且与任何图像生成器兼容,如DALL-E 3,无需额外训练或数据。
参数高效微调个性化扩散模型
DiffuseKronA 是一种参数高效的微调方法,用于个性化扩散模型。它通过引入基于 Kronecker 乘积的适配模块,显著降低参数数量,提升图像合成质量。该方法减少了对超参数的敏感性,在不同超参数下生成高质量图像,为文本到图像生成模型领域带来重大进展。
一步生成高分辨率图像
SDXL-Lightning是字节跳动开发的图像生成模型,能够在一步或少步骤内生成高达1024像素分辨率的高质量图像。该模型通过渐进式对抗式蒸馏,显著提升了图像生成速度,使其可应用于需要快速响应的场景。模型已开源,支持兼容LoRA模块和其他控制插件,可广泛用于文本到图像生成任务。
开放式基于提示的图像生成
GLIGEN是一个开放式的基于文本提示的图像生成模型,它可以基于文本描述和边界框等限定条件生成图像。该模型通过冻结预训练好的文本到图像Diffusion模型的参数,并在其中插入新的数据来实现。这种模块化设计可以高效地进行训练,并具有很强的推理灵活性。GLIGEN可以支持开放世界的有条件图像生成,对新出现的概念和布局也具有很强的泛化能力。
Stability AI推出高效低阈值文生图AI模型
Stable Cascade是一个基于Würstchen架构的文本到图像生成模型,相比其他模型使用更小的潜在空间进行训练和推理,因此在训练和推理速度上都有显著提升。该模型可以在消费级硬件上运行,降低了使用门槛。Stable Cascade在人类评估中表现突出,无论是在提示对齐还是图像质量上都超过了其他模型。总体而言,这是一个高效、易用、性能强劲的文生图AI模型。
开源双语文生图生成模型
Taiyi-Diffusion-XL是一个开源的基于Stable Diffusion训练的双语文生图生成模型,支持英文和中文的文本到图像生成,相比之前的中文文生图模型有了显著提升。它可以根据文本描述生成照片般逼真的图像,支持多种图像风格,具有较高的生成质量和多样性。该模型采用创新的训练方式,扩展了词表、位置编码以支持长文本和中文,并在大规模双语数据集上进行训练,确保了其强大的中英文生成能力。
OFT可有效稳定微调文本到图像扩散模型
Controlling Text-to-Image Diffusion研究了如何有效引导或控制强大的文本到图像生成模型进行各种下游任务。提出了正交微调(OFT)方法,可以保持模型的生成能力。OFT可以保持神经元之间的超球面能量不变,防止模型坍塌。作者考虑了两种重要的微调任务:主体驱动生成和可控生成。结果表明,OFT方法在生成质量和收敛速度上优于现有方法。
生成条件文本或图像的 3D 对象
Shap-E 是一个生成条件 3D 隐函数的官方代码和模型发布库。它可以根据文本或图像生成 3D 对象。该产品采用了最新的生成模型,可以根据给定的提示生成与之相关的三维模型。
基于LLM的文本到图像生成系统
DiffusionGPT是一种基于大型语言模型(LLM)的文本到图像生成系统。它利用扩散模型构建了针对各种生成模型的领域特定树,从而能够无缝地适应各种类型的提示并集成领域专家模型。此外,DiffusionGPT引入了优势数据库,其中的思维树得到了人类反馈的丰富,使模型选择过程与人类偏好保持一致。通过广泛的实验和比较,我们展示了DiffusionGPT的有效性,展示了它在不同领域推动图像合成边界的潜力。
重新思考 FID:为图像生成提供更好的评估指标
该论文提出了对图像生成模型进行评估的新指,提出了 Frechet Inception Distance (FID) 指标存在的问题,并提出了一种新的评估指标 CMMD。通过大量实验证明,FID 指标对文本到图像模型的评估可能不可靠,而 CMMD 指标可以更可靠地评估图像质量。
多模态图像生成模型
Instruct-Imagen是一个多模态图像生成模型,通过引入多模态指令,实现对异构图像生成任务的处理,并在未知任务中实现泛化。该模型利用自然语言整合不同的模态(如文本、边缘、风格、主题等),标准化丰富的生成意图。通过在预训练文本到图像扩散模型上进行两阶段框架的微调,采用检索增强训练和多样的图像生成任务微调,使得该模型在各种图像生成数据集上的人工评估结果表明,其在领域内与先前的任务特定模型相匹配或超越,并展现出对未知和更复杂任务的有希望的泛化能力。
SCEdit是一个高效和可控制的图像扩散生成框架
SCEdit是一个由阿里巴巴提出的高效的生成模型精调框架。该框架增强了下游文本到图像生成任务的精调能力,并实现了对特定生成场景的快速适配,相比LoRA可以节省30%-50%的训练内存成本。此外,它可以直接扩展到可控图像生成任务,只需要ControlNet条件生成所需参数量的7.9%,并可以节省30%的内存使用。它支持各种条件生成任务,包括边缘图、深度图、分割图、姿态、色彩图以及图像补全等。
Midjourney v6让社区用户在冬季休假期间测试alpha版模型
Midjourney v6是一个图像生成模型,具有更准确的提示追随、更长的提示、提高的一致性和模型知识、改进的图像提示和混音模式等功能。该模型适用于生产力、设计、写作等场景。Midjourney v6在冬季休假期间开放给社区进行测试,目前是alpha版本,功能和定价可能会有所变化。
平滑管理多种语言模型,提速响应,确保零宕机
GPTRouter可以平滑管理多种语言模型如OpenAI、Anthropic、Azure,同时支持图像生成模型如Stable Diffusion、DALL-E,实现语言模型和图像模型之间的无缝切换,确保在主模型不可用时快速失败切换,大幅减少响应延迟,提高系统鲁棒性。
单文本/图像生成可导航3D场景
LucidDreamer是一种无域3D场景生成技术,通过充分利用现有大规模扩散生成模型的能力,可以从单个文本提示或单个图像生成可导航的3D场景。该方法具有梦境和对齐两个交替步骤,首先根据输入生成多视角一致的图像,然后将新生成的3D场景部分和谐地整合在一起。LucidDreamer生成的高度详细的高斯斑点与以往的3D场景生成方法相比没有目标场景域的限制。
AI驱动的文本到视频生成
Emu Video是一种基于扩散模型的简单文本到视频生成方法,将生成过程分解为两个步骤:首先根据文本提示生成图像,然后根据提示和生成的图像生成视频。分解生成方式能够高效训练高质量的视频生成模型。与以往的方法相比,我们的方法只需使用两个扩散模型即可生成分辨率为512像素、播放速度为每秒16帧、时长为4秒的视频。
AI开发者平台
GraphQL AI是为开发者提供的一站式AI平台。通过我们的AI开发者平台,轻松启动您的工具、机器人和聊天助手!您可以创建独立的上下文,使用各种图像生成模型创建出色的内容,还可以使用最新的AI算法训练聊天机器人。
基于轨迹草图的机器人任务泛化
RT-Trajectory 是一种基于粗糙轨迹草图的机器人控制策略,通过轨迹草图实现对新任务的有效泛化能力。它既可以通过人工绘制、视频演示等方式生成轨迹草图,也可以通过图像生成模型等方式生成轨迹草图。RT-Trajectory 在各种真实世界机器人任务中得到了广泛评估,相比于基于语言和目标的策略,具有更广泛的任务执行能力。
© 2024 AIbase 备案号:闽ICP备2023012347号-1