微软轻量级、先进的多模态模型,专注于文本和视觉的高质量推理密集数据。
Phi-3 Vision是一个轻量级、最先进的开放多模态模型,基于包括合成数据和经过筛选的公开可用网站在内的数据集构建,专注于文本和视觉的非常高质量的推理密集数据。该模型属于Phi-3模型家族,多模态版本支持128K上下文长度(以token计),经过严格的增强过程,结合了监督微调和直接偏好优化,以确保精确的指令遵循和强大的安全措施。
打造连接全球创作者的AI社区平台
米塔是一个打造连接全球创作者的AI社区平台。它提供米文、米画等创作工具,用户只需输入文字提示,就可以通过AI技术生成小说大纲、文章、画作等创意内容。米塔具有写作辅助、图像生成、智能对话等功能,可以帮助用户提升创作效率,发掘更多创意灵感。米塔基于大规模预训练语言模型,通过模型微调和数据增强,实现了文本、图像的高质量生成。米塔致力于为创作者提供便捷的AI创作工具,构建包容开放的社区,让更多的用户体验到AI给创作带来的无限可能。
MidReal是一个基于AI的文本冒险游戏
MidReal是一个基于先进人工智能技术的文本冒险游戏平台。它拥有强大的长篇叙事能力和近乎无限的记忆能力,可以根据玩家的选择来生成一个连贯、沉浸式的故事剧情。玩家可以选择不同的世界观和场景,roleplay成自己喜欢的角色,创造独特的冒险经历。
文本到3D分数蒸馏的方差缩减解决方案
SteinDreamer供文本到3D分数蒸馏的解决方案。他们提出了一种名为Stein Score Distillation (SSD)的方差缩减解决方案,通过控制变量构建和Stein身份,实现了对蒸馏方差的有效降低。他们的实验结果表明,SSD能够有效降低蒸馏方差,并且在对象和场景级别的生成中持续提高视觉质量。此外,他们还展示了SteinDreamer相对于现有方法具有更快的收敛速度。
统一的多模态生成模型
Unified-IO 2是一个统一的多模态生成模型,能够理解和生成图像、文本、音频和动作。它使用单个编码器-解码器Transformer模型,将不同模式(图像、文本、音频、动作等)的输入和输出都表示为一个共享的语义空间进行处理。该模型从头开始在大规模的多模态预训练语料上进行训练,使用了多模态的去噪目标进行优化。为了学会广泛的技能,该模型还在120个现有数据集上进行微调,这些数据集包含提示和数据增强。Unified-IO 2在GRIT基准测试中达到了最先进的性能,在30多个基准测试中都取得了强劲的结果,包括图像生成和理解、文本理解、视频和音频理解以及机器人操作。
AI多模态数据绑定
ImageBind是一种新的AI模型,能够同时绑定六种感官模态的数据,无需显式监督。通过识别这些模态之间的关系(图像和视频、音频、文本、深度、热成像和惯性测量单元(IMUs)),这一突破有助于推动AI发展,使机器能够更好地分析多种不同形式的信息。探索演示以了解ImageBind在图像、音频和文本模态上的能力。
大规模人脸文本-视频数据集
CelebV-Text是一个大规模、高质量、多样化的人脸文本-视频数据集,旨在促进人脸文本-视频生成任务的研究。数据集包含70,000个野外人脸视频剪辑,每个视频剪辑都配有20个文本,涵盖40种一般外观、5种详细外观、6种光照条件、37种动作、8种情绪和6种光线方向。CelebV-Text通过全面的统计分析验证了其在视频、文本和文本-视频相关性方面的优越性,并构建了一个基准来标准化人脸文本-视频生成任务的评估。
多语种文本翻译工具
必应翻译是一款多语种文本翻译工具,可以帮助用户快速准确地翻译各种语言的文本。它具有简单易用、翻译准确、支持多种语言等优势。该产品提供免费和付费版本,付费版本提供更多高级功能。定位于个人用户和商业用户。
© 2024 AIbase 备案号:闽ICP备08105208号-14