使用线条生成深度风格图像
Line2Depth SD 1.5是一个模型,可以利用像Canny、线条、Softedge等控制网络,仅通过线条创建具有深度感的图像。在提示中添加'depth, 3d'。Lora文件名后的数字表示合并的Lora数量,每个将产生不同的结果,因此请选择一个效果较好的。
强大的数学和编程模型,具备高度连贯性和多轮对话能力。
Mistral-22b-v.02 是一个强大的模型,展现出出色的数学才能和编程能力。相较于V1,V2模型在连贯性和多轮对话能力方面有显著提升。该模型经过重新调整取消了审查,能够回答任何问题。训练数据主要包括多轮对话,特别强调编程内容。此外,模型具备智能体能力,可执行真实世界任务。训练采用了32k的上下文长度。在使用时需遵循GUANACO提示格式。
Google开发者平台推出的下一代Gemini 1.5 Pro模型
Gemini 1.5 Pro是Google开发者平台推出的下一代AI模型,支持语音理解、系统指令、JSON输出等新功能,并推出了新一代文本嵌入模型Gecko,性能大幅提升。开发者可以在Google AI Studio中获取API密钥并开始使用。
基于开发者构建的生产 AI 平台
Fireworks 与世界领先的生成式 AI 研究人员合作,以最快的速度提供最佳模型。拥有经 Fireworks 精心筛选和优化的模型,以及企业级吞吐量和专业的技术支持。定位为最快速且最可靠的 AI 平台。
用于自动驾驶的大规模视频生成模型
GenAD是由上海人工智能实验室联合香港科技大学、德国图宾根大学和香港大学共同推出的首个大规模自动驾驶视频生成模型。它通过预测和模拟真实世界场景,为自动驾驶技术的研究和应用提供支撑。GenAD在理解复杂动态环境、适应开放世界场景、精准预测等方面具有较强能力,能够通过语言和行车轨迹进行控制,并展现出应用于自动驾驶规划任务的潜力,有助于提高行车安全性和效率。
用于人形机器人学习的通用基础模型
NVIDIA Project GR00T是一种通用基础模型,可在仿真和真实世界中改变人形机器人的学习方式。通过在NVIDIA GPU加速模拟中进行训练,GR00T使得人形机器人能够从少量的人类演示中通过模仿学习和NVIDIA Isaac Lab进行强化学习,并可从视频数据生成机器人动作。GR00T模型接受多模态指令和过去的交互作为输入,并输出机器人需要执行的动作。
视频理解基础模型
VideoPrism是一个通用的视频编码模型,能够在各种视频理解任务上取得领先的性能,包括分类、定位、检索、字幕生成和问答等。其创新点在于预训练的数据集非常大且多样,包含3600万高质量的视频-文本对,以及5.82亿带有嘈杂文本的视频剪辑。预训练采用两阶段策略,先利用对比学习匹配视频和文本,然后预测遮蔽的视频块,充分利用不同的监督信号。一个固定的VideoPrism模型可以直接适配到下游任务,并在30个视频理解基准上刷新状态最优成绩。
扩展3D场景生成模型
BlockFusion是一种基于扩散的模型,可以生成3D场景,并无缝地将新的块整合到场景中。它通过对随机裁剪自完整3D场景网格的3D块数据集进行训练。通过逐块拟合,所有训练块都被转换为混合神经场:其中包含几何特征的三面体,然后是用于解码有符号距离值的多层感知器(MLP)。变分自动编码器用于将三面体压缩到潜在的三面体空间,对其进行去噪扩散处理。扩散应用于潜在表示,可以实现高质量和多样化的3D场景生成。在生成过程中扩展场景时,只需附加空块以与当前场景重叠,并外推现有的潜在三面体以填充新块。外推是通过在去噪迭代过程中使用来自重叠三面体的特征样本来调节生成过程完成的。潜在三面体外推产生语义和几何上有意义的过渡,与现有场景和谐地融合。使用2D布局调节机制来控制场景元素的放置和排列。实验结果表明,BlockFusion能够生成多样化、几何一致且质量高的室内外大型3D场景。
数学 7b 模型,帮助解决数学问题。
Internlm2 Math 7b 是一个基于 Hugging Face 平台的数学模型,主要用于解决数学问题。它能够处理各种数学题目,包括代数、几何、概率统计等。使用该模型可以提供准确的数学计算和解答,帮助用户学习和理解数学知识。Internlm2 Math 7b 提供简单易用的 API 接口,可以方便地集成到其他应用程序中。该模型基于深度学习技术,具有较高的准确性和可靠性。它适用于教育领域的数学辅助学习、作业辅导等场景。
发现由社区创造的令人惊叹的机器学习应用
Scepter Studio 是由 modelscope 开发的 Hugging Face Space。它是一个平台,用户可以发现由社区创造的令人惊叹的机器学习应用。Scepter Studio 提供了各种模型和应用程序,用户可以在其中浏览、使用和共享各种机器学习模型。它为用户提供了方便的方式来探索和利用最新的机器学习技术,以解决各种问题。
文本转音乐和音频
MAGNeT是一个提供各种人工智能模型和数据集的社区平台。用户可以在平台上找到各种先进的自然语言处理和机器学习模型,以及相关的数据集。该平台还提供了一系列解决方案,包括文本到语音转换、图像处理等。MAGNeT定位于为开发人员、研究人员和企业提供高质量的人工智能模型和数据集。
在线生图的 AI 模型分享社区
吐司 Tusi.Art 是一个在线生图的 AI 模型分享社区,用户可以在这里分享和使用 AI 模型进行图像创作。该平台提供免费的在线生图服务,用户可以上传自己的模型或者使用其他人分享的模型进行图像生成。通过吐司 Tusi.Art,用户可以轻松创建出独特、有趣的图像作品。
LiteLlama-460M-1T: 减小规模的 Llama
LiteLlama-460M-1T 是一个开源的人工智能模型,使用 1T 个令牌进行训练,具有 460M 个参数。它是 Meta AI 的 LLaMa 2 的一个缩减版本,用于提供更小的模型规模。
3D人物生成模型
En3D是一个提供先进自然语言处理模型的平台。他们提供了各种各样的模型和数据集,以帮助开发者构建和部署自然语言处理应用。En3D平台的优势在于提供了大量预训练模型和方便的部署工具,使得开发者能够快速、高效地构建自然语言处理应用。
Midjourney v6让社区用户在冬季休假期间测试alpha版模型
Midjourney v6是一个图像生成模型,具有更准确的提示追随、更长的提示、提高的一致性和模型知识、改进的图像提示和混音模式等功能。该模型适用于生产力、设计、写作等场景。Midjourney v6在冬季休假期间开放给社区进行测试,目前是alpha版本,功能和定价可能会有所变化。
多语言模型问答助手
Snack AI是一款多语言模型问答助手,可以同时向多个语言模型提问并获取答案。它能够帮助用户快速获取准确的信息,并提供丰富的功能和使用场景。Snack AI的定价灵活多样,适合个人用户和企业用户的不同需求。
高质量3D对象生成模型
Stable Zero123是一种用于视图条件图像生成的内部训练模型。与之前的尖端技术Zero123-XL相比,Stable Zero123产生了显着改进的结果。它通过三项关键创新实现了这一目标:1. 从Objaverse中大幅过滤的改进训练数据集,仅保留高质量的3D对象,并且比以前的方法更加真实地渲染。2. 在训练和推断过程中,我们为模型提供了估计的摄像机角度。这种高程条件使其能够做出更明智、更高质量的预测。3. 预先计算的数据集(预先计算的潜变量)和支持更高批处理量的改进数据加载器,再加上第一项创新,使得训练效率比Zero123-XL提高了40倍。该模型现在已经在Hugging Face上发布,以便研究人员和非商业用户下载和进行实验。
© 2024 AIbase 备案号:闽ICP备2023012347号-1