需求人群:
"Alchemist的目标受众包括建筑师、艺术家、设计师以及任何需要对图像中物体材质属性进行精细调整的用户。这项技术特别适合需要在设计过程中快速迭代和可视化材质变化的专业人士,以及那些希望在不牺牲图像真实感的情况下,对图像进行创意编辑的用户。"
使用场景示例:
建筑师使用Alchemist快速预览房间重新粉刷后的效果。
艺术家利用这项技术为数字艺术作品调整材质感,以增强视觉冲击力。
设计师使用Alchemist在产品原型设计阶段,对材质进行实验性编辑。
产品特色:
提供对图像中物体材质属性的精确控制,如颜色、光泽度或透明度。
通过合成数据集的微调,实现对物体材质属性的精细调整。
在保持图像真实感的同时,允许用户对物体的材质属性进行编辑。
能够处理复杂的视觉组件分解问题,如区分物体的阴影和颜色。
支持将编辑后的图像用于3D任务,如NeRF重建,以合成新视角的场景。
在用户研究中,与基线方法相比,Alchemist的编辑结果更真实,更受用户青睐。
使用教程:
1. 选择一个需要编辑材质属性的图像。
2. 确定想要调整的材质属性,如颜色、光泽度或透明度。
3. 使用Alchemist模型输入图像和编辑指令。
4. 根据需要调整编辑强度,定义属性变化的程度。
5. 观察Alchemist模型输出的编辑结果,并根据反馈进行微调。
6. 如果满意,将编辑后的图像用于进一步的设计或3D任务。
浏览量:7
最新流量情况
月访问量
895.76k
平均访问时长
00:00:46
每次访问页数
1.87
跳出率
59.74%
流量来源
直接访问
35.24%
自然搜索
52.95%
邮件
0.08%
外链引荐
9.00%
社交媒体
2.54%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
孟加拉国
6.99%
中国
4.14%
英国
3.70%
印度
9.43%
韩国
3.62%
美国
29.58%
图像材质属性编辑技术
Alchemist是一种利用预训练的文本到图像模型和合成数据,允许用户在图像中编辑物体的材质属性的技术。它通过微调合成数据集,实现了对物体的特定材质属性(如粗糙度、金属感、基础颜色饱和度和透明度)的参数化编辑控制。这项技术的主要优点包括在保持物体几何形状和图像光照不变的同时,能够改变物体的属性,甚至在物体透明化时,能够真实地填充背后的背景、隐藏的内部结构和折射光效果。
企业自定义AI工作流程的蓝图
NVIDIA NIM™ Agent Blueprints是一系列预训练的、可定制的AI工作流程,旨在为数百万企业开发者提供构建和部署生成式AI应用程序的全套软件工具。这些蓝图支持开发者使用一个或多个AI代理创建AI应用程序,包括客户服务头像、检索增强生成和药物发现虚拟筛选等典型用例。通过NIM Agent Blueprints,企业可以使用自己的业务数据修改蓝图,并在加速数据中心和云上运行生成式AI应用程序,实现数据驱动的AI飞轮效应。
高效低成本的小型语言模型
Phi-3是微软Azure推出的一系列小型语言模型(SLMs),具有突破性的性能,同时成本和延迟都很低。这些模型专为生成式AI解决方案设计,体积更小,计算需求更低。Phi-3模型遵循微软AI原则开发,包括责任、透明度、公平性、可靠性和安全性、隐私和安全性以及包容性,确保了安全性。此外,Phi-3还提供了本地部署、准确相关回答、低延迟场景部署、成本受限任务处理和定制化精度等功能。
从文本描述生成高质量的3D室内场景。
SceneTeller是一个创新的3D场景生成平台,它利用最新的生成式人工智能技术,允许用户通过自然语言描述来设计室内3D场景。这项技术大大降低了3D设计的技术门槛,使得非专业用户也能轻松创建个性化的3D空间。产品的主要优点包括易用性、高效率和创意自由度。
新一代AI工程师在GitHub上构建
GitHub Models是GitHub推出的新一代AI模型服务,旨在帮助开发者成为AI工程师。它将行业领先的大型和小型语言模型直接集成到GitHub平台,让超过1亿用户能够直接在GitHub上访问和使用这些模型。GitHub Models提供了一个交互式的模型游乐场,用户可以在这里测试不同的提示和模型参数,无需支付费用。此外,GitHub Models与Codespaces和VS Code集成,允许开发者在开发环境中无缝使用这些模型,并通过Azure AI实现生产部署,提供企业级安全和数据隐私保护。
让任何人的声音听起来调皮/有趣
bleep_that_sht 是一个使用 Python 编写的应用程序,它利用 Whisper 转录模型来转录音频,然后根据用户选择的关键词,使用相应的时间戳来替换为哔声。所有处理都在本地完成,无需上传数据,保护用户隐私。
本地机器智能的探索之旅
Local III是一个由超过100名来自世界各地的开发者共同开发的更新,它提供了易于使用的本地模型浏览器,深度集成了推理引擎如Ollama,为开放模型如Llama3、Moondream和Codestral定制了配置文件,并提供了一套设置,使离线代码解释更加可靠。Local III还引入了一个免费的、托管的、可选的模型通过解释器--model i。与i模型的对话将用于训练我们自己的开源计算机控制语言模型。
系统性调研生成式AI的提示技术
The Prompt Report 是一份系统性调研报告,专注于生成式人工智能(GenAI)的提示技术。它通过结合人类和机器的努力,从多个数据库中处理了4797条记录,提取出1565篇相关论文。报告提供了58种基于文本的技术,并补充了多模态和多语言技术的广泛集合。其目标是提供一个易于理解和实施的提示技术目录,并回顾了作为提示扩展的代理,包括评估输出和设计有助于安全性和安全性的提示的方法。此外,报告还应用提示技术在两个案例研究中进行了实践。
用于训练大型语言模型的开源合成数据生成管道。
Nemotron-4 340B是NVIDIA发布的一系列开放模型,专为生成合成数据以训练大型语言模型(LLMs)而设计。这些模型经过优化,可以与NVIDIA NeMo和NVIDIA TensorRT-LLM配合使用,以提高训练和推理的效率。Nemotron-4 340B包括基础、指令和奖励模型,形成一个生成合成数据的管道,用于训练和完善LLMs。这些模型在Hugging Face上提供下载,并很快将在ai.nvidia.com上提供,作为NVIDIA NIM微服务的一部分。
NVIDIA ACE是一套用于创建数字人类、AI非玩家角色和交互式头像的生成式AI技术套件。
NVIDIA ACE提供了一套先进的生成式AI模型和微服务,易于部署且性能优越。这些AI模型基于商业安全、负责任许可的数据进行训练,并通过微调和防护措施确保无论用户输入如何,都能提供准确、恰当、切题的结果。ACE支持灵活的部署选项,可以在云端或NVIDIA RTX AI PC上部署和运行。此外,ACE还提供了数字人类工作流程,允许开发者将ACE NIMs集成到他们的产品、工具、服务或游戏中,用于特定领域的AI工作流程,如NPC和客户服务助手。NVIDIA还与Inworld AI合作,展示了将NVIDIA ACE集成到一个端到端NPC平台中的示例,该平台在Unreal Engine 5中提供了尖端的视觉效果。
加速个性化LLM的来临。
Prem是一个加速个性化LLM(小型语言模型)发展的人工智能平台。它提供了一个直观易用的开发平台,用于构建生成式AI解决方案。Prem还提供了定制化的模型微调和训练服务,以满足独特的业务需求。通过Prem,用户可以获得对AI的最大潜力的掌控和所有权,而无需深入的专业知识。
ProJourney AI是一个生成式AI工具,为设计师和创作者提供了无需通过Discord的Midjourney生成器的访问权限,轻松通过文本提示生成高质量图像。
ProJourney AI是一个生成式AI工具,为设计师和创作者提供了访问Midjourney生成器的能力。它可以通过简单的文本提示生成高质量的图像,并且不需要将这些图像公开共享在Discord上。该工具的主要优点是提供了私密的图像生成功能,并且用户可以自由控制生成图像的质量和风格。ProJourney AI适用于各种设计任务,包括平面设计、插画、用户界面设计等。
一个开源的、增强检索的生成式聊天机器人。
Verba 是一个开源应用程序,旨在提供端到端、流畅且用户友好的检索增强生成(RAG)接口。它结合了最先进的RAG技术和Weaviate的上下文感知数据库,支持本地或通过云部署,可以轻松探索数据集并提取洞见。
使用生成式人工智能改变搜索体验
GenSearch是一款使用生成式人工智能技术的搜索引擎,通过强大的功能和用户友好的设计,提供精确的搜索结果,增强用户参与度和满意度。它不需要编写任何代码即可实现搜索引擎的部署和交付。GenSearch正在不断改进,计划推出API接口、数据驱动洞察和对话式搜索等功能。
隐私第一的企业生成式AI平台
Omnifact是专为工作场所打造的隐私第一的生成式AI平台。充分利用生成式AI的潜力,同时保护您的数据主权。Omnifact提供安全的企业级生成式AI平台,旨在提升生产力,简化知识管理,推动创新,并优先考虑数据安全和隐私。
MediaTek DaVinci 是一个基于MediaTek 的生成式AI平台
MediaTek DaVinci 是一个强大的生成式AI平台,能提供自然流畅的人工智能对话体验,充当个人助理。平台还能整合多种信息源,帮助用户全方位了解相关信息。平台可无限扩展,用户可通过插件和智能助手扩展功能,满足各种需求。平台上还有开发者自由创作的插件、模板和知识库,为用户提供独特的AI体验。
生成式AI资源中心,覆盖研究、面试资源、笔记本等
这个GitHub仓库是一个集中存放生成式人工智能相关资源的中心,包括每月最新研究论文、面试题库、课程材料、代码笔记本等。内容定期更新,旨在让开发者及从业人员能够及时跟进最新进展,提高生产力。主要资源包括论文摘要、面试问题分类、免费课程列表、开源笔记本等,还包括一些使用场景和范例。
基于稳定扩散生成高质量动漫风格图像的文本到图像模型
Animagine XL 3.1 是一款能够基于文本提示生成高质量动漫风格图像的文本到图像生成模型。它建立在稳定扩散 XL 的基础之上,专门针对动漫风格进行了优化。该模型具有更广泛的动漫角色知识、优化过的数据集和新的美学标签,从而提高了生成图像的质量和准确性。它旨在为动漫爱好者、艺术家和内容创作者提供有价值的资源。
借助生成式AI创建一致性角色和场景的视觉故事
Katalist是一款面向电影制片人、广告商和内容创作者的在线工具。它利用生成式AI技术帮助用户可视化创意构思,轻松创建故事板、视频创意和创意推介。Katalist的核心功能是可以分析剧本,自动提取人物、场景和活动,一键生成相应的视觉素材。用户无需任何AI专业知识,即可通过Katalist便捷地使用生成式AI技术。Katalist确保整个故事板中的角色、场景保持一致性,并允许用户轻松切换角色或场景元素。相比传统方式,使用Katalist可将内容制作周期缩短4倍。该工具定位于简化内容创作流程,帮助创作者在构思阶段高效可视化创意,优化沟通效率,并为拍摄当天做好准备规划。Katalist提供免费试用。
省时写个性化销售邮件,使用生成式AI和行业最佳实践。
Regie.ai是一个AI辅助销售邮件的工具,可以帮助繁忙的销售代表和SDR节省时间。通过使用我们的AI,您可以将制作个性化销售邮件的时间减少90%。我们的AI可以在几秒钟内研究联系人并撰写个性化邮件,每次都提供独特的信息,让您的潜在客户感到满意。使用AI提示和基于人物的CMS内容,摒弃模板,每次生成独特的消息。使用我们内置的CMS来访问您的电子邮件中所需的完美素材,消除对昂贵的CMS平台的需求。AI可以在您喜爱的销售推广平台、电子邮件服务或社交媒体平台内发挥作用。使用Regie.ai的Chrome扩展程序,在几秒钟内起草和发送相关的销售邮件。
新一代文本到图像生成AI模型
Stable Diffusion 3是stability公司推出的新一代文本到图像生成AI模型,相比早期版本在多主体提示、图像质量和拼写能力等方面都有了极大提升。该模型采用了diffusion transformer架构和flow matching技术,参数量范围从800M到8B不等,提供了从个人用户到企业客户多种部署方案。主要功能包括:高质量图片生成、支持多主体、拼写错误纠正等。典型应用场景有:数字艺术创作、图片编辑、游戏和电影制作等。相比早期版本,该AI助手具有更强大的理解和创作能力,是新一代安全、开放、普惠的生成式AI典范。
先进机器智能的下一步
Meta 发布了 Video Joint Embedding Predictive Architecture (V-JEPA) 模型,这是推进机器智能的关键一步,带来对世界更具实地认识。
构建企业级生成式AI应用程序
Promptly是一款企业级生成式AI应用程序构建平台,无需编码即可快速构建生成式AI应用、代理和聊天机器人。您可以使用Promptly的模块化平台从原型到生产部署您的AI应用,无缝集成自己的数据和基于GPT的模型。
Rufus - 专业购物助手,基于生成式AI的对话式购物体验
Rufus是一款基于生成式AI的专业购物助手,接受Amazon广泛的产品目录、顾客评价、社区问答以及网络信息的培训。它能够回答关于购物需求、产品和比较的问题,根据对话背景提供建议,并在Amazon常用的购物体验中促进产品发现。Rufus将在Amazon移动应用的小部分客户中推出beta版本,并将在未来几周逐步向更多的美国客户推出。
灵活、可共享、可重复使用的生成式AI数据准备和评估工具
Unitxt是一款创新的库,专为生成式语言模型量身定制,用于定制文本数据准备和评估。Unitxt与HuggingFace和LM-eval-harness等常用库进行原生集成,并将处理流程拆分为模块化组件,实现了易定制和共享。这些组件包括模型特定格式、任务提示等全面的数据集处理定义。Unitxt-Catalog集中了这些组件,促进了现代文本数据工作流中的协作和探索。除了是一款工具,Unitxt还是一个社区驱动的平台,赋予用户协作构建、分享和推进他们的数据流水线的能力。
Oracle云平台的生成式AI服务
Oracle Generative AI Service是一个全托管的生成式AI服务,可以轻松地将多功能的语言模型集成到各种用例中,包括写作辅助、摘要生成和聊天机器人等。该服务基于Oracle Cloud Infrastructure,提供高性能、面向企业的模型,支持高效的微调和多个用例,安全可靠的企业级的数据管理、安全与管控。
一个快速的AI网关
Portkey的AI网关是应用程序和托管LLM之间的接口。它使用统一的API对OpenAI、Anthropic、Mistral、LLama2、Anyscale、Google Gemini等的API请求进行了优化,从而实现了流畅的路由。该网关快速、轻量,内置重试机制,支持多模型负载均衡,确保应用程序的可靠性和性能。
使用生成式AI赋能人类创造力与生产力
HiDream.ai是一个使用生成式AI来提升人类创造力和生产力的平台。它提供了像Pixeling这样的产品,可以自动生成图像、视频、文字等创意内容,帮助用户提高工作效率,创造更多价值。平台采用自主研发的多模态基础模型,可以处理文本、图像、音频等不同形式的数据,实现多模态的生成。平台面向创意工作者、企事业单位等用户,提供基于订阅的服务模式。用户可以通过WEB页面访问该平台,体验其强大的生成能力。
智能语音识别为照片添加标题
这是一个iOS和Mac应用,使用生成式AI为用户的照片、视频和社交媒体帖子自动生成吸引人的标题和副标题。关键功能包括自动识别照片内容并生成与之匹配的文本,支持自定义风格和词汇量,可直接在Instagram等平台上分享加工后的照片。
多模态多视角视频数据集和基准挑战
Ego-Exo4D 是一个多模态多视角视频数据集和基准挑战,以捕捉技能人类活动的自我中心和外部中心视频为中心。它支持日常生活活动的多模态机器感知研究。该数据集由 839 位佩戴摄像头的志愿者在全球 13 个城市收集,捕捉了 1422 小时的技能人类活动视频。该数据集提供了专家评论、参与者提供的教程样式的叙述和一句话的原子动作描述等三种自然语言数据集,配对视频使用。Ego-Exo4D 还捕获了多视角和多种感知模态,包括多个视角、七个麦克风阵列、两个 IMUs、一个气压计和一个磁强计。数据集记录时严格遵守隐私和伦理政策,参与者的正式同意。欲了解更多信息,请访问官方网站。
© 2024 AIbase 备案号:闽ICP备08105208号-14