需求人群:
"Wan2.1 适合需要高质量视频生成的开发者、研究人员和内容创作者,尤其适用于需要快速生成视频内容的场景,如广告制作、视频特效、教育视频等。其开源特性也使其成为学术研究和技术创新的理想选择。"
使用场景示例:
使用文本描述生成一段关于两只拟人化猫咪在舞台上拳击的视频。
从一张静态的海滩照片生成一段动态的海滩视频,包含海浪、阳光和沙滩。
将一段低分辨率视频升级为高分辨率视频,同时优化画面质量。
产品特色:
支持文本到视频(Text-to-Video)生成,可根据文本描述生成高质量视频。
支持图像到视频(Image-to-Video)生成,能够从静态图像生成动态视频。
支持视频编辑功能,可对现有视频进行修改和优化。
支持多语言文本生成,能够生成包含中文和英文的视频内容。
提供高效的视频 VAE,能够高效编码和解码 1080P 视频,保留时间信息。
使用教程:
1. 克隆仓库:`git clone https://github.com/Wan-Video/Wan2.1.git`
2. 安装依赖:`pip install -r requirements.txt`
3. 下载模型权重:通过 Hugging Face 或 ModelScope 下载模型。
4. 运行生成脚本:使用 `generate.py` 脚本,指定任务类型、模型路径和输入参数。
5. 查看生成结果:根据任务类型,生成的视频或图像将保存在指定路径。
浏览量:188
最新流量情况
月访问量
5.21m
平均访问时长
00:06:29
每次访问页数
6.12
跳出率
35.96%
流量来源
直接访问
52.10%
自然搜索
32.78%
邮件
0.05%
外链引荐
12.82%
社交媒体
2.16%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
13.96%
德国
3.65%
印度
9.02%
俄罗斯
4.03%
美国
19.10%
Wan2.1 是一款开源的先进大规模视频生成模型,支持多种视频生成任务。
Wan2.1 是一款开源的先进大规模视频生成模型,旨在推动视频生成技术的边界。它通过创新的时空变分自编码器(VAE)、可扩展的训练策略、大规模数据构建和自动化评估指标,显著提升了模型的性能和通用性。Wan2.1 支持多种任务,包括文本到视频、图像到视频、视频编辑等,能够生成高质量的视频内容。该模型在多个基准测试中表现优异,甚至超越了一些闭源模型。其开源特性使得研究人员和开发者可以自由使用和扩展该模型,适用于多种应用场景。
On-device Sora 是一个基于扩散模型的移动设备端文本到视频生成项目。
On-device Sora 是一个开源项目,旨在通过线性比例跳跃(LPL)、时间维度标记合并(TDTM)和动态加载并发推理(CI-DL)等技术,实现在移动设备(如 iPhone 15 Pro)上高效的视频生成。该项目基于 Open-Sora 模型开发,能够根据文本输入生成高质量视频。其主要优点包括高效性、低功耗和对移动设备的优化。该技术适用于需要在移动设备上快速生成视频内容的场景,如短视频创作、广告制作等。项目目前开源,用户可以免费使用。
一种用于控制视频扩散模型运动模式的高效方法,支持运动模式的自定义和迁移。
Go with the Flow 是一种创新的视频生成技术,通过使用扭曲噪声代替传统的高斯噪声,实现了对视频扩散模型运动模式的高效控制。该技术无需对原始模型架构进行修改,即可在不增加计算成本的情况下,实现对视频中物体和相机运动的精确控制。其主要优点包括高效性、灵活性和可扩展性,能够广泛应用于图像到视频生成、文本到视频生成等多种场景。该技术由 Netflix Eyeline Studios 等机构的研究人员开发,具有较高的学术价值和商业应用潜力,目前开源免费提供给公众使用。
一个开源项目,用于在浏览器中演示 AI 视频生成模型。
video-starter-kit 是一个强大的开源工具包,用于构建基于 AI 的视频应用。它基于 Next.js、Remotion 和 fal.ai 构建,简化了在浏览器中使用 AI 视频模型的复杂性。该工具包支持多种先进的视频处理功能,如多剪辑视频合成、音频轨道集成和语音支持等,同时提供了开发者友好的工具,如元数据编码和视频处理管道。它适用于需要高效视频生成和处理的开发者和创作者。
实时AI视频生成开源模型
LTXV是Lightricks推出的一个实时AI视频生成开源模型,它代表了视频生成技术的最新发展。LTXV能够提供可扩展的长视频制作能力,优化了GPU和TPU系统,大幅减少了视频生成时间,同时保持了高视觉质量。LTXV的独特之处在于其帧到帧学习技术,确保了帧之间的连贯性,消除了闪烁和场景内的不一致问题。这一技术对于视频制作行业来说是一个巨大的进步,因为它不仅提高了效率,还提升了视频内容的质量。
一个可以在一次传递中生成超逼真的对话的 TTS 模型。
Dia 是一个由 Nari Labs 开发的文本到语音(TTS)模型,具有 1.6 亿参数,能够直接从文本生成高度逼真的对话。该模型支持情感和语调控制,并能够生成非言语交流,如笑声和咳嗽。它的预训练模型权重托管在 Hugging Face 上,适用于英语生成。此产品对于研究和教育用途至关重要,能够推动对话生成技术的发展。
一个互动故事讲述的 AI 平台,通过图像和音频生成视频。
AvatarFX 是一个尖端的 AI 平台,专注于互动故事讲述。用户可以通过上传图片和选择声音,快速生成生动、真实的角色视频。其核心技术是基于 DiT 的扩散视频生成模型,能够高效生成高保真、时序一致的视频,特别适合需要多个角色和对话场景的创作。产品定位在为创作者提供工具,帮助他们实现想象力的无限可能。
全球首个无限时长电影生成模型,开启视频生成新时代
SkyReels-V2 是昆仑万维 SkyReels 团队发布的全球首个使用扩散强迫框架的无限时长电影生成模型。该模型通过结合多模态大语言模型、多阶段预训练、强化学习和扩散强迫框架来实现协同优化,突破了传统视频生成技术在提示词遵循、视觉质量、运动动态和视频时长协调上的重大挑战。它不仅为内容创作者提供了强大的工具,还开启了利用 AI 进行视频叙事和创意表达的无限可能。
基于 Intel Arc GPU 的 AI 图像生成与聊天机器人应用。
AI Playground 是一个开源项目,旨在为用户提供 AI 图像创建、图像风格化和聊天机器人的功能。它专为使用 Intel® Arc™ GPU 的 PC 设计,支持多种生成 AI 库和模型。此应用程序的主要优点在于其强大的图像生成能力和便捷的使用体验。适合 AI 开发者、设计师和爱好者,帮助他们探索和利用先进的 AI 技术。该软件为用户提供了自由选择和下载模型的灵活性,适合各种应用场景。
开源视频生成模型,支持多种生成任务。
Wan2.1-FLF2V-14B 是一个开源的大规模视频生成模型,旨在推动视频生成领域的进步。该模型在多项基准测试中表现优异,支持消费者级 GPU,能够高效生成 480P 和 720P 的视频。它在文本到视频、图像到视频等多个任务中表现出色,具有强大的视觉文本生成能力,适用于各种实际应用场景。
一款基于 Vue3 + ElementPlus 的聊天应用,内置多个大语言模型。
PureChat 是一款结合 AI 和前沿技术的现代聊天应用,采用 Vue3 和 ElementPlus 构建,内置 OpenAI、Ollama、DeepSeek 等大语言模型。其主要优点包括支持 Markdown 渲染和聊天记录截图功能,极大提升了用户的沟通效率与体验。PureChat 致力于为开发者提供一个快速掌握现代技术的平台。
轻松将现有代理框架中的工具、代理和调度器转换为 MCP 服务器。
automcp 是一个开源工具,旨在简化将各种现有代理框架(如 CrewAI、LangGraph 等)转换为 MCP 服务器的过程。这使得开发者可以通过标准化接口更容易地访问这些服务器。该工具支持多种代理框架的部署,并且通过易于使用的 CLI 界面进行操作。适合需要快速集成和部署 AI 代理的开发者,价格免费,适合个人和团队使用。
昆仑万维开源的高性能数学代码推理模型,性能卓越
Skywork-OR1是由昆仑万维天工团队开发的高性能数学代码推理模型。该模型系列在同等参数规模下实现了业界领先的推理性能,突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈。Skywork-OR1系列包括Skywork-OR1-Math-7B、Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview三款模型,分别聚焦数学推理、通用推理和高性能推理任务。此次开源不仅涵盖模型权重,还全面开放了训练数据集和完整训练代码,所有资源均已上传至GitHub和Huggingface平台,为AI社区提供了完全可复现的实践参考。这种全方位的开源策略有助于推动整个AI社区在推理能力研究上的共同进步。
使 AI 能够控制 Android 设备的强大自动化工具。
Droidrun 是一个强大的 Android 自动化工具,旨在使 AI 代理能够无缝地与 Android 应用程序进行互动。它结合了视觉理解和 UI 结构提取,为 AI 提供了一个强大的移动平台。Droidrun 目前处于等待名单阶段,面向个人开发者、小型团队和企业提供不同的解决方案。
Pusa 是一个新颖的视频扩散模型,支持多种视频生成任务。
Pusa 通过帧级噪声控制引入视频扩散建模的创新方法,能够实现高质量的视频生成,适用于多种视频生成任务(文本到视频、图像到视频等)。该模型以其卓越的运动保真度和高效的训练过程,提供了一个开源的解决方案,方便用户进行视频生成任务。
一款通过生成模型提升图像生成一致性的工具。
UNO 是一个基于扩散变换器的多图像条件生成模型,通过引入渐进式跨模态对齐和通用旋转位置嵌入,实现高一致性的图像生成。其主要优点在于增强了对单一或多个主题生成的可控性,适用于各种创意图像生成任务。
一份由自主 AI 代理提供的每日 AI 时事通讯。
AGI News 是一个开源项目,利用自主 AI 代理技术收集并发送最新的 AI 新闻。该项目通过 Firecrawl、Resend 等工具搭建,致力于为用户提供精准及时的 AI 资讯。其主要优势在于自动化的信息收集和快速的信息发布,使得用户能够方便快捷地获取行业动态。
一个开放源代码的 14B 参数编程模型,具备高效的代码推理能力。
DeepCoder-14B-Preview 是一个基于强化学习的代码推理大型语言模型,能够处理长上下文,具有 60.6% 的通过率,适用于编程任务和自动化代码生成。该模型的优势在于其训练方法的创新,提供了比其他模型更优的性能,且完全开源,支持广泛的社区应用和研究。
在视频扩散变换器中合成任何内容的框架。
SkyReels-A2 是一个基于视频扩散变换器的框架,允许用户合成和生成视频内容。该模型通过利用深度学习技术,提供了灵活的创作能力,适合多种视频生成应用,尤其是在动画和特效制作方面。该产品的优点在于其开源特性和高效的模型性能,适合研究人员和开发者使用,且目前不收取费用。
通过训练您的 AI 自我,增强个性,连接世界。
Second Me 是一个开源原型,旨在让用户创造自己的 AI 自我,保留个人特点,并在数字世界中扩展自我。它使用分层记忆建模和用户对齐算法,确保用户数据本地存储且完全私密。这种形式的 AI 不仅帮助用户管理信息,还能与全球网络中的其他 AI 进行交互,从而促进创造力和协作。Second Me 的主要优点在于它保护用户的隐私,让用户真正掌控自己的数字身份,适合技术爱好者、AI 专家和各领域专业人士。此产品当前处于开发阶段,用户可以在 GitHub 上获取最新版本。
LG AI 推出的开源推理 AI 模型,具备卓越的推理能力。
EXAONE Deep 是 LG AI Research 推出的先进推理 AI 模型,标志着韩国在全球 AI 市场中的竞争力。它具备 32 亿参数,表现卓越,尤其在数学和科学问题解决方面展现出色。该模型的发布使得 LG 在 AI 领域迈入了自主决策的时代,其开源特性使得更多开发者能够利用这一技术进行研究与开发。EXAONE Deep 的轻量级和在设备上的模型设计使得其适用于多个行业,包括教育、科学研究、编程等。
NeoBase 是一款开源的 AI 数据库助手,让你用自然语言与数据库交互。
NeoBase 是一款创新的 AI 数据库助手,通过自然语言处理技术让用户能够以对话的方式与数据库进行交互。它支持多种主流数据库,如 PostgreSQL、MySQL、MongoDB 等,并且可以与 OpenAI、Google Gemini 等 LLM 客户端集成。其主要优点是简化了数据库管理流程,降低了技术门槛,使非技术用户也能轻松管理和查询数据。NeoBase 采用开源模式,用户可以根据自身需求进行定制和部署,确保数据安全性和隐私性。它主要面向需要高效管理和分析数据的企业和开发者,旨在提高数据库操作的效率和便捷性。
两个会话型AI代理在确认彼此为AI后切换到声音级协议进行通信
GibberLink是一个基于ggwave数据传输协议的AI通信模型。它允许两个独立的AI代理在对话中识别彼此为AI后,从英语切换到声音级协议进行通信。这种技术展示了AI在识别和切换通信方式上的灵活性,具有重要的研究和应用价值。项目基于开源协议,适合开发者进行二次开发和集成。目前未明确提及价格,但其开源性质意味着开发者可以免费使用和扩展。
Wan2GP 是一个优化后的开源视频生成模型,专为低配置 GPU 用户设计,支持多种视频生成任务。
Wan2GP 是基于 Wan2.1 的改进版本,旨在为低配置 GPU 用户提供高效、低内存占用的视频生成解决方案。该模型通过优化内存管理和加速算法,使得普通用户也能在消费级 GPU 上快速生成高质量的视频内容。它支持多种任务,包括文本到视频、图像到视频、视频编辑等,同时具备强大的视频 VAE 架构,能够高效处理 1080P 视频。Wan2GP 的出现降低了视频生成技术的门槛,使得更多用户能够轻松上手并应用于实际场景。
DeepSeek 是一款先进的 AI 语言模型,擅长逻辑推理、数学和编程任务,提供免费使用。
DeepSeek 是由 High-Flyer 基金支持的中国 AI 实验室开发的先进语言模型,专注于开源模型和创新训练方法。其 R1 系列模型在逻辑推理和问题解决方面表现出色,采用强化学习和混合专家框架优化性能,以低成本实现高效训练。DeepSeek 的开源策略推动了社区创新,同时引发了关于 AI 竞争和开源模型影响力的行业讨论。其免费且无需注册的使用方式进一步降低了用户门槛,适合广泛的应用场景。
一个用于构建Retrieval-Augmented Generation (RAG)应用的开源项目。
bRAG-langchain是一个开源项目,专注于Retrieval-Augmented Generation (RAG)技术的研究与应用。RAG是一种结合了检索和生成的AI技术,通过检索相关文档并生成回答,为用户提供更准确、更丰富的信息。该项目提供了从基础到高级的RAG实现指南,帮助开发者快速上手并构建自己的RAG应用。其主要优点是开源、灵活且易于扩展,适合各种需要自然语言处理和信息检索的应用场景。
SkyReels V1 是一个开源的人类中心视频基础模型,专注于高质量影视级视频生成。
SkyReels V1 是一个基于 HunyuanVideo 微调的人类中心视频生成模型。它通过高质量影视片段训练,能够生成具有电影级质感的视频内容。该模型在开源领域达到了行业领先水平,尤其在面部表情捕捉和场景理解方面表现出色。其主要优点包括开源领先性、先进的面部动画技术和电影级光影美学。该模型适用于需要高质量视频生成的场景,如影视制作、广告创作等,具有广泛的应用前景。
一个基于 AI 的 Hacker News 中文播客项目,每天自动抓取 Hacker News 热门文章并生成中文总结。
Hacker News 每日播报是一个专注于技术领域的内容播客项目。它利用 AI 技术自动抓取 Hacker News 上的热门文章,并生成中文总结,转换为播客内容。该产品旨在帮助中文用户更好地了解全球技术动态,降低信息获取的门槛。其主要优点是内容更新及时、语言通俗易懂,适合技术爱好者和开发者快速获取行业资讯。项目开源免费,定位为技术社区的公益项目。
隐私优先的AI会议助手,自动记录会议笔记,提升会议效率。
Meetily是一款专注于提升会议效率的AI工具,通过实时音频捕捉和转录,自动生成会议总结和行动项。其核心优势在于隐私保护,所有处理均在本地完成,确保数据安全。此外,它采用开源AI模型,成本效益高,适合对隐私和成本敏感的企业或个人使用。Meetily提供多种部署方式,包括免费的自托管版本和付费的专业版,满足不同用户的需求。
© 2025 AIbase 备案号:闽ICP备08105208号-14