需求人群:
"适用于开发者和研究人员,用于构建自定义的文本转语音解决方案。"
使用场景示例:
开发者使用Whisper Speech构建多语言文本转语音应用
研究人员利用Whisper Speech进行语音合成实验
学生团队使用Whisper Speech开发个性化的语音应用
产品特色:
支持多种语言
多种形式的输入
高效的语音合成
灵活的部署方式
浏览量:674
最新流量情况
月访问量
5998.39k
平均访问时长
00:06:02
每次访问页数
6.53
跳出率
41.60%
流量来源
直接访问
65.68%
自然搜索
17.07%
邮件
0.89%
外链引荐
7.55%
社交媒体
8.77%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
俄罗斯
10.88%
美国
8.80%
巴西
7.49%
印度
4.98%
土耳其
4.05%
一键生成带字幕和配音的视频翻译工具
VideoTrans是一款免费开源的视频翻译配音工具。它可以一键识别视频字幕、翻译成其他语言、进行多种语音合成,最终输出带字幕和配音的目标语言视频。该软件使用简单,支持多种翻译和配音引擎,能大幅提高视频翻译的效率。
MetaVoice-1B是一个语音合成模型。
MetaVoice-1B是一个1.2B参数的语音合成基础模型,通过训练10万小时的语音数据而成。它具有以下特点:支持英语情感语调和语气;支持语音克隆;少量数据(1分钟内)就可实现印度语音克隆;无参克隆美式和英式语音(30秒音频);支持长文本语音合成。我们在Apache 2.0许可下免费开源这个模型,可以无限制使用。
从音频生成照片般逼真的人类avatar
audio2photoreal是一个从音频生成照片级逼真avatar的开源项目。它包含了一个pytorch实现,可以从音频中合成交谈中的人类形象。该项目提供了训练代码、测试代码、预训练的运动模型以及数据集访问。它的模型包括人脸扩散模型、人体扩散模型、人体VQ VAE模型和人体引导变换器模型。该项目让研究人员和开发者能够训练自己的模型,并基于语音合成高质量的逼真avatar。
构建你的聊天机器人
Botticelli是一个开源的.NET Core框架,用于构建自己的通用聊天机器人,集成了数据库、队列代理、语音引擎和AI引擎,如GPT-3和ChatGPT。Botticelli跨平台、可靠、易于使用、易于部署,支持Docker,易于与数据库、AI解决方案、语音合成器和队列代理集成,可用于高负载系统的调度。
自托管的开源OpenAI替代品,支持文本、音频、图像生成
LocalAI 是一个自托管的开源 OpenAI 替代品,可在消费级硬件上运行,支持本地或本地部署的文本、音频、图像生成。它提供了 GPT 等模型的文本生成功能,同时支持文本转语音、图像生成等多种功能。由于其开源自托管的特性,用户可以自由定制和部署,不受云端 API 限制,适合对数据隐私和安全性有要求的用户。LocalAI 的定位是为那些寻求自主控制、不依赖于第三方服务的个人用户或组织提供强大的 AI 生成能力。
多语言高质量文本转语音库
MeloTTS是由MyShell.ai开发的多语言文本转语音库,支持英语、西班牙语、法语、中文、日语和韩语。它能够实现实时CPU推理,适用于多种场景,并且对开源社区开放,欢迎贡献。
AI助手,提升工作效率
AI-O是一款功能丰富的AI助手,为您提供日常任务支持并提升工作效率。它包括与GPT-4 Turbo和Vision的聊天、聊天整理、导入ChatGPT历史记录、自定义提示保存、语音输入与文本转语音、全面支持Markdown格式等功能。未来还将推出AI写作助手、AI邮件助手、AI翻译等功能,并将添加开源及未经审查的模型。此外,用户还可创建自定义AI助手、知识库以及自定义AI自动化和工作流。
将文本转换为图像或语音的开源AI模型
Text2Multimedia是一款使用开源AI模型将文本转换为图像或语音的工具。该工具提供了文本转图像和文本转语音的功能,用户可以通过描述文本来生成对应的视觉或声音表达。生成的图像和音频质量取决于算法的复杂性和训练数据的数量。这项技术可以用于艺术创作、设计资产以及教育材料的制作,是一种表达创意的强大工具。
通过麦克风与ChatGPT交流并听到其语音回复。
Talk-to-ChatGPT是一个通过麦克风与ChatGPT交流并听到其语音回复的Chrome插件。它使用了语音识别和文本转语音技术。您无需键盘即可与ChatGPT进行互动!它完全免费且开源。 打开ChatGPT首页即可使用。页面右上角会出现一个小框 - 点击“开始”按钮即可开始使用。您还可以调整设置:语言、速度、音调... 该插件支持Google Chrome API的所有语音识别和文本转语音语言,这意味着支持所有主要语言。您还可以使用ElevenLabs API来访问无数的ChatGPT语音。
开源基础模型,用于代码智能任务,支持116种编程语言。
Granite Code Models 是 IBM 开发的一系列开源基础模型,专为代码生成任务设计,如修复错误、解释代码、文档化代码等。这些模型在多种编程语言上进行了训练,并在不同的代码相关任务上达到了最先进的性能。主要优点包括全面的性能、企业级的信任度以及遵循 IBM 的 AI 伦理原则进行训练。
Prompto是一个开源的网络应用程序,旨在使与LLM的交互简单高效。
Prompto是一个开源的网页应用程序,旨在使与大型语言模型(LLMs)的交互简单高效。它可以轻松切换不同的LLMs,通过调整温度设置来调整LLM的创造力和风险水平,提供聊天机器人界面和笔记本界面,可以创建常用提示的模板,并且在浏览器中运行,确保流畅响应的体验。所有设置和聊天记录仅存储在浏览器的本地存储中,保护用户隐私。
基于2千亿MoE模型的领先AI技术,提供超低价格和越级场景体验。
DeepSeek-V2是一款基于2千亿参数量的MoE(Mixture of Experts)模型的AI技术产品,它在对话官网和API上全面上线,提供领先性能和超低价格。该产品在中文综合能力(AlignBench)和英文综合能力(MT-Bench)的评测中表现出色,与GPT-4-Turbo等闭源模型处于同一梯队。DeepSeek-V2支持128K上下文的开源模型,而对话官网/API支持32K上下文。产品的主要优点包括即刻接入、能力卓越、价格低廉,并且兼容OpenAI API接口,提供丝滑的体验。
为真实世界机器人提供最先进的机器学习模型、数据集和工具。
LeRobot 是一个旨在降低进入机器人领域的门槛,让每个人都能贡献并从共享数据集和预训练模型中受益的开源项目。它包含了在真实世界中经过验证的最先进的方法,特别关注模仿学习和强化学习。LeRobot 提供了一组预训练模型、带有人类收集演示的数据集和模拟环境,以便用户无需组装机器人即可开始。未来几周内,计划增加对最实惠和最有能力的真实世界机器人的支持。
快速集成生产就绪的AI助手,提升产品智能。
CopilotKit是一个旨在简化AI助手集成过程的开源工具。它允许开发者快速创建能够理解上下文、执行动作并从任何数据源获取知识的智能助手。产品的主要优点包括提高生产效率、增强用户参与度,以及通过自动化和智能化提升用户体验。CopilotKit的背景是响应市场对高效、智能工具的需求,定位于帮助开发者快速实现AI技术的商业化应用。
用于评估其他语言模型的开源工具集
Prometheus-Eval 是一个用于评估大型语言模型(LLM)在生成任务中表现的开源工具集。它提供了一个简单的接口,使用 Prometheus 模型来评估指令和响应对。Prometheus 2 模型支持直接评估(绝对评分)和成对排名(相对评分),能够模拟人类判断和专有的基于语言模型的评估,解决了公平性、可控性和可负担性的问题。
致力于收录开源社区的phi3训练变体版本,整理训练、推理、部署教程。
phi3-Chinese是一个公共的GitHub仓库,专注于收集和整理开源社区中关于phi3模型的各种训练变体版本。它不仅提供了不同版本的phi3模型下载链接,还包含了训练、推理、部署的相关教程,旨在帮助开发者更好地理解和使用phi3模型。
StoryDiffusion 能够通过生成一致的图像和视频来创造魔法故事。
StoryDiffusion 是一个开源的图像和视频生成模型,它通过一致自注意力机制和运动预测器,能够生成连贯的长序列图像和视频。这个模型的主要优点在于它能够生成具有角色一致性的图像,并且可以扩展到视频生成,为用户提供了一个创造长视频的新方法。该模型对AI驱动的图像和视频生成领域有积极的影响,并且鼓励用户负责任地使用该工具。
一款开源的浏览器扩展,利用AI生成吸引人的社交媒体回复,促进社交增长。
ollama-reply是一个开源的浏览器扩展,它利用Ollama Llama3模型的强大功能来生成吸引人的社交媒体回复,旨在促进用户的社交增长。这个工具被设计为MagicReply的免费和开源替代品。它不仅免费使用,而且高度可定制,可以适应任何Ollama模型,并根据用户的需求调整回复内容。
开源的多功能AI平台,专注于提升用户体验和生产力。
Omniplex是一个开源的AI平台,它致力于通过建立核心功能和基本特性来提升用户体验。该平台正在积极开发中,专注于实现最佳实践、优化代码库,并引入新特性。Omniplex使用TypeScript作为编程语言,React作为前端框架,Next.js作为Web框架,并结合了Firebase、Vercel AI SDK等技术栈。
AI代码查找器,快速找到AI论文的代码实现
AI Code Finder是一个免费的浏览器插件,可以快速找到任何AI研究论文的代码实现。它能够自动在Google、ArXiv、学术搜索引擎、论坛等网站上找到与论文相关的代码链接,并提供CODE按钮供用户点击跳转到开源代码实现。用户还可以创建提醒以获取最新的代码实现、作者的最新工作和最新进展。此插件适用于从事人工智能、数据科学、计算机视觉、语音识别、深度学习和大型语言模型等领域的工程师、研究人员、开发人员和技术领导者。
开源框架,用于构建模块化的生产级应用程序。
Cognita 是一个开源框架,用于组织 RAG(Retrieval Augmented Generation)代码库,并提供一个前端界面,以便在不同的 RAG 定制中进行实验。它提供了一种简单的方法来组织代码库,使得在本地测试变得容易,同时也能够部署到生产环境中。Cognita 使用 Langchain/Llamaindex 作为底层技术,并提供了一个组织结构,使得每个 RAG 组件都是模块化的、API 驱动的,并且易于扩展。
下一代本地优先的大型语言模型(LLMs)
anime.gf 是由 moecorp 发起的下一代本地优先的大型语言模型(LLMs),目前正处于积极开发阶段。它代表了一种新兴的本地化和开源的人工智能技术,旨在提供更高效、更个性化的用户体验。
开源代码库,为HuggingChat应用提供动力
chat-ui是一个开源的聊天界面,使用开源模型如OpenAssistant或Llama。它是一个SvelteKit应用程序,为hf.co/chat上的HuggingChat应用提供支持。该产品允许用户通过自定义配置来运行和部署自己的Chat UI实例,支持多种语言模型和功能,如Web搜索、自定义模型等。
开源项目,实现AI音乐服务的API接口
Suno API是一个开源项目,允许用户设置自己的Suno AI音乐服务API。它实现了app.suno.ai的创建API,兼容OpenAI的API格式,支持自定义模式,一键部署到Vercel,并且拥有开放源代码许可证,允许自由集成和修改。
一种用于图像和文本数据的先进机器学习模型,专注于数据质量和透明度。
MetaCLIP是一个开源的机器学习模型,用于图像和文本的联合表示学习。它通过一个简单算法对CLIP数据进行筛选,不依赖于先前模型的过滤,从而提高了数据的质量和透明度。MetaCLIP的主要贡献包括无过滤的数据筛选、透明的训练数据分布、可扩展的算法和标准化的CLIP训练设置。该模型强调数据质量的重要性,并提供预训练模型,以支持研究人员和开发者进行控制实验和公平比较。
通过自然语言生成SQL查询,简化数据库交互。
Vanna是一个使用Retrieval-Augmented Generation (RAG) 技术的开源Python框架,用于SQL生成和相关功能。它通过训练RAG模型,将自然语言问题转换为SQL查询,从而允许用户以提问的形式与数据库进行交互。Vanna的主要优点包括高准确度、安全性、私有性、自学习能力,并且支持任何SQL数据库。
一个开源的聊天机器人,能够解释概念、写诗、编程、解逻辑谜题。
Chat With Llama 3 是一个开源的聊天机器人,由Meta AI开发。它能够进行多种智能对话,包括解释复杂概念、创作诗歌、编写代码、解决逻辑谜题,甚至帮助用户给宠物起名。这个聊天机器人的主要优点在于它的多功能性和开源性,使其可以被广泛地应用于各种场景,并且可以根据需要进行定制和改进。
© 2024 AIbase 备案号:闽ICP备2023012347号-1