需求人群:
"目标受众为技术开发者、AI研究者和对自然语言处理有兴趣的用户。他们可以利用OpenVoiceChat快速构建语音交互应用,或在研究中探索LLM的潜力。"
使用场景示例:
开发者使用OpenVoiceChat创建智能家居控制中心,通过语音指令控制家中设备。
教育机构利用该模型开发语言学习应用,帮助学生练习发音和语言理解。
企业集成OpenVoiceChat到客服系统中,提供24/7的AI语音客服服务。
产品特色:
支持多种STT、TTS和LLM模型,易于集成和替换。
支持对话中的打断,提供更自然的交流体验。
提供抽象化的API接口,易于使用和扩展。
目标是成为商业闭源解决方案的开源替代。
支持自定义功能和贡献,鼓励社区参与。
持续更新,包含最新的技术改进和功能增强。
使用教程:
访问OpenVoiceChat的GitHub页面,了解项目详情。
阅读文档,了解如何安装和配置所需的STT、TTS和LLM模型。
根据个人需求修改代码,实现特定功能的定制。
运行main.py文件,开始与LLM进行语音对话。
利用提供的API接口扩展功能,如增加新的语音识别引擎或TTS声音。
参与社区,贡献代码或提供反馈,共同推动项目发展。
浏览量:33
与大型语言模型进行自然的语音对话
OpenVoiceChat是一个开源项目,旨在提供一个与大型语言模型(LLM)进行自然语音对话的平台。它支持多种语音识别(STT)、文本到语音(TTS)和LLM模型,允许用户通过语音与AI进行交互。项目采用Apache-2.0许可,强调开放性和易用性,目标是成为封闭商业实现的开源替代品。
开源的语音到语音转换模块
speech-to-speech 是一个开源的模块化GPT4-o项目,通过语音活动检测、语音转文本、语言模型和文本转语音等连续部分实现语音到语音的转换。它利用了Transformers库和Hugging Face hub上可用的模型,提供了高度的模块化和灵活性。
300行代码实现基于LLM的语音转录。
WeST是一个开源的语音识别转录模型,以300行代码的简洁形式,基于大型语言模型(LLM)实现语音到文本的转换。它由一个大型语言模型、一个语音编码器和一个投影器组成,其中仅投影器部分可训练。WeST的开发灵感来源于SLAM-ASR和LLaMA 3.1,旨在通过简化的代码实现高效的语音识别功能。
沟通无界,让每次对话都创造价值。
心辰Lingo语音大模型是一款先进的人工智能语音模型,专注于提供高效、准确的语音识别和处理服务。它能够理解并处理自然语言,使得人机交互更加流畅和自然。该模型背后依托西湖心辰强大的AI技术,致力于在各种场景下提供高质量的语音交互体验。
世界顶尖的开源大型语言模型
Reflection Llama-3.1 70B 是目前世界上顶尖的开源大型语言模型(LLM),采用名为 Reflection-Tuning 的新技术进行训练,使模型能够检测其推理中的错误并进行修正。该模型在合成数据上进行了训练,这些数据由 Glaive 生成。对于正在训练模型的用户来说,Glaive 是一个非常出色的工具。该模型使用标准的 Llama 3.1 聊天格式,通过特殊的标签来区分模型的内部思考和最终答案,从而提升用户体验。
高效开源的大型语言模型
OLMoE-1B-7B 是一个具有1亿活跃参数和7亿总参数的专家混合型大型语言模型(LLM),于2024年9月发布。该模型在成本相似的模型中表现卓越,与更大的模型如Llama2-13B竞争。OLMoE完全开源,支持多种功能,包括文本生成、模型训练和部署等。
开源的专家混合语言模型,具有1.3亿活跃参数。
OLMoE是一个完全开放的、最先进的专家混合模型,具有1.3亿活跃参数和6.9亿总参数。该模型的所有数据、代码和日志都已发布。它提供了论文'OLMoE: Open Mixture-of-Experts Language Models'的所有资源概览。该模型在预训练、微调、适应和评估方面都具有重要应用,是自然语言处理领域的一个里程碑。
AI工具目录,发现最佳AI工具
Aixploria是一个专注于人工智能的网站,提供在线AI工具目录,帮助用户发现和选择满足其需求的最佳AI工具。该平台以简化的设计和直观的搜索引擎,让用户能够轻松地通过关键词搜索,找到各种AI应用。Aixploria不仅提供工具列表,还发布关于每个AI如何工作的文章,帮助用户理解最新趋势和最受欢迎的应用。此外,Aixploria还设有实时更新的'top 10 AI'专区,方便用户快速了解每个类别中的顶级AI工具。Aixploria适合所有对AI感兴趣的人,无论是初学者还是专家,都能在这里找到有价值的信息。
一个用于与ChatGPT模型交互的提示集合
Awesome ChatGPT Prompts是一个开源仓库,收集了用于与ChatGPT模型交互的提示示例。这个仓库鼓励用户添加自己的提示,并使用ChatGPT生成新的提示。
RWKV v6 Finch 14B,开源大模型,高效处理长文本。
RWKV v6 Finch 14B是RWKV架构的第六个版本,也是该系列中最大的模型。它通过引入数据依赖性到token shift和time-mixing中,提高了处理长文本时的效率。Finch 14B模型在处理提示时,能够更好地管理其长期记忆,从而提供更广泛的应用范围。该模型是开源的,由Linux Foundation认可,并且接受社区的GPU集群时间捐赠以支持训练。
开源多模态大型语言模型,支持实时语音输入和流式音频输出。
Mini-Omni是一个开源的多模态大型语言模型,能够实现实时的语音输入和流式音频输出的对话能力。它具备实时语音到语音的对话功能,无需额外的ASR或TTS模型。此外,它还可以在思考的同时进行语音输出,支持文本和音频的同时生成。Mini-Omni通过'Audio-to-Text'和'Audio-to-Audio'的批量推理进一步增强性能。
最新多模态检查点,提升语音理解能力。
Llama3-s v0.2 是 Homebrew Computer Company 开发的多模态检查点,专注于提升语音理解能力。该模型通过早期融合语义标记的方式,利用社区反馈进行改进,以简化模型结构,提高压缩效率,并实现一致的语音特征提取。Llama3-s v0.2 在多个语音理解基准测试中表现稳定,并提供了实时演示,允许用户亲自体验其功能。尽管模型仍在早期开发阶段,存在一些限制,如对音频压缩敏感、无法处理超过10秒的音频等,但团队计划在未来更新中解决这些问题。
基于知识图谱的智能问答系统。
Fact Finder 是一个开源的智能问答系统,它使用语言模型和知识图谱来生成自然语言回答和提供证据。该系统通过调用语言模型生成Cypher查询,查询知识图谱以获取答案,并使用另一个语言模型调用生成最终的自然语言回答。Fact Finder 的主要优点包括能够提供透明性,允许用户查看查询和证据,以及通过可视化子图提供直观的证据。
9天内预训练的紧凑型大型语言模型
1.5-Pints是一个开源的紧凑型大型语言模型(LLM),它在9天内使用高质量数据进行预训练,旨在成为与Apple OpenELM和Microsoft Phi相当的AI助手。该模型的代码库和架构公开,以促进模型的复制、实验和进一步的开源开发。
一个正在训练中的开源语言模型,具备“听力”能力。
llama3-s是一个开放的、正在进行中的研究实验,旨在将基于文本的大型语言模型(LLM)扩展到具有原生“听力”能力。该项目使用Meta的Chameleon论文启发的技术,专注于令牌传递性,将声音令牌扩展到LLM的词汇表中,未来可能扩展到各种输入类型。作为一个开源科学实验,代码库和数据集都是公开的。
实时语音交互的人工智能对话系统。
Listening-while-Speaking Language Model (LSLM)是一款旨在提升人机交互自然度的人工智能对话模型。它通过全双工建模(FDM)技术,实现了在说话时同时监听的能力,增强了实时交互性,尤其是在生成内容不满意时能够被打断和实时响应。LSLM采用了基于token的解码器仅TTS进行语音生成,以及流式自监督学习(SSL)编码器进行实时音频输入,通过三种融合策略(早期融合、中期融合和晚期融合)探索最佳交互平衡。
开源框架,支持数据驱动的自适应语言代理。
aiwaves-cn/agents 是一个开源框架,专注于数据驱动的自适应语言代理。它提供了一种系统化框架,通过符号学习训练语言代理,灵感来源于用于训练神经网络的连接主义学习过程。该框架实现了反向传播和基于梯度的权重更新,使用基于语言的损失、梯度和权重,支持多代理系统的优化。
新一代大模型架构,超越 Transformer。
RWKV 是一种革新的深度学习架构,结合了 RNN 和 Transformer 的最佳特性。它提供出色的性能,快速的推理和训练,并且不依赖自注意力机制,节省 VRAM,支持 ' 无限 ' 的上下文长度。RWKV 在多个语言和编码中表现出色,成为全球开发者的热门选择,推动了开源大语言模型的进步。
通过文本搜索快速找到完美表情包
Meme Search是一款通过视觉内容和文本索引表情包的应用程序,它能够让用户通过文本搜索快速找到所需的表情包。该应用使用自然语言处理技术,将图片中的文本描述自动生成并作为向量索引存储,从而实现快速检索。Meme Search的开源特性和创新的搜索方式,使其成为提升表情包搜索效率的有力工具。
快速构建基于AI的会话头像
AIAvatarKit是一个用于快速构建基于AI的会话头像的工具。它支持在VRChat、集群和其他元宇宙平台以及现实世界的设备上运行。该工具易于启动,具有无限的扩展能力,可以根据用户的需求进行定制。主要优点包括:1. 多平台支持:可以在多种平台上运行,包括VRChat、集群和元宇宙平台。2. 易于启动:用户可以立即开始对话,无需复杂的设置。3. 扩展性:用户可以根据需要添加无限功能。4. 技术支持:需要VOICEVOX API、Google或Azure的语音服务API密钥以及OpenAI API密钥。
自然交互的语音理解和生成基础模型
FunAudioLLM是一个旨在增强人类与大型语言模型(Large Language Models, LLMs)之间自然语音交互的框架。它包含两个创新模型:SenseVoice负责高精度多语种语音识别、情绪识别和音频事件检测;CosyVoice负责自然语音生成,支持多语种、音色和情绪控制。SenseVoice支持超过50种语言,具有极低的延迟;CosyVoice擅长多语种语音生成、零样本上下文生成、跨语言语音克隆和指令跟随能力。相关模型已在Modelscope和Huggingface上开源,并在GitHub上发布了相应的训练、推理和微调代码。
领先的文本到语音转换模型
Fish Speech V1.2是一款基于300,000小时的英语、中文和日语音频数据训练而成的文本到语音(TTS)模型。该模型代表了语音合成技术的最新进展,能够提供高质量的语音输出,适用于多种语言环境。
轻量级、先进的文本生成模型
Gemma 2是Google开发的一系列轻量级、先进的开放模型,基于与Gemini模型相同的研究和技术构建。它们是文本到文本的解码器仅大型语言模型,仅提供英文版本,具有开放的权重,适用于预训练变体和指令调整变体。Gemma模型非常适合各种文本生成任务,包括问答、摘要和推理。其相对较小的体积使其能够部署在资源有限的环境中,如笔记本电脑、桌面或您自己的云基础设施,使先进的AI模型的访问民主化,并帮助为每个人促进创新。
52B参数的开源多语言大型语言模型
Tele-FLM(亦称FLM-2)是一个52亿参数的开源多语言大型语言模型,具有稳定高效的预训练范式和增强的事实判断能力。基于解码器仅变换器架构,已在大约2T的token上进行训练。Tele-FLM在同等规模上展现出优越的性能,有时甚至超越了更大的模型。除了分享模型权重外,我们还提供了核心设计、工程实践和训练细节,期待它们对学术界和工业界社区都有所裨益。
轻量级大语言模型,专注于文本生成。
Index-1.9B-Pure是Index系列模型中的轻量版本,专为文本生成而设计。它在2.8T的中英文语料上进行了预训练,与同等级模型相比,在多个评测基准上表现领先。该模型特别过滤了所有指令相关数据,以验证指令对benchmark的影响,适用于需要高质量文本生成的领域。
基于大规模数据的高质量信息抽取模型
雅意信息抽取大模型(YAYI-UIE)由中科闻歌算法团队研发,是一款在百万级人工构造的高质量信息抽取数据上进行指令微调的模型。它能够统一训练信息抽取任务,包括命名实体识别(NER)、关系抽取(RE)和事件抽取(EE),覆盖了通用、安全、金融、生物、医疗、商业等多个场景的结构化抽取。该模型的开源旨在促进中文预训练大模型开源社区的发展,并通过开源共建雅意大模型生态。
高质量、多功能的语音合成模型系列
Seed-TTS是由字节跳动推出的一系列大规模自回归文本到语音(TTS)模型,能够生成与人类语音难以区分的语音。它在语音上下文学习、说话人相似度和自然度方面表现出色,通过微调可进一步提升主观评分。Seed-TTS还提供了对情感等语音属性的优越控制能力,并能生成高度表达性和多样性的语音。此外,提出了一种自蒸馏方法用于语音分解,以及一种增强模型鲁棒性、说话人相似度和控制性的强化学习方法。还展示了Seed-TTS模型的非自回归(NAR)变体Seed-TTSDiT,它采用完全基于扩散的架构,不依赖于预先估计的音素持续时间,通过端到端处理进行语音生成。
Google 一款轻量级、高效能的AI模型,专为大规模高频任务设计。
Gemini 1.5 Flash是Google DeepMind团队推出的最新AI模型,它通过'蒸馏'过程从更大的1.5 Pro模型中提炼出核心知识和技能,以更小、更高效的模型形式提供服务。该模型在多模态推理、长文本处理、聊天应用、图像和视频字幕生成、长文档和表格数据提取等方面表现出色。它的重要性在于为需要低延迟和低成本服务的应用提供了解决方案,同时保持了高质量的输出。
© 2024 AIbase 备案号:闽ICP备08105208号-14