需求人群:
"目标受众主要是语音识别和说话人分割领域的研究人员、开发者和企业用户。Reverb 提供了高质量的语音处理工具,适合需要进行语音分析和处理的场合,如会议记录、电话录音分析等。"
使用场景示例:
用于会议记录的自动语音识别和说话人分割
电话客服录音的语音内容分析
法庭记录的语音转写和说话人识别
产品特色:
基于 WeNet 框架的语音识别代码
基于 Pyannote 框架的说话人分割代码
提供长形式语音识别和说话人分割的WER和WDER结果
支持通过 Hugging Face Hub 下载模型
提供 Docker 镜像以简化部署
支持在 NVIDIA GPU 上运行以提高性能
提供详细的安装和使用说明
使用教程:
1. 确保系统中已安装 Git Large File Storage (LFS)。
2. 使用 HUGGINGFACE_ACCESS_TOKEN 从 Hugging Face Hub 下载模型。
3. 克隆 Reverb 代码库到本地。
4. 设置虚拟环境并激活。
5. 在代码库根目录下,设置环境变量以包含 ASR 目录。
6. 使用 Docker 构建镜像(如果需要)。
7. 运行 Docker 容器(如果使用 Docker 部署)。
8. 按照 README.md 中的说明进行模型推理和评估。
浏览量:34
最新流量情况
月访问量
4.89m
平均访问时长
00:06:37
每次访问页数
5.70
跳出率
37.28%
流量来源
直接访问
52.59%
自然搜索
32.74%
邮件
0.05%
外链引荐
12.33%
社交媒体
2.17%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
12.61%
德国
3.57%
印度
9.68%
俄罗斯
4.81%
美国
18.94%
开源的语音识别和说话人分割模型推理代码
Reverb 是一个开源的语音识别和说话人分割模型推理代码,使用 WeNet 框架进行语音识别 (ASR) 和 Pyannote 框架进行说话人分割。它提供了详细的模型描述,并允许用户从 Hugging Face 下载模型。Reverb 旨在为开发者和研究人员提供高质量的语音识别和说话人分割工具,以支持各种语音处理任务。
Android平台上的私有、设备端语音识别键盘和文字服务
Transcribro是一款运行在Android平台上的私有、设备端语音识别键盘和文字服务应用,它使用whisper.cpp来运行OpenAI Whisper系列模型,并结合Silero VAD进行语音活动检测。该应用提供了语音输入键盘,允许用户通过语音进行文字输入,并且可以被其他应用显式使用,或者设置为用户选择的语音转文字应用,部分应用可能会使用它来进行语音转文字。Transcribro的背景是为用户提供一种更安全、更私密的语音转文字解决方案,避免了云端处理可能带来的隐私泄露问题。该应用是开源的,用户可以自由地查看、修改和分发代码。
开源多模态大型语言模型,支持实时语音输入和流式音频输出。
Mini-Omni是一个开源的多模态大型语言模型,能够实现实时的语音输入和流式音频输出的对话能力。它具备实时语音到语音的对话功能,无需额外的ASR或TTS模型。此外,它还可以在思考的同时进行语音输出,支持文本和音频的同时生成。Mini-Omni通过'Audio-to-Text'和'Audio-to-Audio'的批量推理进一步增强性能。
与大型语言模型进行自然的语音对话
OpenVoiceChat是一个开源项目,旨在提供一个与大型语言模型(LLM)进行自然语音对话的平台。它支持多种语音识别(STT)、文本到语音(TTS)和LLM模型,允许用户通过语音与AI进行交互。项目采用Apache-2.0许可,强调开放性和易用性,目标是成为封闭商业实现的开源替代品。
开源的语音到语音转换模块
speech-to-speech 是一个开源的模块化GPT4-o项目,通过语音活动检测、语音转文本、语言模型和文本转语音等连续部分实现语音到语音的转换。它利用了Transformers库和Hugging Face hub上可用的模型,提供了高度的模块化和灵活性。
基于OpenAI Whisper的自动语音识别与说话人分割
whisper-diarization是一个结合了Whisper自动语音识别(ASR)能力、声音活动检测(VAD)和说话人嵌入技术的开源项目。它通过提取音频中的声音部分来提高说话人嵌入的准确性,然后使用Whisper生成转录文本,并通过WhisperX校正时间戳和对齐,以减少由于时间偏移导致的分割错误。接着,使用MarbleNet进行VAD和分割以排除静音,TitaNet用于提取说话人嵌入以识别每个段落的说话人,最后将结果与WhisperX生成的时间戳关联,基于时间戳检测每个单词的说话人,并使用标点模型重新对齐以补偿小的时间偏移。
300行代码实现基于LLM的语音转录。
WeST是一个开源的语音识别转录模型,以300行代码的简洁形式,基于大型语言模型(LLM)实现语音到文本的转换。它由一个大型语言模型、一个语音编码器和一个投影器组成,其中仅投影器部分可训练。WeST的开发灵感来源于SLAM-ASR和LLaMA 3.1,旨在通过简化的代码实现高效的语音识别功能。
自然交互的语音理解和生成基础模型
FunAudioLLM是一个旨在增强人类与大型语言模型(Large Language Models, LLMs)之间自然语音交互的框架。它包含两个创新模型:SenseVoice负责高精度多语种语音识别、情绪识别和音频事件检测;CosyVoice负责自然语音生成,支持多语种、音色和情绪控制。SenseVoice支持超过50种语言,具有极低的延迟;CosyVoice擅长多语种语音生成、零样本上下文生成、跨语言语音克隆和指令跟随能力。相关模型已在Modelscope和Huggingface上开源,并在GitHub上发布了相应的训练、推理和微调代码。
开源、精准、方便的视频切片工具
FunClip是一款完全开源、本地部署的自动化视频剪辑工具,通过调用阿里巴巴通义实验室开源的FunASR Paraformer系列模型进行视频的语音识别,随后用户可以自由选择识别结果中的文本片段或说话人,点击裁剪按钮即可获取对应片段的视频。FunClip集成了阿里巴巴开源的工业级模型Paraformer-Large,是当前识别效果最优的开源中文ASR模型之一,并且能够一体化的准确预测时间戳。
开源代码库,为HuggingChat应用提供动力
chat-ui是一个开源的聊天界面,使用开源模型如OpenAssistant或Llama。它是一个SvelteKit应用程序,为hf.co/chat上的HuggingChat应用提供支持。该产品允许用户通过自定义配置来运行和部署自己的Chat UI实例,支持多种语言模型和功能,如Web搜索、自定义模型等。
开源、自托管、AI驱动的应用构建器。
Srcbook是一个开源、自托管的AI驱动应用构建器,它允许用户快速构建和部署各种应用程序。产品背景信息显示,Srcbook旨在提供一个平台,让开发者和非技术用户都能够轻松地构建应用程序,从而提高生产力和创新能力。它支持多种应用场景,如项目管理工具、音乐发现页面、技术文档网站等。Srcbook的主要优点包括开源性、灵活性和易用性,用户可以根据自己的需求定制和扩展功能。
简单易用,释放AI的强大力量
5ire是一个以简洁和用户友好为核心的AI产品,旨在让即使是初学者也能轻松利用大型语言模型。它支持多种文档格式的解析和向量化,具备本地知识库、使用分析、提示库、书签和快速关键词搜索等功能。作为一个开源项目,5ire提供免费下载,并且提供了按需付费的大型语言模型API服务。
开源的网页自动化库,支持任何大型语言模型(LLM)
browser-use是一个开源的网页自动化库,允许大型语言模型(LLM)与网站进行交互,通过简单的接口实现复杂的网页操作。该技术的主要优点包括对多种语言模型的通用支持、交互元素自动检测、多标签页管理、XPath提取、视觉模型支持等。它解决了传统网页自动化中的一些痛点,如动态内容处理、长任务解决等。browser-use以其灵活性和易用性,为开发者提供了一个强大的工具,以构建更加智能和自动化的网页交互体验。
代码审查助手,确保代码无缺陷。
Panto AI 是一个编程辅助工具,通过代码审查来预防缺陷代码进入生产环境。它通过全天候运作,暴露代码中的漏洞并建议修复措施,确保只有无缺陷的代码被推送到生产环境。Panto AI 不仅检查错误,还理解代码背后的意图,并与知识库无缝集成,提供更智能的洞察。产品背景信息显示,Panto AI 已经开源其代码,并在GitHub上获得社区支持。
基于Gradio的实时人像动画Web界面
AdvancedLivePortrait-WebUI是一个基于Gradio框架开发的Web界面,用于实时人像动画编辑。该技术允许用户通过上传图片来编辑人物的面部表情,实现了高效的肖像动画制作。它基于LivePortrait算法,利用深度学习技术进行面部特征的捕捉和动画制作,具有操作简便、效果逼真的优点。产品背景信息显示,它是由jhj0517开发的开源项目,适用于需要进行人像动画制作的专业人士和爱好者。目前该项目是免费的,并且开源,用户可以自由使用和修改。
创建互动式动态图形的新方式
Rive是一种新型的图形构建方式,它通过丰富的交互性和状态驱动的动画,消除了硬编码图形的需求,使团队能够更快迭代并构建更好的产品。Rive提供了一个全新的图形格式,适用于互动时代,可以用于游戏、应用、网站等多个领域。
业界领先的开源大型混合专家模型
Tencent-Hunyuan-Large(混元大模型)是由腾讯推出的业界领先的开源大型混合专家(MoE)模型,拥有3890亿总参数和520亿激活参数。该模型在自然语言处理、计算机视觉和科学任务等领域取得了显著进展,特别是在处理长上下文输入和提升长上下文任务处理能力方面表现出色。混元大模型的开源,旨在激发更多研究者的创新灵感,共同推动AI技术的进步和应用。
高效优化的子十亿参数语言模型,专为设备端应用设计
MobileLLM-350M是由Meta开发的自回归语言模型,采用优化的Transformer架构,专为设备端应用设计,以满足资源受限的环境。该模型整合了SwiGLU激活函数、深层薄架构、嵌入共享和分组查询注意力等关键技术,实现了在零样本常识推理任务上的显著准确率提升。MobileLLM-350M在保持较小模型尺寸的同时,提供了与更大模型相媲美的性能,是设备端自然语言处理应用的理想选择。
视频编辑工具,使用Genmo Mochi技术
ComfyUI-MochiEdit是一个基于Genmo Mochi技术的视频编辑插件,允许用户通过ComfyUI界面对视频进行编辑。该插件的主要优点在于其能够利用先进的视频处理技术,提供给用户一个直观、易用的编辑环境。产品背景信息显示,它是由logtd和kijai共同开发,并且遵循GPL-3.0开源许可证。由于其开源特性,该插件可以免费使用,定位于需要视频编辑功能的专业用户或爱好者。
开源的全双工音频生成基础模型
hertz-dev是Standard Intelligence开源的全双工、仅音频的变换器基础模型,拥有85亿参数。该模型代表了可扩展的跨模态学习技术,能够将单声道16kHz语音转换为8Hz潜在表示,具有1kbps的比特率,性能优于其他音频编码器。hertz-dev的主要优点包括低延迟、高效率和易于研究人员进行微调和构建。产品背景信息显示,Standard Intelligence致力于构建对全人类有益的通用智能,而hertz-dev是这一旅程的第一步。
开源机器人模拟平台,用于生成无限机器人数据和泛化AI。
ManiSkill是一个领先的开源平台,专注于机器人模拟、无限机器人数据生成和泛化机器人AI。由HillBot.ai领导,该平台支持通过状态和/或视觉输入快速训练机器人,与其它平台相比,ManiSkill/SAPIEN实现了10-100倍的视觉数据收集速度。它支持在GPU上并行模拟和渲染RGB-D,速度高达30,000+FPS。ManiSkill提供了40多种技能/任务和2000多个对象的预构建任务,拥有数百万帧的演示和密集的奖励函数,用户无需自己收集资产或设计任务,可以专注于算法开发。此外,它还支持在每个并行环境中同时模拟不同的对象和关节,训练泛化机器人策略/AI的时间从天缩短到分钟。ManiSkill易于使用,可以通过pip安装,并提供简单灵活的GUI以及所有功能的广泛文档。
下一代语音AI,提供卓越的音频数据处理能力。
Universal-2是AssemblyAI推出的最新语音识别模型,它在准确度和精确度上超越了前一代Universal-1,能够更好地捕捉人类语言的复杂性,为用户提供无需二次检查的音频数据。这一技术的重要性在于它能够为产品体验提供更敏锐的洞察力、更快的工作流程和一流的产品体验。Universal-2在专有名词识别、文本格式化和字母数字识别方面都有显著提升,减少了实际应用中的词错误率。
开源全栈平台,为打造顶级LLM产品提供支持
Laminar是一个开源的全栈平台,专注于从第一性原理出发进行AI工程。它帮助用户收集、理解和使用数据,以提高大型语言模型(LLM)应用的质量。Laminar支持对文本和图像模型的追踪,并且即将支持音频模型。产品的主要优点包括零开销的可观测性、在线评估、数据集构建和LLM链管理。Laminar完全开源,易于自托管,适合需要构建和管理LLM产品的开发者和团队。
开源人工智能定义,推动AI领域的开放与合作
Open Source AI Definition(OSAID)是由Open Source Initiative(OSI)发布的行业首个开源人工智能定义。它提供了一个标准,通过社区领导的开放和公共评估来验证一个AI系统是否可以被认为是开源AI。OSAID v1.0的发布是多年研究和合作的结果,经过国际研讨会和为期一年的共同设计过程。这个定义要求开源模型提供足够的训练数据信息,以便熟练的人可以使用相同或类似的数据重建一个大致等效的系统。OSAID的发布对于推动AI领域的开放性、透明度和合作具有重要意义,它强调了开源原则在AI发展中的核心地位,并为独立机器学习研究人员和大型AI开发者之间的透明度提供了支持。
将项目文件夹中的所有代码合并为单个文本文件。
Code Spoonfeeder是一个在线工具,它允许用户将一个项目文件夹中的所有代码文件合并成一个单一的文本文件,方便代码的查看和管理。这个工具对于需要快速浏览整个项目代码或者进行代码备份的用户来说非常有用。它强调了处理的安全性和隐私性,承诺在处理完毕后立即删除所有文件。产品背景信息显示,这是一个开源项目,用户可以在GitHub上查看和贡献代码。
开源AI网关和开发者门户,轻松管理、集成和部署AI服务。
APIPark是一个开源的AI网关和API开发者门户,由Eolink推出,旨在帮助开发者和企业轻松管理、集成和部署AI服务。Eolink提供API全生命周期治理解决方案,服务全球超过100,000家企业,并积极投资开源生态系统,为全球数千万专业开发者提供服务。APIPark以其高性能、低成本、易于部署和使用的特点,满足企业在AI服务管理方面的需求,提升效率,保障安全,并优化数据价值。
© 2024 AIbase 备案号:闽ICP备08105208号-14