需求人群:
"目标受众包括需要进行语音转录、音频分析和实时语音识别的企业和开发者。OmniSenseVoice的高速处理能力和精确的时间戳功能特别适合需要快速处理大量语音数据的场景,如会议记录、讲座内容转写、实时翻译等。"
使用场景示例:
会议实时语音转录,生成带有时间戳的会议记录。
在线课程内容转写,为学生提供带有时间戳的课程笔记。
实时翻译应用,提供快速准确的语音翻译服务。
产品特色:
支持多种语言自动检测或指定(自动、中文、英文、粤语、日语、韩语)。
提供文本归一化选项,可以选择是否进行逆文本归一化处理。
可以选择在特定的GPU上运行,默认为CPU。
使用量化模型以加快处理速度。
提供详细的帮助信息,便于用户理解和使用。
基准测试功能,可以评估模型性能。
支持高达50倍的快速处理,同时不牺牲准确性。
使用教程:
1. 安装OmniSenseVoice模型。
2. 根据需要设置语言参数,例如:--language zh。
3. 选择是否进行文本归一化处理,例如:--textnorm woitn。
4. 指定运行的设备ID,例如:--device-id 0。
5. 如果需要,可以选择使用量化模型,例如:--quantize。
6. 运行基准测试,评估模型性能,例如:omnisense benchmark -s -d --num-workers 2 --device-id 0 --batch-size 10 --textnorm woitn --language en benchmark/data/manifests/libritts/libritts_cuts_dev-clean.jsonl。
7. 查看README文件,了解更多使用细节和配置选项。
8. 根据具体需求调整参数,进行语音识别任务。
浏览量:57
最新流量情况
月访问量
5.16m
平均访问时长
00:06:42
每次访问页数
5.81
跳出率
37.20%
流量来源
直接访问
52.27%
自然搜索
32.92%
邮件
0.05%
外链引荐
12.52%
社交媒体
2.15%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
11.99%
德国
3.63%
印度
9.20%
俄罗斯
5.25%
美国
19.02%
统一的开放命名实体和语音识别模型
WhisperNER是一个结合了自动语音识别(ASR)和命名实体识别(NER)的统一模型,具备零样本能力。该模型旨在作为ASR带NER的下游任务的强大基础模型,并可以在特定数据集上进行微调以提高性能。WhisperNER的重要性在于其能够同时处理语音识别和实体识别任务,提高了处理效率和准确性,尤其在多语言和跨领域的场景中具有显著优势。
下一代语音AI,打造自然沟通的AI语音代理。
Ultravox.ai是一个先进的语音语言模型(SLM),直接处理语音,无需转换为文本,实现更自然、流畅的对话。它支持多语言,易于适应新语言或口音,确保与不同受众的顺畅沟通。产品背景信息显示,Ultravox.ai是一个开源模型,用户可以根据自己的需求进行定制和部署,价格为每分钟5美分。
简单易用,释放AI的强大力量
5ire是一个以简洁和用户友好为核心的AI产品,旨在让即使是初学者也能轻松利用大型语言模型。它支持多种文档格式的解析和向量化,具备本地知识库、使用分析、提示库、书签和快速关键词搜索等功能。作为一个开源项目,5ire提供免费下载,并且提供了按需付费的大型语言模型API服务。
开源机器人模拟平台,用于生成无限机器人数据和泛化AI。
ManiSkill是一个领先的开源平台,专注于机器人模拟、无限机器人数据生成和泛化机器人AI。由HillBot.ai领导,该平台支持通过状态和/或视觉输入快速训练机器人,与其它平台相比,ManiSkill/SAPIEN实现了10-100倍的视觉数据收集速度。它支持在GPU上并行模拟和渲染RGB-D,速度高达30,000+FPS。ManiSkill提供了40多种技能/任务和2000多个对象的预构建任务,拥有数百万帧的演示和密集的奖励函数,用户无需自己收集资产或设计任务,可以专注于算法开发。此外,它还支持在每个并行环境中同时模拟不同的对象和关节,训练泛化机器人策略/AI的时间从天缩短到分钟。ManiSkill易于使用,可以通过pip安装,并提供简单灵活的GUI以及所有功能的广泛文档。
Android平台上的私有、设备端语音识别键盘和文字服务
Transcribro是一款运行在Android平台上的私有、设备端语音识别键盘和文字服务应用,它使用whisper.cpp来运行OpenAI Whisper系列模型,并结合Silero VAD进行语音活动检测。该应用提供了语音输入键盘,允许用户通过语音进行文字输入,并且可以被其他应用显式使用,或者设置为用户选择的语音转文字应用,部分应用可能会使用它来进行语音转文字。Transcribro的背景是为用户提供一种更安全、更私密的语音转文字解决方案,避免了云端处理可能带来的隐私泄露问题。该应用是开源的,用户可以自由地查看、修改和分发代码。
功能强大的语音离线文件转写服务
FunASR是一款语音离线文件转写服务软件包,集成了语音端点检测、语音识别、标点等模型,能够将长音频与视频转换成带标点的文字,并支持多路请求同时转写。它支持ITN与用户自定义热词,服务端集成有ffmpeg,支持多种音视频格式输入,并提供多种编程语言客户端,适用于需要高效、准确语音转写服务的企业和开发者。
一款文本转语音工具,帮助您轻松阅读文本。
Praises是一款文本转语音(TTS)工具,它通过将文本转换为语音输出,帮助用户更轻松地获取信息。这款工具支持多种API,包括Azure API、Edge API等,并且支持多语言,使得它能够服务于全球用户。Praises的主要优点包括支持多种语音合成技术、易于集成和使用,以及开源的特性,使得开发者可以自由地修改和优化。Praises的背景信息显示,它是由个人开发者ElmTran开发的,并且遵循MIT开源协议,这意味着用户可以免费使用和修改该软件。
开源的语音识别和说话人分割模型推理代码
Reverb 是一个开源的语音识别和说话人分割模型推理代码,使用 WeNet 框架进行语音识别 (ASR) 和 Pyannote 框架进行说话人分割。它提供了详细的模型描述,并允许用户从 Hugging Face 下载模型。Reverb 旨在为开发者和研究人员提供高质量的语音识别和说话人分割工具,以支持各种语音处理任务。
世界最精确的AI语音转录服务
Rev AI提供高精度的语音转录服务,支持58种以上语言,能够将视频和语音应用中的语音转换为文本。它通过使用世界上最多样化的声音集合进行训练,为视频和语音应用设定了准确性标准。Rev AI还提供实时流媒体转录、人类转录、语言识别、情感分析、主题提取、总结和翻译等服务。Rev AI的技术优势在于低词错误率、对性别和种族口音的最小偏见、支持更多语言以及提供最易读的转录文本。此外,它还符合世界顶级的安全标准,包括SOC II、HIPAA、GDPR和PCI合规性。
开源多模态大型语言模型,支持实时语音输入和流式音频输出。
Mini-Omni是一个开源的多模态大型语言模型,能够实现实时的语音输入和流式音频输出的对话能力。它具备实时语音到语音的对话功能,无需额外的ASR或TTS模型。此外,它还可以在思考的同时进行语音输出,支持文本和音频的同时生成。Mini-Omni通过'Audio-to-Text'和'Audio-to-Audio'的批量推理进一步增强性能。
与大型语言模型进行自然的语音对话
OpenVoiceChat是一个开源项目,旨在提供一个与大型语言模型(LLM)进行自然语音对话的平台。它支持多种语音识别(STT)、文本到语音(TTS)和LLM模型,允许用户通过语音与AI进行交互。项目采用Apache-2.0许可,强调开放性和易用性,目标是成为封闭商业实现的开源替代品。
基于大型语言模型的语音识别技术。
Seed-ASR是由字节跳动公司开发的基于大型语言模型(Large Language Model, LLM)的语音识别模型。它通过将连续的语音表示和上下文信息输入到LLM中,利用LLM的能力,在大规模训练和上下文感知能力的引导下,显著提高了在包括多个领域、口音/方言和语言的综合评估集上的表现。与最近发布的大型ASR模型相比,Seed-ASR在中英文公共测试集上实现了10%-40%的词错误率降低,进一步证明了其强大的性能。
开源的语音到语音转换模块
speech-to-speech 是一个开源的模块化GPT4-o项目,通过语音活动检测、语音转文本、语言模型和文本转语音等连续部分实现语音到语音的转换。它利用了Transformers库和Hugging Face hub上可用的模型,提供了高度的模块化和灵活性。
300行代码实现基于LLM的语音转录。
WeST是一个开源的语音识别转录模型,以300行代码的简洁形式,基于大型语言模型(LLM)实现语音到文本的转换。它由一个大型语言模型、一个语音编码器和一个投影器组成,其中仅投影器部分可训练。WeST的开发灵感来源于SLAM-ASR和LLaMA 3.1,旨在通过简化的代码实现高效的语音识别功能。
语音助手插件,提升GPT交互体验
Voice Assistant Plugin for GPT 是一款专为GPT设计的语音助手插件,旨在通过语音交互提升用户体验。该插件结合了先进的语音识别技术,允许用户通过语音命令与GPT进行交流,实现更加自然和便捷的对话体验。产品背景信息显示,该插件由Air Tech Studio开发,支持多语言,并且注重用户数据安全,不与第三方分享任何数据。
多语种高精度语音识别模型
SenseVoiceSmall是一款具备多种语音理解能力的语音基础模型,包括自动语音识别(ASR)、口语语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)。该模型经过超过40万小时的数据训练,支持超过50种语言,识别性能超越Whisper模型。其小型模型SenseVoice-Small采用非自回归端到端框架,推理延迟极低,处理10秒音频仅需70毫秒,比Whisper-Large快15倍。此外,SenseVoice还提供便捷的微调脚本和策略,支持多并发请求的服务部署管道,客户端语言包括Python、C++、HTML、Java和C#等。
自然交互的语音理解和生成基础模型
FunAudioLLM是一个旨在增强人类与大型语言模型(Large Language Models, LLMs)之间自然语音交互的框架。它包含两个创新模型:SenseVoice负责高精度多语种语音识别、情绪识别和音频事件检测;CosyVoice负责自然语音生成,支持多语种、音色和情绪控制。SenseVoice支持超过50种语言,具有极低的延迟;CosyVoice擅长多语种语音生成、零样本上下文生成、跨语言语音克隆和指令跟随能力。相关模型已在Modelscope和Huggingface上开源,并在GitHub上发布了相应的训练、推理和微调代码。
领先的文本到语音转换模型
Fish Speech V1.2是一款基于300,000小时的英语、中文和日语音频数据训练而成的文本到语音(TTS)模型。该模型代表了语音合成技术的最新进展,能够提供高质量的语音输出,适用于多种语言环境。
让应用通过语音与文本的转换实现智能交互。
Azure 认知服务语音是微软推出的一款语音识别与合成服务,支持超过100种语言和方言的语音转文本和文本转语音功能。它通过创建可处理特定术语、背景噪音和重音的自定义语音模型,提高听录的准确度。此外,该服务还支持实时语音转文本、语音翻译、文本转语音等功能,适用于多种商业场景,如字幕生成、通话后听录分析、视频翻译等。
52B参数的开源多语言大型语言模型
Tele-FLM(亦称FLM-2)是一个52亿参数的开源多语言大型语言模型,具有稳定高效的预训练范式和增强的事实判断能力。基于解码器仅变换器架构,已在大约2T的token上进行训练。Tele-FLM在同等规模上展现出优越的性能,有时甚至超越了更大的模型。除了分享模型权重外,我们还提供了核心设计、工程实践和训练细节,期待它们对学术界和工业界社区都有所裨益。
开源代码语言模型,提升编程和数学推理能力。
DeepSeek-Coder-V2是一个开源的专家混合模型(Mixture-of-Experts, MoE),专为代码语言设计,其性能与GPT4-Turbo相当。它在代码特定任务上表现优异,同时在通用语言任务上保持了相当的性能。与DeepSeek-Coder-33B相比,V2版本在代码相关任务和推理能力上都有显著提升。此外,它支持的编程语言从86种扩展到了338种,上下文长度也从16K扩展到了128K。
开源字幕生成工具,实现内容无缝翻译。
subtitle是一个开源的字幕生成工具,利用先进的机器学习技术,为用户提供准确且自然的声音字幕。它支持多种语言,易于集成到现有的工作流程中,并允许用户在自己的服务器上自托管,增强控制权和隐私保护。
开源、精准、方便的视频切片工具
FunClip是一款完全开源、本地部署的自动化视频剪辑工具,通过调用阿里巴巴通义实验室开源的FunASR Paraformer系列模型进行视频的语音识别,随后用户可以自由选择识别结果中的文本片段或说话人,点击裁剪按钮即可获取对应片段的视频。FunClip集成了阿里巴巴开源的工业级模型Paraformer-Large,是当前识别效果最优的开源中文ASR模型之一,并且能够一体化的准确预测时间戳。
Qwen1.5系列首个千亿参数开源模型,多语言支持,高效Transformer解码器架构。
Qwen1.5-110B是Qwen1.5系列中规模最大的模型,拥有1100亿参数,支持多语言,采用高效的Transformer解码器架构,并包含分组查询注意力(GQA),在模型推理时更加高效。它在基础能力评估中与Meta-Llama3-70B相媲美,在Chat评估中表现出色,包括MT-Bench和AlpacaEval 2.0。该模型的发布展示了在模型规模扩展方面的巨大潜力,并且预示着未来通过扩展数据和模型规模,可以获得更大的性能提升。
Whisper加速器,利用GPU加速语音识别
Whisper Turbo旨在成为OpenAI Whisper API的替代品。它由3部分组成:一个兼容层,用于输入不同格式的音频文件并转换为Whisper兼容格式;开发者友好的API,支持一次性推理和流式模式;以及Rust + WebGPU推理框架Rumble,专门用于跨平台快速推理。
在Cloudflare全球网络运行机器学习模型
Workers AI是Cloudflare推出的一款在边缘计算环境中运行机器学习模型的产品。它允许用户在全球范围内的Cloudflare网络节点上部署和运行AI应用,这些应用可以是图像分类、文本生成、目标检测等多种类型。Workers AI的推出标志着Cloudflare在全球网络中部署了GPU资源,使得开发者能够构建和部署接近用户的雄心勃勃的AI应用。该产品的主要优点包括全球分布式部署、低延迟、高性能和可靠性,同时支持免费和付费计划。
© 2024 AIbase 备案号:闽ICP备08105208号-14