需求人群:
"目标受众为需要语音转文字服务的Android用户,特别是对隐私有较高要求的用户。Transcribro由于其设备端处理的特性,适合那些不希望自己的语音数据上传到云端进行处理的用户,同时,开源的特性也吸引了开发者和技术爱好者,他们可以参与到应用的开发和改进中。"
使用场景示例:
记者在采访时使用Transcribro快速将对话转换为文字记录。
听障人士使用Transcribro将语音转换为文字,以便更好地理解和交流。
学生在课堂上使用Transcribro记录讲座内容,课后复习。
产品特色:
语音输入键盘:用户可以直接通过语音输入文字。
设备端处理:所有语音识别处理都在用户的设备上完成,保护用户隐私。
支持OpenAI Whisper模型:使用先进的语音识别模型提高识别准确率。
Silero VAD集成:集成语音活动检测技术,提高识别效率。
开源代码:用户可以自由查看、修改和分发应用代码。
自定义和扩展:由于开源,用户和开发者可以根据自己的需求定制和扩展功能。
使用教程:
1. 下载并安装Transcribro应用到你的Android设备。
2. 打开Transcribro应用,授权必要的麦克风访问权限。
3. 点击应用中的开始按钮,开始语音输入。
4. 说话时,Transcribro会实时将你的语音转换为文字。
5. 转换完成后,可以复制或分享转换后的文字。
6. 若需要修改或编辑文字,可以直接在应用内进行编辑。
7. 可以在设置中调整识别语言、语音模型等选项,以获得更好的识别效果。
浏览量:16
最新流量情况
月访问量
4.89m
平均访问时长
00:06:37
每次访问页数
5.70
跳出率
37.28%
流量来源
直接访问
52.59%
自然搜索
32.74%
邮件
0.05%
外链引荐
12.33%
社交媒体
2.17%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
12.61%
德国
3.57%
印度
9.68%
俄罗斯
4.81%
美国
18.94%
Android平台上的私有、设备端语音识别键盘和文字服务
Transcribro是一款运行在Android平台上的私有、设备端语音识别键盘和文字服务应用,它使用whisper.cpp来运行OpenAI Whisper系列模型,并结合Silero VAD进行语音活动检测。该应用提供了语音输入键盘,允许用户通过语音进行文字输入,并且可以被其他应用显式使用,或者设置为用户选择的语音转文字应用,部分应用可能会使用它来进行语音转文字。Transcribro的背景是为用户提供一种更安全、更私密的语音转文字解决方案,避免了云端处理可能带来的隐私泄露问题。该应用是开源的,用户可以自由地查看、修改和分发代码。
开源的语音识别和说话人分割模型推理代码
Reverb 是一个开源的语音识别和说话人分割模型推理代码,使用 WeNet 框架进行语音识别 (ASR) 和 Pyannote 框架进行说话人分割。它提供了详细的模型描述,并允许用户从 Hugging Face 下载模型。Reverb 旨在为开发者和研究人员提供高质量的语音识别和说话人分割工具,以支持各种语音处理任务。
无审查限制的AI模型平台
FreedomGPT是一个提供多种AI模型的平台,包括无审查限制的模型,用户可以在一个熟悉的界面中轻松切换开源和专有模型。它允许用户在浏览器或直接在计算机上运行这些模型,无需注册,无需技术专长。此外,它还支持离线使用,保证了用户隐私和数据安全。FreedomGPT还提供了一个开放源代码的AI平台,鼓励社区成员共同参与构建。
使用AI技术,快速总结网站法律政策。
DocDecoder是一款Chrome浏览器插件,利用GPT-4技术,为用户提供网站法律政策的清晰、简洁摘要。它通过颜色编码直观地突出显示对用户有实际影响的条款,包括积极、消极和中性影响。用户可以输入任何法律政策的URL,DocDecoder会告诉用户它如何影响他们。此外,它还标记出潜在有害的条款,并允许用户无限次查看现有的摘要。DocDecoder旨在帮助用户快速理解他们在网上实际同意的内容。
开源多模态大型语言模型,支持实时语音输入和流式音频输出。
Mini-Omni是一个开源的多模态大型语言模型,能够实现实时的语音输入和流式音频输出的对话能力。它具备实时语音到语音的对话功能,无需额外的ASR或TTS模型。此外,它还可以在思考的同时进行语音输出,支持文本和音频的同时生成。Mini-Omni通过'Audio-to-Text'和'Audio-to-Audio'的批量推理进一步增强性能。
基于大型语言模型的高性能MacOS聊天应用
ChatMLX是一款现代、开源、高性能的MacOS聊天应用程序,基于大型语言模型构建。它利用MLX的强大性能和苹果硅芯片,支持多种模型,为用户提供丰富的对话选择。ChatMLX在本地运行大型语言模型,以确保用户隐私和安全。
个性化AI助手,记录每一刻,与AI对话获取反馈。
OMI APP是一个任务驱动的个性化AI助手,旨在通过语音和音频转录功能帮助用户提高记忆力和沟通效率。它是一个开源的AI记事本,提供提醒、建议等功能,同时注重用户隐私。
与大型语言模型进行自然的语音对话
OpenVoiceChat是一个开源项目,旨在提供一个与大型语言模型(LLM)进行自然语音对话的平台。它支持多种语音识别(STT)、文本到语音(TTS)和LLM模型,允许用户通过语音与AI进行交互。项目采用Apache-2.0许可,强调开放性和易用性,目标是成为封闭商业实现的开源替代品。
全球首款个人数据导出器
Surfer是一款创新的个人数据导出器,它允许用户将个人数据从在线服务中导出并存储在本地,确保数据的安全性和隐私性。作为一款开源软件,Surfer支持多种操作系统,包括Windows和Mac,为用户提供了一种自主管理个人数据的方式。未来将与 LangChain 等其他代理框架集成,打造高级个人人工智能助理。
开源的语音到语音转换模块
speech-to-speech 是一个开源的模块化GPT4-o项目,通过语音活动检测、语音转文本、语言模型和文本转语音等连续部分实现语音到语音的转换。它利用了Transformers库和Hugging Face hub上可用的模型,提供了高度的模块化和灵活性。
300行代码实现基于LLM的语音转录。
WeST是一个开源的语音识别转录模型,以300行代码的简洁形式,基于大型语言模型(LLM)实现语音到文本的转换。它由一个大型语言模型、一个语音编码器和一个投影器组成,其中仅投影器部分可训练。WeST的开发灵感来源于SLAM-ASR和LLaMA 3.1,旨在通过简化的代码实现高效的语音识别功能。
AI驱动的内容创作引擎,开源替代方案。
OpenPlexity Pages是一个由AI驱动的内容创作引擎,旨在将您的研究转化为视觉吸引、全面的内容。它是一个开源的替代品,与Perplexity Pages不同,它完全开源,允许社区贡献和定制。它注重隐私,数据本地运行,保证您的研究和内容保持私密。此外,它还具有可定制性,可以调整内容的语调以吸引目标受众,从普通读者到主题专家。它还具有适应性,可以轻松修改文章的结构,添加、重新排列或删除部分以最好地适应您的材料。
智能隐私优先的邮件写作助手
Proton Scribe是一个集成在Proton Mail中的智能写作助手,它以隐私优先,可以帮助用户撰写和润色邮件草稿,节省撰写邮件的时间,同时保护最敏感、最有价值的数据。Proton Scribe设计为本地运行,确保用户数据不会离开设备。Proton一直致力于研究保护隐私的AI技术,并在2023年推出了Proton Sentinel,这是第一个利用AI提供增强账户保护的功能。Proton Scribe也是开源的,可以进行独立的安全和隐私审计。
自然交互的语音理解和生成基础模型
FunAudioLLM是一个旨在增强人类与大型语言模型(Large Language Models, LLMs)之间自然语音交互的框架。它包含两个创新模型:SenseVoice负责高精度多语种语音识别、情绪识别和音频事件检测;CosyVoice负责自然语音生成,支持多语种、音色和情绪控制。SenseVoice支持超过50种语言,具有极低的延迟;CosyVoice擅长多语种语音生成、零样本上下文生成、跨语言语音克隆和指令跟随能力。相关模型已在Modelscope和Huggingface上开源,并在GitHub上发布了相应的训练、推理和微调代码。
功能齐全的翻译解决方案,保护隐私。
Linguist Translate是一个注重隐私保护的翻译插件,提供离线翻译功能,不发送任何私人信息,确保用户隐私安全。它支持全页翻译,用户可以快速翻译整篇文章,同时支持自定义翻译服务。此外,它还允许用户保存翻译历史,创建个人知识库,非常适合语言学习者和需要翻译服务的旅行者。
无AI干扰的谷歌搜索页面
&udm=14的AI-Free Search是一个提供无AI干扰的谷歌搜索服务的网站,允许用户在没有人工智能干预的情况下进行搜索。它使用'udm=14'参数来实现这一点,旨在保护用户的隐私,同时提供快速、准确的搜索结果。该网站由Tedium团队构建,支持开源代码,用户可以通过Glitch或Github获取。
一个快速、轻量级的开源聊天界面。
lluminous是一个快速、轻量级的开源聊天界面,支持多供应商API密钥,提供完整的隐私保护,所有对话历史和密钥都存储在本地。它支持多模态输入、多轮对话提示、预填充响应、模型切换以及对话分享等功能。
开源、精准、方便的视频切片工具
FunClip是一款完全开源、本地部署的自动化视频剪辑工具,通过调用阿里巴巴通义实验室开源的FunASR Paraformer系列模型进行视频的语音识别,随后用户可以自由选择识别结果中的文本片段或说话人,点击裁剪按钮即可获取对应片段的视频。FunClip集成了阿里巴巴开源的工业级模型Paraformer-Large,是当前识别效果最优的开源中文ASR模型之一,并且能够一体化的准确预测时间戳。
利用AI技术,快速高效地从您的图片中移除背景。
AI-Powered Background Removal(AI驱动的背景移除)是一款基于AI技术的在线工具,它能够快速且高效地从用户上传的图片中移除背景。该工具的主要优点在于其隐私保护和本地执行能力,即图片处理在用户设备上完成,无需上传至互联网,保证了数据的安全性和处理速度。此外,作为一款开源且完全免费的工具,它极大地释放了用户的创造力,无需担心成本问题。
创建互动式动态图形的新方式
Rive是一种新型的图形构建方式,它通过丰富的交互性和状态驱动的动画,消除了硬编码图形的需求,使团队能够更快迭代并构建更好的产品。Rive提供了一个全新的图形格式,适用于互动时代,可以用于游戏、应用、网站等多个领域。
业界领先的开源大型混合专家模型
Tencent-Hunyuan-Large(混元大模型)是由腾讯推出的业界领先的开源大型混合专家(MoE)模型,拥有3890亿总参数和520亿激活参数。该模型在自然语言处理、计算机视觉和科学任务等领域取得了显著进展,特别是在处理长上下文输入和提升长上下文任务处理能力方面表现出色。混元大模型的开源,旨在激发更多研究者的创新灵感,共同推动AI技术的进步和应用。
视频编辑工具,使用Genmo Mochi技术
ComfyUI-MochiEdit是一个基于Genmo Mochi技术的视频编辑插件,允许用户通过ComfyUI界面对视频进行编辑。该插件的主要优点在于其能够利用先进的视频处理技术,提供给用户一个直观、易用的编辑环境。产品背景信息显示,它是由logtd和kijai共同开发,并且遵循GPL-3.0开源许可证。由于其开源特性,该插件可以免费使用,定位于需要视频编辑功能的专业用户或爱好者。
开源的全双工音频生成基础模型
hertz-dev是Standard Intelligence开源的全双工、仅音频的变换器基础模型,拥有85亿参数。该模型代表了可扩展的跨模态学习技术,能够将单声道16kHz语音转换为8Hz潜在表示,具有1kbps的比特率,性能优于其他音频编码器。hertz-dev的主要优点包括低延迟、高效率和易于研究人员进行微调和构建。产品背景信息显示,Standard Intelligence致力于构建对全人类有益的通用智能,而hertz-dev是这一旅程的第一步。
开源机器人模拟平台,用于生成无限机器人数据和泛化AI。
ManiSkill是一个领先的开源平台,专注于机器人模拟、无限机器人数据生成和泛化机器人AI。由HillBot.ai领导,该平台支持通过状态和/或视觉输入快速训练机器人,与其它平台相比,ManiSkill/SAPIEN实现了10-100倍的视觉数据收集速度。它支持在GPU上并行模拟和渲染RGB-D,速度高达30,000+FPS。ManiSkill提供了40多种技能/任务和2000多个对象的预构建任务,拥有数百万帧的演示和密集的奖励函数,用户无需自己收集资产或设计任务,可以专注于算法开发。此外,它还支持在每个并行环境中同时模拟不同的对象和关节,训练泛化机器人策略/AI的时间从天缩短到分钟。ManiSkill易于使用,可以通过pip安装,并提供简单灵活的GUI以及所有功能的广泛文档。
下一代语音AI,提供卓越的音频数据处理能力。
Universal-2是AssemblyAI推出的最新语音识别模型,它在准确度和精确度上超越了前一代Universal-1,能够更好地捕捉人类语言的复杂性,为用户提供无需二次检查的音频数据。这一技术的重要性在于它能够为产品体验提供更敏锐的洞察力、更快的工作流程和一流的产品体验。Universal-2在专有名词识别、文本格式化和字母数字识别方面都有显著提升,减少了实际应用中的词错误率。
开源全栈平台,为打造顶级LLM产品提供支持
Laminar是一个开源的全栈平台,专注于从第一性原理出发进行AI工程。它帮助用户收集、理解和使用数据,以提高大型语言模型(LLM)应用的质量。Laminar支持对文本和图像模型的追踪,并且即将支持音频模型。产品的主要优点包括零开销的可观测性、在线评估、数据集构建和LLM链管理。Laminar完全开源,易于自托管,适合需要构建和管理LLM产品的开发者和团队。
开源人工智能定义,推动AI领域的开放与合作
Open Source AI Definition(OSAID)是由Open Source Initiative(OSI)发布的行业首个开源人工智能定义。它提供了一个标准,通过社区领导的开放和公共评估来验证一个AI系统是否可以被认为是开源AI。OSAID v1.0的发布是多年研究和合作的结果,经过国际研讨会和为期一年的共同设计过程。这个定义要求开源模型提供足够的训练数据信息,以便熟练的人可以使用相同或类似的数据重建一个大致等效的系统。OSAID的发布对于推动AI领域的开放性、透明度和合作具有重要意义,它强调了开源原则在AI发展中的核心地位,并为独立机器学习研究人员和大型AI开发者之间的透明度提供了支持。
© 2024 AIbase 备案号:闽ICP备08105208号-14