需求人群:
"目标受众为需要语音转文字服务的Android用户,特别是对隐私有较高要求的用户。Transcribro由于其设备端处理的特性,适合那些不希望自己的语音数据上传到云端进行处理的用户,同时,开源的特性也吸引了开发者和技术爱好者,他们可以参与到应用的开发和改进中。"
使用场景示例:
记者在采访时使用Transcribro快速将对话转换为文字记录。
听障人士使用Transcribro将语音转换为文字,以便更好地理解和交流。
学生在课堂上使用Transcribro记录讲座内容,课后复习。
产品特色:
语音输入键盘:用户可以直接通过语音输入文字。
设备端处理:所有语音识别处理都在用户的设备上完成,保护用户隐私。
支持OpenAI Whisper模型:使用先进的语音识别模型提高识别准确率。
Silero VAD集成:集成语音活动检测技术,提高识别效率。
开源代码:用户可以自由查看、修改和分发应用代码。
自定义和扩展:由于开源,用户和开发者可以根据自己的需求定制和扩展功能。
使用教程:
1. 下载并安装Transcribro应用到你的Android设备。
2. 打开Transcribro应用,授权必要的麦克风访问权限。
3. 点击应用中的开始按钮,开始语音输入。
4. 说话时,Transcribro会实时将你的语音转换为文字。
5. 转换完成后,可以复制或分享转换后的文字。
6. 若需要修改或编辑文字,可以直接在应用内进行编辑。
7. 可以在设置中调整识别语言、语音模型等选项,以获得更好的识别效果。
浏览量:22
最新流量情况
月访问量
5.16m
平均访问时长
00:06:42
每次访问页数
5.81
跳出率
37.20%
流量来源
直接访问
52.27%
自然搜索
32.92%
邮件
0.05%
外链引荐
12.52%
社交媒体
2.15%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
11.99%
德国
3.63%
印度
9.20%
俄罗斯
5.25%
美国
19.02%
Android平台上的私有、设备端语音识别键盘和文字服务
Transcribro是一款运行在Android平台上的私有、设备端语音识别键盘和文字服务应用,它使用whisper.cpp来运行OpenAI Whisper系列模型,并结合Silero VAD进行语音活动检测。该应用提供了语音输入键盘,允许用户通过语音进行文字输入,并且可以被其他应用显式使用,或者设置为用户选择的语音转文字应用,部分应用可能会使用它来进行语音转文字。Transcribro的背景是为用户提供一种更安全、更私密的语音转文字解决方案,避免了云端处理可能带来的隐私泄露问题。该应用是开源的,用户可以自由地查看、修改和分发代码。
人脸匿名化技术,保留关键细节同时有效保护隐私。
face_anon_simple是一个人脸匿名化技术,旨在通过先进的算法在保护个人隐私的同时保留原始照片中的面部表情、头部姿势、眼神方向和背景元素。这项技术对于需要发布包含人脸的图片但又希望保护个人隐私的场合非常有用,比如在新闻报道、社交媒体和安全监控等领域。产品基于开源代码,允许用户自行部署和使用,具有很高的灵活性和应用价值。
Najva:您的AI驱动的Mac语音助手,将语音快速转换为文本。
Najva是一款专为Mac设计的AI驱动的语音助手,它结合了先进的本地语音识别技术和强大的AI模型,将您的语音转换成智能文本。这款应用特别适合那些思维速度比打字速度快的用户,如作家、开发者、医疗专业人员等。Najva以其轻量级、原生Swift应用、零追踪和完全免费等特点,为用户提供了一个注重隐私和效率的工作流程解决方案。
开源的语音识别和说话人分割模型推理代码
Reverb 是一个开源的语音识别和说话人分割模型推理代码,使用 WeNet 框架进行语音识别 (ASR) 和 Pyannote 框架进行说话人分割。它提供了详细的模型描述,并允许用户从 Hugging Face 下载模型。Reverb 旨在为开发者和研究人员提供高质量的语音识别和说话人分割工具,以支持各种语音处理任务。
无审查限制的AI模型平台
FreedomGPT是一个提供多种AI模型的平台,包括无审查限制的模型,用户可以在一个熟悉的界面中轻松切换开源和专有模型。它允许用户在浏览器或直接在计算机上运行这些模型,无需注册,无需技术专长。此外,它还支持离线使用,保证了用户隐私和数据安全。FreedomGPT还提供了一个开放源代码的AI平台,鼓励社区成员共同参与构建。
使用AI技术,快速总结网站法律政策。
DocDecoder是一款Chrome浏览器插件,利用GPT-4技术,为用户提供网站法律政策的清晰、简洁摘要。它通过颜色编码直观地突出显示对用户有实际影响的条款,包括积极、消极和中性影响。用户可以输入任何法律政策的URL,DocDecoder会告诉用户它如何影响他们。此外,它还标记出潜在有害的条款,并允许用户无限次查看现有的摘要。DocDecoder旨在帮助用户快速理解他们在网上实际同意的内容。
开源多模态大型语言模型,支持实时语音输入和流式音频输出。
Mini-Omni是一个开源的多模态大型语言模型,能够实现实时的语音输入和流式音频输出的对话能力。它具备实时语音到语音的对话功能,无需额外的ASR或TTS模型。此外,它还可以在思考的同时进行语音输出,支持文本和音频的同时生成。Mini-Omni通过'Audio-to-Text'和'Audio-to-Audio'的批量推理进一步增强性能。
基于大型语言模型的高性能MacOS聊天应用
ChatMLX是一款现代、开源、高性能的MacOS聊天应用程序,基于大型语言模型构建。它利用MLX的强大性能和苹果硅芯片,支持多种模型,为用户提供丰富的对话选择。ChatMLX在本地运行大型语言模型,以确保用户隐私和安全。
个性化AI助手,记录每一刻,与AI对话获取反馈。
OMI APP是一个任务驱动的个性化AI助手,旨在通过语音和音频转录功能帮助用户提高记忆力和沟通效率。它是一个开源的AI记事本,提供提醒、建议等功能,同时注重用户隐私。
与大型语言模型进行自然的语音对话
OpenVoiceChat是一个开源项目,旨在提供一个与大型语言模型(LLM)进行自然语音对话的平台。它支持多种语音识别(STT)、文本到语音(TTS)和LLM模型,允许用户通过语音与AI进行交互。项目采用Apache-2.0许可,强调开放性和易用性,目标是成为封闭商业实现的开源替代品。
全球首款个人数据导出器
Surfer是一款创新的个人数据导出器,它允许用户将个人数据从在线服务中导出并存储在本地,确保数据的安全性和隐私性。作为一款开源软件,Surfer支持多种操作系统,包括Windows和Mac,为用户提供了一种自主管理个人数据的方式。未来将与 LangChain 等其他代理框架集成,打造高级个人人工智能助理。
开源的语音到语音转换模块
speech-to-speech 是一个开源的模块化GPT4-o项目,通过语音活动检测、语音转文本、语言模型和文本转语音等连续部分实现语音到语音的转换。它利用了Transformers库和Hugging Face hub上可用的模型,提供了高度的模块化和灵活性。
300行代码实现基于LLM的语音转录。
WeST是一个开源的语音识别转录模型,以300行代码的简洁形式,基于大型语言模型(LLM)实现语音到文本的转换。它由一个大型语言模型、一个语音编码器和一个投影器组成,其中仅投影器部分可训练。WeST的开发灵感来源于SLAM-ASR和LLaMA 3.1,旨在通过简化的代码实现高效的语音识别功能。
AI驱动的内容创作引擎,开源替代方案。
OpenPlexity Pages是一个由AI驱动的内容创作引擎,旨在将您的研究转化为视觉吸引、全面的内容。它是一个开源的替代品,与Perplexity Pages不同,它完全开源,允许社区贡献和定制。它注重隐私,数据本地运行,保证您的研究和内容保持私密。此外,它还具有可定制性,可以调整内容的语调以吸引目标受众,从普通读者到主题专家。它还具有适应性,可以轻松修改文章的结构,添加、重新排列或删除部分以最好地适应您的材料。
智能隐私优先的邮件写作助手
Proton Scribe是一个集成在Proton Mail中的智能写作助手,它以隐私优先,可以帮助用户撰写和润色邮件草稿,节省撰写邮件的时间,同时保护最敏感、最有价值的数据。Proton Scribe设计为本地运行,确保用户数据不会离开设备。Proton一直致力于研究保护隐私的AI技术,并在2023年推出了Proton Sentinel,这是第一个利用AI提供增强账户保护的功能。Proton Scribe也是开源的,可以进行独立的安全和隐私审计。
自然交互的语音理解和生成基础模型
FunAudioLLM是一个旨在增强人类与大型语言模型(Large Language Models, LLMs)之间自然语音交互的框架。它包含两个创新模型:SenseVoice负责高精度多语种语音识别、情绪识别和音频事件检测;CosyVoice负责自然语音生成,支持多语种、音色和情绪控制。SenseVoice支持超过50种语言,具有极低的延迟;CosyVoice擅长多语种语音生成、零样本上下文生成、跨语言语音克隆和指令跟随能力。相关模型已在Modelscope和Huggingface上开源,并在GitHub上发布了相应的训练、推理和微调代码。
功能齐全的翻译解决方案,保护隐私。
Linguist Translate是一个注重隐私保护的翻译插件,提供离线翻译功能,不发送任何私人信息,确保用户隐私安全。它支持全页翻译,用户可以快速翻译整篇文章,同时支持自定义翻译服务。此外,它还允许用户保存翻译历史,创建个人知识库,非常适合语言学习者和需要翻译服务的旅行者。
无AI干扰的谷歌搜索页面
&udm=14的AI-Free Search是一个提供无AI干扰的谷歌搜索服务的网站,允许用户在没有人工智能干预的情况下进行搜索。它使用'udm=14'参数来实现这一点,旨在保护用户的隐私,同时提供快速、准确的搜索结果。该网站由Tedium团队构建,支持开源代码,用户可以通过Glitch或Github获取。
一个快速、轻量级的开源聊天界面。
lluminous是一个快速、轻量级的开源聊天界面,支持多供应商API密钥,提供完整的隐私保护,所有对话历史和密钥都存储在本地。它支持多模态输入、多轮对话提示、预填充响应、模型切换以及对话分享等功能。
开源、精准、方便的视频切片工具
FunClip是一款完全开源、本地部署的自动化视频剪辑工具,通过调用阿里巴巴通义实验室开源的FunASR Paraformer系列模型进行视频的语音识别,随后用户可以自由选择识别结果中的文本片段或说话人,点击裁剪按钮即可获取对应片段的视频。FunClip集成了阿里巴巴开源的工业级模型Paraformer-Large,是当前识别效果最优的开源中文ASR模型之一,并且能够一体化的准确预测时间戳。
利用AI技术,快速高效地从您的图片中移除背景。
AI-Powered Background Removal(AI驱动的背景移除)是一款基于AI技术的在线工具,它能够快速且高效地从用户上传的图片中移除背景。该工具的主要优点在于其隐私保护和本地执行能力,即图片处理在用户设备上完成,无需上传至互联网,保证了数据的安全性和处理速度。此外,作为一款开源且完全免费的工具,它极大地释放了用户的创造力,无需担心成本问题。
联合语音转录和实体识别的先进模型
Whisper-NER是一个创新的模型,它允许同时进行语音转录和实体识别。该模型支持开放类型的命名实体识别(NER),能够识别多样化和不断演变的实体。Whisper-NER旨在作为自动语音识别(ASR)和NER下游任务的强大基础模型,并且可以在特定数据集上进行微调以提高性能。
统一的开放命名实体和语音识别模型
WhisperNER是一个结合了自动语音识别(ASR)和命名实体识别(NER)的统一模型,具备零样本能力。该模型旨在作为ASR带NER的下游任务的强大基础模型,并可以在特定数据集上进行微调以提高性能。WhisperNER的重要性在于其能够同时处理语音识别和实体识别任务,提高了处理效率和准确性,尤其在多语言和跨领域的场景中具有显著优势。
为数据中心打造的高效AI推理平台
d-Matrix是一家专注于AI推理技术的公司,其旗舰产品Corsair™是为数据中心设计的AI推理平台,能够提供极高的推理速度和极低的延迟。d-Matrix通过硬件软件协同设计,优化了Generative AI推理性能,推动了AI技术在数据中心的应用,使得大规模AI推理变得更加高效和可持续。
释放超级推理能力,提升AIME & MATH基准测试性能。
DeepSeek-R1-Lite-Preview是一款专注于提升推理能力的AI模型,它在AIME和MATH基准测试中展现了出色的性能。该模型具备实时透明的思考过程,并且计划推出开源模型和API。DeepSeek-R1-Lite-Preview的推理能力随着思考长度的增加而稳步提升,显示出更好的性能。产品背景信息显示,DeepSeek-R1-Lite-Preview是DeepSeek公司推出的最新产品,旨在通过人工智能技术提升用户的工作效率和问题解决能力。目前,产品提供免费试用,具体的定价和定位信息尚未公布。
一个完全由你掌控数据的「被动记录」项目。
Pensieve是一个隐私保护的被动记录项目,它可以自动记录屏幕内容,构建智能索引,并提供便捷的网页界面来检索历史记录。这个项目受到了Rewind和Windows Recall的启发,但与它们不同,Pensieve允许用户完全控制自己的数据,避免了数据传输到不受信任的数据中心。Pensieve的主要优点包括简单安装、完整的数据控制、全文和向量搜索支持、与Ollama集成、兼容任何OpenAI API模型、支持Mac和Windows(Linux支持正在开发中)以及通过插件扩展功能。
© 2024 AIbase 备案号:闽ICP备08105208号-14