需求人群:
"适用于家庭日常购物、食材清单整理等场景"
使用场景示例:
{ "scene": "家庭日常购物", "description": "家庭成员使用HoneyDo共享购物清单,实时同步购物需求" }
{ "scene": "食材清单整理", "description": "通过语音输入或拍照识别食材,整理食材购买清单" }
{ "scene": "多语言购物清单", "description": "支持多语言输入,满足不同语言环境下的购物需求" }
产品特色:
语音输入购物清单
拍照识别食材并列出清单
与家人实时同步共享购物清单
支持多语言输入
免费版和PRO版
浏览量:18
最新流量情况
月访问量
1.25m
平均访问时长
00:00:51
每次访问页数
1.52
跳出率
74.29%
流量来源
直接访问
37.79%
自然搜索
32.20%
邮件
0.09%
外链引荐
23.83%
社交媒体
2.64%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
6.17%
英国
4.36%
印度
4.26%
日本
6.98%
美国
24.21%
语音识别AI购物清单助手
HoneyDo是一款语音识别AI购物清单助手,通过语音输入购物清单,AI将其转化为整洁有序的列表。另外,还支持拍照识别食材并列出清单,以及与家人实时同步共享购物清单等功能。HoneyDo分为免费版和PRO版,PRO版提供无限语音录制和图像捕捉功能。
联合语音转录和实体识别的先进模型
Whisper-NER是一个创新的模型,它允许同时进行语音转录和实体识别。该模型支持开放类型的命名实体识别(NER),能够识别多样化和不断演变的实体。Whisper-NER旨在作为自动语音识别(ASR)和NER下游任务的强大基础模型,并且可以在特定数据集上进行微调以提高性能。
多模态语音大型语言模型
ultravox-v0_4_1-mistral-nemo是一个基于预训练的Mistral-Nemo-Instruct-2407和whisper-large-v3-turbo的多模态语音大型语言模型(LLM)。该模型能够同时处理语音和文本输入,例如,一个文本系统提示和一个语音用户消息。Ultravox通过特殊的<|audio|>伪标记将输入音频转换为嵌入,并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记,进而可以输入到声码器中产生语音输出。该模型由Fixie.ai开发,采用MIT许可。
多模态语音大型语言模型
fixie-ai/ultravox-v0_4_1-llama-3_1-70b是一个基于预训练的Llama3.1-70B-Instruct和whisper-large-v3-turbo的大型语言模型,能够处理语音和文本输入,生成文本输出。该模型通过特殊伪标记<|audio|>将输入音频转换为嵌入,并与文本提示合并后生成输出文本。Ultravox的开发旨在扩展语音识别和文本生成的应用场景,如语音代理、语音到语音翻译和口语音频分析等。该模型遵循MIT许可,由Fixie.ai开发。
多模态语音大型语言模型
fixie-ai/ultravox-v0_4_1-llama-3_1-8b是一个基于预训练的Llama3.1-8B-Instruct和whisper-large-v3-turbo的大型语言模型,能够处理语音和文本输入,生成文本输出。该模型通过特殊的<|audio|>伪标记将输入音频转换为嵌入,并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记,进而可以用于声码器产生语音输出。该模型在翻译评估中表现出色,且没有偏好调整,适用于语音代理、语音到语音翻译、语音分析等场景。
下一代语音AI,打造自然沟通的AI语音代理。
Ultravox.ai是一个先进的语音语言模型(SLM),直接处理语音,无需转换为文本,实现更自然、流畅的对话。它支持多语言,易于适应新语言或口音,确保与不同受众的顺畅沟通。产品背景信息显示,Ultravox.ai是一个开源模型,用户可以根据自己的需求进行定制和部署,价格为每分钟5美分。
基于LLM的智能字幕助手,一键生成高质量视频字幕
卡卡字幕助手(VideoCaptioner)是一款功能强大的视频字幕配制软件,利用大语言模型进行字幕智能断句、校正、优化、翻译,实现字幕视频全流程一键处理。产品无需高配置,操作简单,内置基础LLM模型,保证开箱即用,且消耗模型Token少,适合视频制作者和内容创作者。
Najva:您的AI驱动的Mac语音助手,将语音快速转换为文本。
Najva是一款专为Mac设计的AI驱动的语音助手,它结合了先进的本地语音识别技术和强大的AI模型,将您的语音转换成智能文本。这款应用特别适合那些思维速度比打字速度快的用户,如作家、开发者、医疗专业人员等。Najva以其轻量级、原生Swift应用、零追踪和完全免费等特点,为用户提供了一个注重隐私和效率的工作流程解决方案。
开源的全双工音频生成基础模型
hertz-dev是Standard Intelligence开源的全双工、仅音频的变换器基础模型,拥有85亿参数。该模型代表了可扩展的跨模态学习技术,能够将单声道16kHz语音转换为8Hz潜在表示,具有1kbps的比特率,性能优于其他音频编码器。hertz-dev的主要优点包括低延迟、高效率和易于研究人员进行微调和构建。产品背景信息显示,Standard Intelligence致力于构建对全人类有益的通用智能,而hertz-dev是这一旅程的第一步。
完美礼物,为每一个时刻准备
GyftPro是一款AI驱动的礼物推荐应用,旨在简化寻找完美礼物的过程。用户可以通过这个应用探索各种产品,保存礼物想法,甚至直接在应用内购买礼物。它的主要优点包括个性化礼物推荐、基于事件的礼物清单管理、直接购买和通过联盟链接探索产品、按品牌购物、社交礼物分享以及节日特别优惠。GyftPro让礼物购物变得有趣、简单、无压力。
Android平台上的私有、设备端语音识别键盘和文字服务
Transcribro是一款运行在Android平台上的私有、设备端语音识别键盘和文字服务应用,它使用whisper.cpp来运行OpenAI Whisper系列模型,并结合Silero VAD进行语音活动检测。该应用提供了语音输入键盘,允许用户通过语音进行文字输入,并且可以被其他应用显式使用,或者设置为用户选择的语音转文字应用,部分应用可能会使用它来进行语音转文字。Transcribro的背景是为用户提供一种更安全、更私密的语音转文字解决方案,避免了云端处理可能带来的隐私泄露问题。该应用是开源的,用户可以自由地查看、修改和分发代码。
下一代语音AI,提供卓越的音频数据处理能力。
Universal-2是AssemblyAI推出的最新语音识别模型,它在准确度和精确度上超越了前一代Universal-1,能够更好地捕捉人类语言的复杂性,为用户提供无需二次检查的音频数据。这一技术的重要性在于它能够为产品体验提供更敏锐的洞察力、更快的工作流程和一流的产品体验。Universal-2在专有名词识别、文本格式化和字母数字识别方面都有显著提升,减少了实际应用中的词错误率。
端到端中英语音对话模型
GLM-4-Voice是由清华大学团队开发的端到端语音模型,能够直接理解和生成中英文语音,进行实时语音对话。它通过先进的语音识别和合成技术,实现了语音到文本再到语音的无缝转换,具备低延迟和高智商的对话能力。该模型在语音模态下的智商和合成表现力上进行了优化,适用于需要实时语音交互的场景。
AI驱动的语音听写工具
Whispo是一款利用人工智能技术的语音听写工具,它能够将用户的语音实时转换成文字。这款工具使用了OpenAI Whisper技术进行语音识别,并支持使用自定义API进行语音转写,还允许通过大型语言模型进行转录后处理。Whispo支持多种操作系统,包括macOS(Apple Silicon)和Windows x64,并且所有数据都存储在本地,保障了用户隐私。它的设计背景是为了提高那些需要大量文字输入的用户的工作效率,无论是编程、写作还是日常记录。Whispo目前是免费试用的,但具体的定价策略尚未在页面上明确。
多模态语言模型,融合文本和语音
Spirit LM是一个基础多模态语言模型,能够自由混合文本和语音。该模型基于一个7B预训练的文本语言模型,通过持续在文本和语音单元上训练来扩展到语音模式。语音和文本序列被串联为单个令牌流,并使用一个小的自动策划的语音-文本平行语料库,采用词级交错方法进行训练。Spirit LM有两个版本:基础版使用语音音素单元(HuBERT),而表达版除了音素单元外,还使用音高和风格单元来模拟表达性。对于两个版本,文本都使用子词BPE令牌进行编码。该模型不仅展现了文本模型的语义能力,还展现了语音模型的表达能力。此外,我们展示了Spirit LM能够在少量样本的情况下跨模态学习新任务(例如ASR、TTS、语音分类)。
一站式AI创作工具,提升创作效率。
吱秘AI创作中心是一个集成了多种AI大模型的创作平台,提供文本、PPT、教学等多种模板,支持一键生成高质量内容,帮助用户提升创作效率。产品背景基于当前内容创作的需求,通过AI技术降低创作门槛,提高生产力。价格方面,部分功能需要成为VIP会员才能使用,显示出产品的市场定位是面向有一定付费能力的创作者或企业。
利用AI技术,提供个性化购物体验和产品推荐
Google Shopping是一个利用人工智能技术,帮助用户在超过45亿的产品列表中找到相关产品、发现个性化选项并找到最低价的在线购物平台。它通过AI生成的简报,为用户提供购物研究的智能展示,简化了用户的购物研究过程。此外,它还包括虚拟试穿功能、AR购物工具等,帮助用户更有信心地购物。Google Shopping的个性化主页还会根据用户的偏好,提供可购物的产品和视频,使用户能够根据自己的喜好进行购物。
功能强大的语音离线文件转写服务
FunASR是一款语音离线文件转写服务软件包,集成了语音端点检测、语音识别、标点等模型,能够将长音频与视频转换成带标点的文字,并支持多路请求同时转写。它支持ITN与用户自定义热词,服务端集成有ffmpeg,支持多种音视频格式输入,并提供多种编程语言客户端,适用于需要高效、准确语音转写服务的企业和开发者。
智能语音转文字工具,高效且用户友好。
AsrTools是一款基于人工智能技术的语音转文字工具,它通过调用大厂的ASR服务接口,实现了无需GPU和复杂配置的高效语音识别功能。该工具支持批量处理和多线程并发,能够快速将音频文件转换成SRT或TXT格式的字幕文件。AsrTools的用户界面基于PyQt5和qfluentwidgets,提供高颜值且易于操作的交互体验。它的主要优点包括调用大厂接口的稳定性、无需复杂配置的便捷性、以及多格式输出的灵活性。AsrTools适合需要快速将语音内容转换成文字的用户,特别是在视频制作、音频编辑和字幕生成等领域。目前,AsrTools提供免费使用大厂ASR服务的模式,对于个人和小团队来说,可以显著降低成本并提高工作效率。
AI驱动的语音笔记应用,将语音转换为有组织的摘要和清晰的行动项。
NotesGPT是一款利用人工智能技术将用户的语音笔记转换成有组织的摘要和清晰的行动项的在线服务。它通过先进的语音识别和自然语言处理技术,帮助用户更高效地记录和管理笔记,特别适合需要快速记录信息并整理成结构化内容的用户。产品背景信息显示,NotesGPT由Together.ai和Convex提供技术支持,这表明其背后有着强大的AI技术支撑。目前,该产品似乎处于推广阶段,具体价格和定位信息未在页面中明确展示。
开源的语音识别和说话人分割模型推理代码
Reverb 是一个开源的语音识别和说话人分割模型推理代码,使用 WeNet 框架进行语音识别 (ASR) 和 Pyannote 框架进行说话人分割。它提供了详细的模型描述,并允许用户从 Hugging Face 下载模型。Reverb 旨在为开发者和研究人员提供高质量的语音识别和说话人分割工具,以支持各种语音处理任务。
世界最精确的AI语音转录服务
Rev AI提供高精度的语音转录服务,支持58种以上语言,能够将视频和语音应用中的语音转换为文本。它通过使用世界上最多样化的声音集合进行训练,为视频和语音应用设定了准确性标准。Rev AI还提供实时流媒体转录、人类转录、语言识别、情感分析、主题提取、总结和翻译等服务。Rev AI的技术优势在于低词错误率、对性别和种族口音的最小偏见、支持更多语言以及提供最易读的转录文本。此外,它还符合世界顶级的安全标准,包括SOC II、HIPAA、GDPR和PCI合规性。
会议语音转文本并自动生成摘要的AI工具
AI-Powered Meeting Summarizer是一个基于Gradio的网站应用,能够将会议录音转换为文本,并使用whisper.cpp进行音频到文本的转换,以及Ollama服务器进行文本摘要。该工具非常适合快速提取会议中的关键点、决策和行动项目。
情感丰富的多模态语言模型
EMOVA(EMotionally Omni-present Voice Assistant)是一个多模态语言模型,它能够进行端到端的语音处理,同时保持领先的视觉-语言性能。该模型通过语义-声学解耦的语音分词器,实现了情感丰富的多模态对话,并在视觉-语言和语音基准测试中达到了最先进的性能。
AI购物助手,提升您的在线购物体验。
BuyScout™ 是一款AI购物助手,通过集成到浏览器中,为用户在购物时提供产品洞察、价格追踪和库存提醒等功能。它利用人工智能技术,分析用户评论和产品数据,提供个性化的购买建议,帮助用户做出更明智的购物决策。
实时对话式人工智能,一键式API接入。
Deepgram Voice Agent API 是一个统一的语音到语音API,它允许人类和机器之间进行自然听起来的对话。该API由行业领先的语音识别和语音合成模型提供支持,能够自然且实时地听、思考和说话。Deepgram致力于通过其语音代理API推动语音优先AI的未来,通过集成先进的生成AI技术,打造能够进行流畅、类似人类语音代理的业务世界。
全面对标GPT-4 Turbo的AI大语言模型
讯飞星火是科大讯飞推出的一款全面对标GPT-4 Turbo的AI大语言模型,它通过集成多种AI技术,如语音识别、自然语言处理、机器学习等,为用户提供高效、智能的办公效率工具。该产品不仅能够处理文本信息,还能进行语音识别和生成,支持多语种,适用于企业服务、智能硬件、智慧政务、智慧金融、智慧医疗等多个领域。
© 2024 AIbase 备案号:闽ICP备08105208号-14