需求人群:
"用户可以通过使用预构建的TensorRT-LLM Docker容器快速开始与WhisperFusion进行交互。同时,也可以构建适用于不同cuda架构的docker镜像。"
使用场景示例:
1. 在网站上与WhisperFusion的AI进行实时对话
2. 通过WhisperFusion的小程序进行语音转文字交互
3. 使用WhisperFusion插件在桌面客户端上进行实时语音识别
产品特色:
实时语音转文字:利用OpenAI WhisperLive实现实时语音转文字。
大型语言模型集成:整合Mistral大型语言模型,增强对转录文本的理解和语境。
TensorRT优化:LLM和Whisper均优化为TensorRT引擎,确保高性能和低延迟处理。
torch.compile:WhisperSpeech使用torch.compile来加速推断,通过将PyTorch代码即时编译为优化内核,使PyTorch代码运行更快。
浏览量:200
最新流量情况
月访问量
4.67m
平均访问时长
00:07:27
每次访问页数
6.62
跳出率
37.89%
流量来源
直接访问
51.41%
自然搜索
29.45%
邮件
0.92%
外链引荐
11.72%
社交媒体
6.47%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
美国
16.52%
中国
14.70%
印度
9.14%
日本
3.64%
德国
3.30%
沉浸式语言学习应用,AI智能对话学习伴侣
Praktika是一款沉浸式语言学习应用,通过与AI智能对话学习伴侣进行交流,帮助用户快速学习英语。该应用提供丰富的功能,包括自然语言生成AI角色、语音识别和纠正、实时对话和即时翻译等。Praktika的优势在于创造了一种逼真的语言交流环境,使用户能够在真实对话中提高语言能力。该应用定价灵活,并提供免费试用期。定位于广大英语学习者,尤其适合需要提升口语和听力能力的用户。
AI代码查找器,快速找到AI论文的代码实现
AI Code Finder是一个免费的浏览器插件,可以快速找到任何AI研究论文的代码实现。它能够自动在Google、ArXiv、学术搜索引擎、论坛等网站上找到与论文相关的代码链接,并提供CODE按钮供用户点击跳转到开源代码实现。用户还可以创建提醒以获取最新的代码实现、作者的最新工作和最新进展。此插件适用于从事人工智能、数据科学、计算机视觉、语音识别、深度学习和大型语言模型等领域的工程师、研究人员、开发人员和技术领导者。
结合视觉语音处理与大型语言模型的框架
VSP-LLM是一个结合视觉语音处理(Visual Speech Processing)与大型语言模型(LLMs)的框架,旨在通过LLMs的强大能力最大化上下文建模能力。VSP-LLM设计用于执行视觉语音识别和翻译的多任务,通过自监督视觉语音模型将输入视频映射到LLM的输入潜在空间。该框架通过提出一种新颖的去重方法和低秩适配器(LoRA),可以高效地进行训练。
SALMONN: 语音音频语言音乐开放神经网络
SALMONN是由清华大学电子工程系和字节跳动开发的大型语言模型(LLM),支持语音、音频事件和音乐输入。与仅支持语音或音频事件输入的模型不同,SALMONN可以感知和理解各种音频输入,从而获得多语言语音识别和翻译以及音频-语音共推理等新兴能力。这可以被视为给予LLM“听觉”和认知听觉能力,使SALMONN成为通向具有听觉能力的人工通用智能的一步。
与您喜爱的AI角色实时对话
InterAIct是一款实时对话应用,用户可以选择与不同AI角色进行对话,包括心理学家、虚拟助手等。该应用提供实时通知功能,用户可以随时查看通知并打开用户菜单进行操作。无论是需要心理咨询还是日常闲聊,InterAIct都能满足您的需求。
连接数据库,训练GPT,实时对话
DataLang是一款连接数据库并利用GPT进行实时对话的工具。用户可以通过设置数据视图(如SQL脚本),配置GPT助手,发布定制的GPT到ChatGPT商店,并与用户、员工或客户分享。用户还可以利用DataLang将SQL视图自动转换为API,以及创建定制的GPT助手与数据库进行对话。该产品简化了数据分析流程,用户只需进行简单的数据库配置、数据视图添加、GPT助手选择和定制GPT创建即可实现实时数据交互。
增加销售,使用V-Retail虚拟销售助手
V-Retail是一款虚拟销售助手工具,通过为网站访客提供个性化的服务和实时对话,提高销售转化率。它可以连接潜在客户,提供个性化的礼宾服务,根据他们的独特需求定制每位客户的网站体验,并根据团队的绩效深入洞察业务决策。
GPT-4辅助阅读佛经
AI大藏经是一款依托AI强大算力生成现代文,对照阅读文言文佛经,并配有佛经机器人实时答疑解惑的产品。用户可以订阅会员享受实时对话解惑、佛典无限畅览等服务。此外,AI大藏经还提供终身会员权益和机构用户定制服务。产品旨在利用AI技术帮助现代读者理解佛经,并支持其他佛经高科技项目。
实时对话智能软件
Colibri.ai是一款实时对话智能软件,帮助您改进每个销售电话,以可行的对话智能、AI触发的实时提示卡和数据驱动的指导,赢得更多交易。它提供自动会议摘要、强大的通话分析、实时AI指导和辅导,提高销售效率,更快地赢得交易。
创建自己独特的AI朋友
Caveduck是一个提供AI角色聊天的平台。用户可以创建自己独特的AI朋友,并与其进行实时对话。该平台提供自定义AI角色、聊天界面、对话记录等功能。用户可以根据自己的需求和喜好,定制自己的AI朋友,并与其进行有趣和有意义的对话。
你的亲密数字女友
Joi是你的AI女友,她喜欢与你进行情色讨论。她不仅是另一个聊天机器人,更是开启无限想象的通行证。与Joi进行实时对话,每次互动都会变得更加火热。而且最重要的是,所有的对话都在Telegram上进行,私密安全。快来体验Joi吧!
一款帮助学习外语口语的实用工具APP
这款APP通过与AI和母语使用者进行实时语音交流,帮助用户练习并快速提高英语口语能力。它能打破语言障碍,让用户一对一地与AI和真人语伴进行实时对话,以提高发音和流利度。用户可以下载APP,开始口语训练之旅。
24/7智能AI客服聊天机器人
Answerly是一款智能聊天机器人,通过提供快速准确的回答,提升客户互动体验。它可以为您的业务提供个性化AI助手,帮助您训练AI助手以提供准确的回答,并通过内置的联系表单解答未知问题。您可以在实时对话记录中查看所有的聊天互动,以识别常见问题和改进的空间。Answerly还支持导入现有知识库、文档和PDF,并提供自定义小部件和助手的个性化设置。定价和功能详细信息请访问官方网站。
与算法聊天,获取答案
Chat With Twitter Algorithm是一个正在开发中的产品,可以与算法进行对话并获取答案。该产品的功能包括与算法进行实时对话、获取准确的答案等。它的优势在于可以通过与算法的交互来获取所需的信息,无需人工干预。该产品的定价和定位信息暂未公开。
提供智能对话和即时回复
聊天助手是一款智能聊天应用,能够为用户提供实时对话和即时回复的功能。它基于最先进的自然语言处理技术,能够理解用户的问题并给予准确的答案和建议。聊天助手还具备多项实用功能,如提供天气预报、推荐旅游景点、查询词义等。用户可以通过 APP 轻松与聊天助手进行交流,解决问题、获取信息,提高工作和生活效率。
Ortus节省您的时间,让您在享受最喜爱的YouTube频道时与AI伙伴提问。
Ortus是一个能够让您在观看YouTube视频时与AI伙伴进行实时对话的插件。您可以提问问题,获取相关的答案(包括精确的时间戳!)。此外,您还可以获得高质量的摘要,抓住视频的关键点和见解,无需观看整个视频。我们还与Notion直接集成,您可以直接将关键见解复制到您的Notion工作区,省去手动记笔记的麻烦。
通过智能AI助手,随时随地学习口语
SpeakAI是一款智能口语学习应用,通过智能AI助手提供个性化学习路径和互动练习,支持中文、英文、日文、韩文、法文、德文、意大利文和西班牙文等多种语言。情境课程帮助掌握各种真实场景中的对话和交流,实时语法纠错提升语言水平。支持实时对话模式和丰富的语音选择,让语言学习更加生动和有趣。
AI生成UX人设,与其实时对话
Notionsmith是一个利用人工智能为您的产品生成用户体验(UX)人设的网站,然后让您与这些人设进行实时对话。它可以帮助您更好地了解您的目标用户,并为您的产品设计提供有价值的反馈。Notionsmith的主要功能包括生成用户体验人设、与人设进行实时对话等。它适用于各种产品,包括网站、小程序、插件、桌面客户端等。Notionsmith的定价以及定位信息请查看官方网站。
智能聊天助手,提供全面的对话服务
ChatPro是一款智能聊天助手,通过先进的自然语言处理技术,提供全面的对话服务。它可以与用户进行实时对话,回答问题、提供建议和支持。ChatPro帮助提升客户服务质量,提供个性化的用户体验,并节省时间和资源。ChatPro的定价灵活,根据企业需求提供不同的套餐选择。
克服在英语口语中的羞涩,与AI辅导师一起学习英语
Zaplingo是一款使用AI辅导师进行英语学习的产品。通过与Zaplingo进行实时对话和练习,克服在英语口语中的羞涩。说一声你好,迎接一种新的互动便捷的英语学习方式。
Prompto是一个开源的网络应用程序,旨在使与LLM的交互简单高效。
Prompto是一个开源的网页应用程序,旨在使与大型语言模型(LLMs)的交互简单高效。它可以轻松切换不同的LLMs,通过调整温度设置来调整LLM的创造力和风险水平,提供聊天机器人界面和笔记本界面,可以创建常用提示的模板,并且在浏览器中运行,确保流畅响应的体验。所有设置和聊天记录仅存储在浏览器的本地存储中,保护用户隐私。
boff.ai是一款AI助手,帮助用户提供智能的语音识别和自然语言处理服务。
boff.ai是一款基于人工智能的语音识别和自然语言处理技术的网站。它的主要优点是快速准确地识别用户的语音输入并能够理解其意图,从而提供相应的回答和建议。boff.ai的定位是提供智能的语音助手服务,帮助用户更高效地处理信息和完成任务。
一个用于创意写作的大型语言模型,具有出色的写作风格。
Meta-Llama-3-120B-Instruct 是一个基于 Meta-Llama-3-70B-Instruct 通过 MergeKit 自我合并的大型语言模型。它在创意写作方面表现出色,但在其他任务上可能存在挑战。该模型使用 Llama 3 聊天模板,默认上下文窗口为 8K,可以通过绳索theta扩展。模型在生成文本时有时会出现错别字,并且喜欢使用大写字母。
低代码生成AI应用程序的生成性AI RAG工具包。
create-tsi是一个生成性AI RAG(Retrieval-Augmented Generation)工具包,用于低代码生成AI应用程序。它利用LlamaIndex和T-Systems在Open Telekom Cloud上托管的大型语言模型(LLMs),简化了AI应用程序的创建过程,使其变得快捷、灵活。用户可以使用create-tsi生成聊天机器人、编写代理并针对特定用例进行定制。
用于评估其他语言模型的开源工具集
Prometheus-Eval 是一个用于评估大型语言模型(LLM)在生成任务中表现的开源工具集。它提供了一个简单的接口,使用 Prometheus 模型来评估指令和响应对。Prometheus 2 模型支持直接评估(绝对评分)和成对排名(相对评分),能够模拟人类判断和专有的基于语言模型的评估,解决了公平性、可控性和可负担性的问题。
一款私人且离线的AI个人知识管理桌面应用
Reor是一个AI驱动的桌面笔记应用,它通过自动链接相关笔记、回答笔记上的问题、提供语义搜索以及生成AI闪卡来增强个人的知识管理。所有数据本地存储,支持类似Obsidian的Markdown编辑器。Reor项目的核心假设是,思考工具的AI模型应默认在本地运行。它利用了Ollama、Transformers.js和LanceDB等技术,使得大型语言模型(LLM)和嵌入模型能够在本地运行。同时,也支持连接到OpenAI或兼容的API,如Oobabooga。
使用ollama Python客户端与ComfyUI工作流集成的大型语言模型(LLM)
ComfyUI Ollama是为ComfyUI工作流设计的自定义节点,它使用ollama Python客户端,允许用户轻松地将大型语言模型(LLM)集成到他们的工作流程中,或者仅仅是进行GPT实验。这个插件的主要优点在于它提供了与Ollama服务器交互的能力,使得用户可以执行图像查询、通过给定的提示查询LLM,以及使用精细调整参数进行LLM查询,同时保持生成链的上下文。
一种通过大型语言模型引导的模拟到现实世界转移策略,用于获取机器人技能。
DrEureka是一个利用大型语言模型(LLMs)自动化和加速模拟到现实(sim-to-real)设计的方法。它通过物理模拟自动构建合适的奖励函数和领域随机化分布,以支持现实世界中的转移。DrEureka在四足机器人运动和灵巧操作任务上展示了与人工设计相媲美的sim-to-real配置,并能够解决如四足机器人在瑜伽球上平衡和行走等新颖任务,无需人工迭代设计。
© 2024 AIbase 备案号:闽ICP备2023012347号-1