需求人群:
"该产品适合教育工作者用于开发互动式教学内容,也适合创意工作者获取灵感,同时也能为普通用户提供趣味性的娱乐体验。"
使用场景示例:
教育场景:教师利用该聊天机器人设计互动式故事课程,激发学生的学习兴趣。
创意写作:作家通过与聊天机器人的互动,获取故事创作灵感,探索不同的情节发展。
家庭娱乐:家长和孩子一起使用该产品,共同创作属于自己的冒险故事。
产品特色:
利用 Deepgram 实现语音转文字,将用户的语音指令转换为文本。
通过 Google Gemini 2.0 生成故事内容,提供丰富的故事情节和选择。
使用 ElevenLabs 将文本转换为语音,增强故事的沉浸感。
借助 Google Imagen 生成与故事内容相关的图像,提升视觉体验。
支持自定义环境变量,方便用户根据需求调整配置。
提供本地运行和 Docker 部署两种方式,便于开发和测试。
使用教程:
1. 克隆项目代码到本地。
2. 安装 Python 环境并创建虚拟环境,运行 `pip install -r requirements.txt` 安装依赖。
3. 创建 `.env` 文件并配置相关环境变量。
4. 进入 `frontend` 文件夹,运行 `npm install` 和 `npm run build` 构建前端。
5. 启动后端服务,运行 `python src/bot_runner.py --host localhost`。
6. 在浏览器中访问 `http://localhost:7860`,开始使用。
浏览量:111
最新流量情况
月访问量
5.21m
平均访问时长
00:06:29
每次访问页数
6.12
跳出率
35.96%
流量来源
直接访问
52.10%
自然搜索
32.78%
邮件
0.05%
外链引荐
12.82%
社交媒体
2.16%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
13.96%
德国
3.65%
印度
9.02%
俄罗斯
4.03%
美国
19.10%
一个基于语音交互的故事创作聊天机器人,提供沉浸式的“选择你自己的冒险”体验。
该产品利用 Gemini 2.0 语言模型和 Google Imagen 图像生成技术,结合语音识别和语音合成,为用户提供一个互动式的故事创作体验。用户可以通过语音输入选择故事走向,系统会实时生成故事内容和相关图像。该产品的主要优点是创新的交互方式和强大的内容生成能力,适合用于教育、娱乐和创意启发。目前该产品处于开源阶段,未明确具体定价,主要面向开发者和教育机构。
为酒店提供多语言AI语音代理,提升客户体验并降低运营成本。
Riviera 是一款专为酒店行业设计的AI语音平台,旨在通过智能化的语音交互提升客户体验并优化酒店运营效率。它支持多语言对话,能够快速响应客户咨询,处理预订、房间服务等需求,同时通过数据分析提供个性化服务。该产品利用先进的AI技术,减少人工干预,降低运营成本,尤其适合酒店在高峰期减轻员工工作压力。其背景是随着酒店行业的数字化转型,客户对服务的即时性和个性化需求日益增长,Riviera 正是为满足这一需求而生。价格和具体定位需根据酒店规模和需求定制。
增强你的Lovable.dev工作流,提供文档访问、AI规划工具和自动化测试能力。
Lovify是Lovable.dev的扩展插件,旨在通过一系列AI驱动的功能提升开发人员的工作效率。它支持GitHub集成,能够快速导入和管理仓库;提供智能提示增强功能,根据上下文优化提示;具备项目规划工具,自动生成PRD和行动计划;支持语音交互,实现免手动编码和调试;还有快捷的斜杠命令,快速访问各种功能。这些功能的结合使得开发人员能够更高效地编写代码、管理项目,并获得实时帮助。目前该产品处于推广阶段,具体价格未明确,但可通过Chrome扩展程序商店免费试用。
使用AI大模型一键生成高清故事短视频,支持多种语言模型和图像生成技术。
Story Flicks 是一个基于AI大模型的故事短视频生成工具。它通过结合先进的语言模型和图像生成技术,能够根据用户输入的故事主题快速生成包含AI生成图像、故事内容、音频和字幕的高清视频。该产品利用了当前流行的AI技术,如OpenAI、阿里云等平台的模型,为用户提供高效、便捷的内容创作方式。它主要面向需要快速生成视频内容的创作者、教育工作者和娱乐行业从业者,具有高效、低成本的特点,能够帮助用户节省大量时间和精力。
AI模型上构建的AI应用和网站平台
Agentplace是一个无需编码知识即可在AI模型上构建AI应用和网站平台。它利用AI的适应性、常识、知识和语音能力,允许用户完全通过文本编程。产品的主要优点包括动态用户界面、语音模式、常识理解和即时发布。Agentplace的背景信息显示,它旨在通过AI技术简化网站和应用的创建过程,使非技术用户也能轻松构建交互式和动态的网站。价格方面,Agentplace提供免费和付费两种定价计划,以满足不同用户的需求。
多模态AI平台,整合文本、图像和音频交互
GPT-4o是OpenAI推出的先进多模态AI平台,它在GPT-4的基础上进一步扩展,实现了真正的多模态方法,涵盖文本、图像和音频。GPT-4o设计上更快、更低成本、更普及,彻底革新我们与AI互动的方式。它提供了流畅且直观的AI交互体验,无论是参与自然对话、解读复杂文本,还是识别语音中的微妙情感,GPT-4o的适应能力都是无与伦比的。
与任何大型语言模型进行快速的免提语音交互。
Open-LLM-VTuber 是一个开源项目,旨在通过语音与大型语言模型(LLM)进行交互,具有实时的Live2D面部捕捉和跨平台的长期记忆功能。该项目支持macOS、Windows和Linux平台,允许用户选择不同的语音识别和语音合成后端,以及自定义的长期记忆解决方案。它特别适合希望在不同平台上实现与AI进行自然语言对话的开发者和爱好者。
基于AI的智能助手App,提供个性化对话体验。
飞船App是一款基于人工智能技术的智能助手应用,专为移动端设计。它通过自然语言对话,提供有趣、有料、有用的交互体验,满足用户在娱乐、效率等方面的需求。产品支持文字与语音输入,提供多音色的TTS选择,使交互更自然、亲切。
使用AI语音表单收集数据
Waveform.ai 是一个利用人工智能技术通过语音表单收集数据的平台。它通过自然语言交互的方式,帮助用户在客户访谈、员工调查、市场研究和潜在客户生成等方面进行数据收集。该平台的主要优点包括:1. 更全面和深入的信息收集:通过AI驱动的调查,能够收集到更全面和有洞察力的数据,从而进行更深入的分析和做出更明智的决策。2. 更高的响应率:通过AI驱动的语音表单与用户进行自然互动,提高调查的响应率和用户满意度。3. 反映品牌身份:可以个性化语音和个性,以反映品牌身份,创造一致且难忘的用户体验。4. 时间和成本效益:与传统的人工数据收集方法相比,节省时间和降低成本,同时保持准确性和可靠性。
世界首款为医院儿童定制的AI故事创作、讲述和插画产品
Dream Kid是世界上第一个为医院环境中的儿童量身定制、创作、讲述和插画儿童图书的AI讲故事产品。每个故事都旨在帮助您的孩子理解、应对并在医疗旅程中找到勇气。
通过真人般的数字人及声音构建AI互动
Diarupt是一个通过真人般的数字人物和逼真的声音,在短时间内为您的产品构建动态AI互动和对话的平台。它提供易于使用的API和SDK,您可以通过它们将富有情感和连贯的对话体验嵌入到您的产品中。
InternVL3开源:7种尺寸覆盖文、图、视频处理,多模态能力扩展至工业图像分析
InternVL3是由OpenGVLab开源发布的多模态大型语言模型(MLLM),具备卓越的多模态感知和推理能力。该模型系列包含从1B到78B共7个尺寸,能够同时处理文字、图片、视频等多种信息,展现出卓越的整体性能。InternVL3在工业图像分析、3D视觉感知等领域表现出色,其整体文本性能甚至优于Qwen2.5系列。该模型的开源为多模态应用开发提供了强大的支持,有助于推动多模态技术在更多领域的应用。
昆仑万维开源的高性能数学代码推理模型,性能卓越
Skywork-OR1是由昆仑万维天工团队开发的高性能数学代码推理模型。该模型系列在同等参数规模下实现了业界领先的推理性能,突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈。Skywork-OR1系列包括Skywork-OR1-Math-7B、Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview三款模型,分别聚焦数学推理、通用推理和高性能推理任务。此次开源不仅涵盖模型权重,还全面开放了训练数据集和完整训练代码,所有资源均已上传至GitHub和Huggingface平台,为AI社区提供了完全可复现的实践参考。这种全方位的开源策略有助于推动整个AI社区在推理能力研究上的共同进步。
使 AI 能够控制 Android 设备的强大自动化工具。
Droidrun 是一个强大的 Android 自动化工具,旨在使 AI 代理能够无缝地与 Android 应用程序进行互动。它结合了视觉理解和 UI 结构提取,为 AI 提供了一个强大的移动平台。Droidrun 目前处于等待名单阶段,面向个人开发者、小型团队和企业提供不同的解决方案。
一款通过生成模型提升图像生成一致性的工具。
UNO 是一个基于扩散变换器的多图像条件生成模型,通过引入渐进式跨模态对齐和通用旋转位置嵌入,实现高一致性的图像生成。其主要优点在于增强了对单一或多个主题生成的可控性,适用于各种创意图像生成任务。
使用微信聊天记录微调大语言模型,实现高质量声音克隆。
WeClone 是一个基于微信聊天记录微调大语言模型的项目,主要用于实现高质量的声音克隆和数字分身。它结合了微信语音消息和 0.5B 大模型,允许用户通过聊天机器人与自己的数字分身互动。该技术在数字永生和声音克隆领域具有重要的应用价值,可以让用户在不在场的情况下继续与他人交流。此项目正在快速迭代中,适合对 AI 和语言模型感兴趣的用户,且目前处于免费的开发阶段。
Dream 7B 是最强大的开放扩散大语言模型。
Dream 7B 是由香港大学 NLP 组和华为诺亚方舟实验室联合推出的最新扩散大语言模型。它在文本生成领域展现了优异的性能,特别是在复杂推理、长期规划和上下文连贯性等方面。该模型采用了先进的训练方法,具有强大的计划能力和灵活的推理能力,为各类 AI 应用提供了更为强大的支持。
探讨 Writer AI HQ在企业中的实际应用与价值。
Agentic AI 已成为 AI 领域中的热门词汇,尽管 AI 创新迅速增长,但大多数企业的成果依然平淡无奇。与 Writer 合作的客户,包括 Uber、Mars、Intuit 等,表示他们的 AI 应用是为数不多的成功案例之一,真正实现了用户采纳、规模化和投资回报率。我们将应用我们的端到端平台和专业知识,提供真正的 Writer AI HQ。
HiPixel 是一款用于 AI 驱动的图像超分辨处理的 macOS 桌面客户端应用。
HiPixel 是一款原生 macOS 应用程序,专为图像超分辨率处理而设计。它利用 Upscayl 的 AI 模型,提供高质量图像放大功能,且通过 GPU 加速实现快速处理,适合需要图像处理的设计师和摄影师。该产品在 macOS 平台上运行流畅,支持多种图像格式,并提供便捷的文件夹监控功能。HiPixel 的定位为高效的图像处理工具,旨在提高用户的工作效率。
一份由自主 AI 代理提供的每日 AI 时事通讯。
AGI News 是一个开源项目,利用自主 AI 代理技术收集并发送最新的 AI 新闻。该项目通过 Firecrawl、Resend 等工具搭建,致力于为用户提供精准及时的 AI 资讯。其主要优势在于自动化的信息收集和快速的信息发布,使得用户能够方便快捷地获取行业动态。
一款高效的推理与聊天大语言模型。
Llama-3.1-Nemotron-Ultra-253B-v1 是一个基于 Llama-3.1-405B-Instruct 的大型语言模型,经过多阶段的后训练以提升推理和聊天能力。该模型支持高达 128K 的上下文长度,具备较好的准确性和效率平衡,适用于商业用途,旨在为开发者提供强大的 AI 助手功能。
一个开放源代码的 14B 参数编程模型,具备高效的代码推理能力。
DeepCoder-14B-Preview 是一个基于强化学习的代码推理大型语言模型,能够处理长上下文,具有 60.6% 的通过率,适用于编程任务和自动化代码生成。该模型的优势在于其训练方法的创新,提供了比其他模型更优的性能,且完全开源,支持广泛的社区应用和研究。
用于评估 AI 代理在 Pokemon Red 游戏中的表现。
PokemonGym 是一个基于服务器 - 客户端架构的平台,专为 AI 代理设计,能够在 Pokemon Red 游戏中进行评估和训练。它通过 FastAPI 提供游戏状态,支持人类与 AI 代理的互动,帮助研究人员和开发者测试和改进 AI 解决方案。
AnimeGamer 是一个无限动漫生活模拟与下一游戏状态预测的工具。
AnimeGamer 是基于多模态大型语言模型(MLLM)构建的,可以生成动态动画镜头和角色状态更新,为用户提供无尽的动漫生活体验。它允许用户通过开放式语言指令与动漫角色互动,创建独特的冒险故事。该产品的主要优点包括:动态生成与角色交互的动画,能够在不同动漫之间创建交互,丰富的游戏状态预测等。
AI 驱动的照片编辑与增强工具,助力电商。
PhotoG 是全球首个AI营销智能体,专为电商与品牌方设计。它仅需一张产品图与自然语言,即可生成包含营销图片、营销视频、3D模型、营销文案、电商产品详情页、优化标题、描述和 SEO,建立网站等内容,同时提供图像、视频等内容的AI编辑功能,实现了“一人即团队”的全链路AI能力。
© 2025 AIbase 备案号:闽ICP备08105208号-14