浏览量:65
实时转录与会议总结的谷歌会议扩展
MBox AI Meet是一款免费Chrome扩展,专为Google Meet设计,提供实时转录和自动生成会议总结的功能。它利用AI技术帮助用户在会议中专注于讨论,而无需担心记笔记。该工具通过实时转录捕捉会议的每一个细节,并在会议结束后自动生成总结,确保用户不会错过任何重要信息。MBox AI Meet的隐私优先策略确保会议安全,不存储任何音频或视频内容。此外,该扩展还计划在未来更新中增加更多AI功能,如发言人识别、实时AI助手等。
图像识别、标注和关键词生成工具
CrossPrism for MacOS 是一款专为摄影师设计的图像识别、标注和关键词生成工具。它利用多核 CPU、GPU 和神经引擎,能够识别物种、生成标题和描述,并支持模型训练的可定制性。用户可以在本地自动标注无限量的原始照片,确保所有照片安全地存储在 Mac 上,无需担心云服务中断、数据锁定或文件传输问题。其20多个专家模型可以对从鸟类到地标的各种内容进行分类,并提供新的视角来整理目录和重新发现旧照片。此外,它还支持视频处理、Lightroom 插件、图像质量评估等功能,使其成为一个强大的筛选工具。
使用人工智能扩展图像边界
AI Image Extender 是一款利用人工智能技术扩展图像边界的工具,通过生成新内容与现有图像无缝融合,增强图像的视觉延展性。该产品通过先进的AI算法,能够智能识别图像内容并生成自然过渡的扩展区域,适用于需要图像扩展或背景生成的各种场景。
AI驱动的内容创作引擎,开源替代方案。
OpenPlexity Pages是一个由AI驱动的内容创作引擎,旨在将您的研究转化为视觉吸引、全面的内容。它是一个开源的替代品,与Perplexity Pages不同,它完全开源,允许社区贡献和定制。它注重隐私,数据本地运行,保证您的研究和内容保持私密。此外,它还具有可定制性,可以调整内容的语调以吸引目标受众,从普通读者到主题专家。它还具有适应性,可以轻松修改文章的结构,添加、重新排列或删除部分以最好地适应您的材料。
将语音转化为强大的内容
Speech to Note是一个AI驱动的语音识别工具,能够即时将口语转换为文本。它使用先进的语音转文本技术,将您的语音转换成可以编辑或分享的简洁摘要。该产品由GPT-4技术支持,旨在提升生产力并释放创造力。
AI驱动的音频转文字服务
File Transcribe 是一款利用先进人工智能技术将音频文件转换为文本的服务。它通过高精度的AI模型,提供即时、准确的转录服务,并具备多种高级功能,如说话人识别、情绪检测、主题检测等。该服务支持多种语言,能够满足不同用户的需求,提高工作效率,适用于记者、学生、企业等各类用户。
AI驱动的文档处理工具,快速准确。
NinjaRIP是一款AI驱动的文档处理服务,它通过先进的机器学习模型来识别模式和提取有意义的信息,从而简化文档工作流程。它以99%以上的准确率在文档识别和数据提取方面提供无与伦比的精确度,确保了数据的可靠性和可信度。NinjaRIP在beta阶段免费提供,一旦过渡到正式版,将提供不同业务需求的定价计划,价格透明且具有竞争力。
开发者成长助手
HackerPulse 是一个专门为开发者设计的个人资料聚合平台。它通过整合 GitHub、LinkedIn 等多个开发者常用的平台数据,帮助开发者构建一个全面的个人资料。这个平台不仅可以展示开发者的技能和成就,还能识别技能差距和提升空间,从而支持开发者的职业成长。
基于Transformer的文本到音乐生成模型
MusiConGen是一个基于Transformer的文本到音乐生成模型,它通过时间条件增强对节奏和和弦的控制。该模型从预训练的MusicGen-melody框架中微调而来。它使用符号表示的和弦和节奏控制,并结合五种不同风格的文本描述来生成样本。生成样本的和弦通过BTC和弦识别模型进行估计,如论文中所述。
创意生成AI工具
Adobe Firefly Vector AI是Adobe推出的一系列创意生成AI模型,旨在通过生成AI功能增强创意工作。Firefly模型和服务于Photoshop、Illustrator、Lightroom等Adobe创意应用中。它通过文本到图像、生成填充、生成扩展等功能,帮助用户以前所未有的控制力和创造力生成丰富、逼真的图像和艺术作品。Firefly的训练数据包括Adobe Stock的授权内容、公开许可内容和公共领域内容,确保其商业使用安全。Adobe致力于负责任地开发生成AI,并通过与创意社区的紧密合作,不断改进技术,支持和提升创意过程。
轻量级、快速、无广告的文档扫描应用
ScanIt是一款专为iPhone和iPad设计的文档扫描应用,以其轻量级、快速、无广告的特点,为用户提供了一种简单高效的文档数字化解决方案。它拥有智能文档识别、曲面调整和文本提取(OCR)等专业功能,支持多种格式导出,并能安全加密文档,满足不同用户对扫描效率和安全性的需求。
一键生成个性化照片,快速便捷。
PhotoMaker V2是由腾讯ARC实验室开发的AI照片生成应用,利用先进的图像识别和生成技术,用户可以快速生成个性化的照片。产品背景信息显示,PhotoMaker V2旨在为用户提供一个简单、高效的图片创作工具,无论是社交媒体分享还是个人收藏,都能满足用户需求。目前产品处于免费试用阶段,具体价格尚未公布。
一键自动去除抖音粉丝灯牌
小宾灯牌去除器是一款AI驱动的视频编辑工具,专为解决抖音粉丝灯牌问题而设计。它通过先进的算法自动识别并移除视频中的粉丝灯牌,提升视频的专业度和观众体验。主要优点包括简单易用、支持多种视频格式、GPU加速以及智能检测减少漏检。产品背景信息显示,它适用于主播、无人直播者、切片工作者和视频剪辑工作者等用户,帮助他们快速处理视频中的粉丝灯牌,提高工作效率。
AI驱动的相册,自动生成图像元数据并与之对话。
Album AI是一个实验性项目,它使用gpt-4o-mini作为视觉模型,自动识别相册中图像文件的元数据,并利用RAG技术实现与相册的对话。它既可以作为传统相册使用,也可以作为图像知识库,辅助大型语言模型进行内容生成。
AI代码审查工具,快速理解代码库并修复问题。
Wasps是一个集成在VSCode中的AI代码审查插件,通过深度分析和理解代码库,能够快速识别并修复代码中的错误和漏洞。它为开发者提供即时反馈,推荐潜在问题和改进建议,帮助提高代码质量和开发效率。
AI滤镜,一键转换照片风格
AI Photo Filter是一个在线服务,使用人工智能技术将用户上传的照片转换成多种艺术风格,如动漫、粘土、3D、像素艺术等。它适用于初学者和专业人士,只需简单点击即可使用。该技术的主要优点包括操作简便、风格多样、效果生动,能够满足不同用户对照片美化和创意表达的需求。
12B参数的大型语言模型
Mistral-Nemo-Base-2407是由Mistral AI和NVIDIA联合训练的12B参数大型预训练生成文本模型。该模型在多语言和代码数据上进行了训练,显著优于相同或更小规模的现有模型。其主要特点包括:Apache 2.0许可证发布,支持预训练和指令版本,128k上下文窗口训练,支持多种语言和代码数据,是Mistral 7B的替代品。模型架构包括40层、5120维、128头维、14364隐藏维、32头数、8个kv头(GQA)、词汇量约128k、旋转嵌入(theta=1M)。该模型在多个基准测试中表现出色,如HellaSwag、Winogrande、OpenBookQA等。
命令行工具与AI的结合
CommandAI 是一款结合了命令行工具和人工智能的桌面客户端软件。它通过提供强大的命令行接口,使得用户能够更高效地执行各种任务。该产品的主要优点包括:1. 高效性:通过命令行快速执行任务,提升工作效率。2. 智能化:集成AI技术,能够智能识别用户需求并提供相应解决方案。3. 灵活性:支持多种编程语言和脚本,满足不同用户的需求。4. 易用性:安装简单,用户界面友好,易于上手。5. 扩展性: 支持插件扩展,用户可以根据需要添加更多功能。
深度因果洞察,助力产品增长
Loops 是一款专注于数据驱动的产品增长工具,通过因果推断模型帮助企业识别关键机会,优化关键绩效指标(KPIs)。它能够实时追踪和识别KPIs的变化,提供根本原因分析,并通过模拟A/B测试来衡量变化的影响。Loops 的技术优势在于能够快速识别和分析数据中的潜在机会,从而帮助企业做出更有针对性的决策,提升产品性能和用户体验。
快速转换和翻译扫描文档
DocuTranslate 是一款专注于文档转换和翻译的在线服务。它利用先进的光学字符识别(OCR)技术和翻译技术,能够快速将扫描的文档转换为Word格式,并提供准确的翻译。用户可以通过上传文档、选择目标语言并确认使用信用点数,几秒钟内即可收到翻译后的文档,方便进一步编辑。该服务支持26种语言,适用于翻译人员和需要高效文档处理的专业人士。
AI驱动的塔罗牌阅读工具
TaroTeller是一个结合传统塔罗牌智慧和现代人工智能技术的在线塔罗牌阅读工具。它提供个性化的塔罗牌阅读,帮助用户更好地理解自己和周围的世界。塔罗牌是一种古老的实践,结合艺术、象征和直觉,提供对生活中各个方面的洞察。TaroTeller通过AI技术,将塔罗牌的传统意义与先进的算法相结合,提供高度准确和个性化的阅读。用户可以通过这个平台获得关于爱情、事业、健康或个人成长的准确和详细的解读。
AI图像检测工具,识别篡改照片
TruthPix是一款AI图像检测工具,旨在帮助用户识别经过AI篡改的照片。该应用通过先进的AI技术,能够快速、准确地识别出图像中的克隆和篡改痕迹,从而避免用户在社交媒体等平台上被虚假信息误导。该应用的主要优点包括:安全性高,所有检测都在设备上完成,不上传数据;检测速度快,分析一张图片仅需不到400毫秒;支持多种AI生成图像的检测技术,如GANs、Diffusion Models等。
将手绘草图转换为数字方案
Sketch2scheme是一个在线工具,能够帮助用户将手绘的流程图和图表转换为数字方案。它通过人工智能技术自动识别节点、连接和文本,自动排列和对齐元素,从而节省用户在数字转换过程中的时间和努力。该工具支持导出多种文件类型(如PNG、SVG、PDF等),并且兼容draw.io格式。用户可以通过draw.io可视化编辑器或Mermaid代码进一步编辑转换后的结果。
多语种高精度语音识别模型
SenseVoiceSmall是一款具备多种语音理解能力的语音基础模型,包括自动语音识别(ASR)、口语语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)。该模型经过超过40万小时的数据训练,支持超过50种语言,识别性能超越Whisper模型。其小型模型SenseVoice-Small采用非自回归端到端框架,推理延迟极低,处理10秒音频仅需70毫秒,比Whisper-Large快15倍。此外,SenseVoice还提供便捷的微调脚本和策略,支持多并发请求的服务部署管道,客户端语言包括Python、C++、HTML、Java和C#等。
将照片转化为砖块艺术,提升社交媒体存在感。
BRICK.PHOTOS是一个在线服务,使用户能够将他们的个人照片转换成具有多种风格的砖块艺术图片。这项技术不仅增加了照片的趣味性和创意,还为社交媒体内容创作提供了新的可能性。产品由@janbuilds设计和构建,提供了快速的转换服务,通常在一小时内完成,并且每张图片都是独一无二的。
Gmail插件,使用GPT技术过滤垃圾邮件。
Clean Inbox for Gmail™ 是一款专为Gmail设计的插件,利用GPT技术帮助用户过滤垃圾邮件,提高邮件管理效率。用户可以一键浏览并安装公共分类,对整个邮件类别进行标签化处理。此外,用户还可以创建自定义的过滤类别,插件能够识别邮件内容并建议过滤规则,避免类似邮件再次进入收件箱。Clean Inbox for Gmail™ 强调隐私保护,保证不会读取用户邮件内容,过滤的邮件不会被删除,只会被标记。
阿里云推出的大型音频语言模型
Qwen2-Audio是由阿里云提出的大型音频语言模型,能够接受各种音频信号输入,并根据语音指令进行音频分析或直接文本回复。该模型支持两种不同的音频交互模式:语音聊天和音频分析。它在13个标准基准测试中表现出色,包括自动语音识别、语音到文本翻译、语音情感识别等。
设计系统管理与自动化插件
Phaie AI 是一个专为设计系统内部工作设计的插件,旨在帮助识别和重命名现有设计系统中的样式。它允许设计师和设计团队节省时间,通过一键操作管理颜色、排版等设计元素,创建和更新设计系统。插件背景信息包括对内部设计系统工作的深入理解,以及Beta用户的高度成功反馈。
© 2024 AIbase 备案号:闽ICP备08105208号-14