浏览量:8
AI与计算机视觉结合的摔跤耐力挑战
Wrestling Endurance Challenge是一个结合了人工智能和计算机视觉的摔跤耐力挑战应用。该应用通过AI分配任务,利用计算机视觉检测用户的持续时间。用户可通过扬声器或耳机接收指令,以参与耐力挑战。应用使用持续的机器学习在云端进行计算,并保证隐私安全,不会发送视频,仅导出关节坐标和轨迹数据。
3D网格生成与语言模型的统一
LLaMA-Mesh是一项将大型语言模型(LLMs)预训练在文本上扩展到生成3D网格的能力的技术。这项技术利用了LLMs中已经嵌入的空间知识,并实现了对话式3D生成和网格理解。LLaMA-Mesh的主要优势在于它能够将3D网格的顶点坐标和面定义表示为纯文本,允许与LLMs直接集成而无需扩展词汇表。该技术的主要优点包括能够从文本提示生成3D网格、按需产生交错的文本和3D网格输出,以及理解和解释3D网格。LLaMA-Mesh在保持强大的文本生成性能的同时,实现了与从头开始训练的模型相当的网格生成质量。
业界领先的开源大型混合专家模型
Tencent-Hunyuan-Large(混元大模型)是由腾讯推出的业界领先的开源大型混合专家(MoE)模型,拥有3890亿总参数和520亿激活参数。该模型在自然语言处理、计算机视觉和科学任务等领域取得了显著进展,特别是在处理长上下文输入和提升长上下文任务处理能力方面表现出色。混元大模型的开源,旨在激发更多研究者的创新灵感,共同推动AI技术的进步和应用。
利用人工智能整合多模态患者数据,简化临床医生的工作流程。
CareIntellect for Oncology 是 GE HealthCare 推出的一款基于云的应用程序,它使用生成式人工智能技术汇总来自不同系统的多模态患者数据,并提供单一视图。该应用程序能够快速呈现患者的病史、疾病进展,并帮助医生确定下一步的治疗方向和主动干预措施。它通过整合结构化和非结构化数据(如医学影像、病历、笔记和设备读数),简化了复杂医疗历史的总结,支持治疗反应评估,帮助评估临床试验的资格,并跟踪治疗协议的遵守情况。该产品旨在通过减少医疗提供者在产品逐个集成上的高昂成本和耗时,提高新应用程序的采用速度。
即买即用的人工智能对话服务
2233.ai是一个提供即买即用人工智能对话服务的网站。用户无需注册账号即可购买并使用服务,享受原生的ChatGPT Plus或Claude Pro体验。该平台强调个人隐私保护,每位用户的对话记录独立存储,确保私密安全。此外,2233.ai承诺无网络限制或封号问题,用户可以随时随地接入服务。价格方面,2233.ai提供的服务价格不到ChatGPT Plus订阅的一半,让更多人能够以更优惠的价格享受到先进的人工智能技术。
专注于计算机视觉和机器学习领域的研究与创新的博客网站
Shangchen Zhou 是一位在计算机视觉和机器学习领域有着深厚研究背景的博士生,他的工作主要集中在视觉内容增强、编辑和生成AI(2D和3D)上。他的研究成果广泛应用于图像和视频的超分辨率、去模糊、低光照增强等领域,为提升视觉内容的质量和用户体验做出了重要贡献。
利用AI在浏览器中自动检测视频内容。
doesVideoContain是一个利用人工智能在浏览器中检测视频内容的模型。它允许用户通过简单的英语句子描述来自动抓取视频截图,识别视频中的重要时刻。这个模型完全在客户端运行,保护用户隐私,无需支付API费用,并且可以处理本地大文件,无需上传至云端。它使用了Web AI生态系统中的Transformers.js和ONNX Runtime Web,结合了自定义逻辑来执行余弦相似度计算。
下一代视频和图像实时对象分割模型。
Meta Segment Anything Model 2 (SAM 2)是Meta公司开发的下一代模型,用于视频和图像中的实时、可提示的对象分割。它实现了最先进的性能,并且支持零样本泛化,即无需定制适配即可应用于之前未见过的视觉内容。SAM 2的发布遵循开放科学的方法,代码和模型权重在Apache 2.0许可下共享,SA-V数据集也在CC BY 4.0许可下共享。
虚拟多代理翻译公司,模拟人类翻译出版流程。
TransAgents是一个虚拟的多代理翻译公司,它模拟了人类社会中传统的翻译出版流程。该平台使用人工智能技术,通过多个代理协同工作,提供高质量的翻译服务。它尊重用户隐私,不收集任何类型的用户数据,并提醒用户该演示仅为说明目的,可能包含错误或功能问题。
4D重建模型,快速生成动画对象
L4GM是一个4D大型重建模型,能够从单视图视频输入中快速生成动画对象。它采用了一种新颖的数据集,包含多视图视频,这些视频展示了Objaverse中渲染的动画对象。该数据集包含44K种不同的对象和110K个动画,从48个视角渲染,生成了12M个视频,总共包含300M帧。L4GM基于预训练的3D大型重建模型LGM构建,该模型能够从多视图图像输入中输出3D高斯椭球。L4GM输出每帧的3D高斯Splatting表示,然后将其上采样到更高的帧率以实现时间平滑。此外,L4GM还添加了时间自注意力层,以帮助学习时间上的一致性,并使用每个时间步的多视图渲染损失来训练模型。
Apple的云端AI隐私保护技术
Private Cloud Compute (PCC) 是Apple为保护用户数据隐私而开发的云端智能计算系统。它通过定制的Apple硅芯片和强化的操作系统,为云端AI计算提供了前所未有的安全性架构。PCC的设计满足了无状态计算、可执行保证、无特权运行时访问、不可针对性以及可验证透明度等核心要求,代表了云计算AI安全性的一次重大飞跃。
提供关于人工智能的最佳资源,学习机器学习、数据科学、自然语言处理等。
AI Online Course是一个互动学习平台,提供清晰简明的人工智能介绍,使复杂的概念易于理解。它涵盖机器学习、深度学习、计算机视觉、自动驾驶、聊天机器人等方面的知识,并强调实际应用和技术优势。
使用人工智能揭示艺术作品背后的细节、情感和含义。
AI说图解画是一款利用大模型语言能力理解图像元素及其关系的在线工具,它通过分析图像的色彩、形状、纹理等线索,为用户的艺术作品提供文字描述。该工具不仅为艺术家和设计师提供新的视角,也帮助普通用户深入理解图片内容,增强艺术欣赏能力。产品背景基于人工智能在图像识别和语言生成领域的最新进展,价格定位为1个积分进行一次图片解读,对于希望以低成本获得专业艺术分析的用户来说,是一个不错的选择。
基于Java的全能视觉智能识别项目
JavaVision是一个基于Java开发的全能视觉智能识别项目,它不仅实现了PaddleOCR-V4、YoloV8物体识别、人脸识别、以图搜图等核心功能,还可以轻松扩展到其他领域,如语音识别、动物识别、安防检查等。项目特点包括使用SpringBoot框架、多功能性、高性能、可靠稳定、易于集成和灵活可拓展。JavaVision旨在为Java开发者提供一个全面的视觉智能识别解决方案,让他们能够以熟悉且喜爱的编程语言构建出先进、可靠且易于集成的AI应用。
私密人工智能驱动型聊天服务,保护用户隐私。
DuckDuckGo AI Chat 是一种私密聊天服务,它利用先进的人工智能技术提供对话式的交互体验。该服务特别强调用户隐私的保护,不会保存用户的对话内容,也不会利用对话内容进行AI训练。它支持OpenAI的GPT-3.5和Anthropic的Claude聊天模型,为用户提供多样化的回复选项。此外,该服务还通过与模型提供商的协议进一步保护用户隐私,限制了他们对匿名请求数据的使用,并要求在30天内删除所有接收到的信息。
一种通过计数事实数据集和自举监督实现真实物体删除和插入的方法
ObjectDrop是一种监督方法,旨在实现照片级真实的物体删除和插入。它利用了一个计数事实数据集和自助监督技术。主要功能是可以从图像中移除物体及其对场景产生的影响(如遮挡、阴影和反射),也能够将物体以极其逼真的方式插入图像。它通过在一个小型的专门捕获的数据集上微调扩散模型来实现物体删除,而对于物体插入,它采用自助监督方式利用删除模型合成大规模的计数事实数据集,在此数据集上训练后再微调到真实数据集,从而获得高质量的插入模型。相比之前的方法,ObjectDrop在物体删除和插入的真实性上有了显著提升。
通用视觉-语义物体检测,无需任务特定调优
T-Rex2是一种范式突破的物体检测技术,能够识别从日常到深奥的各种物体,无需任务特定调优或大量训练数据集。它将视觉和文本提示相结合,赋予其强大的零射能力,可广泛应用于各种场景的物体检测任务。T-Rex2综合了四个组件:图像编码器、视觉提示编码器、文本提示编码器和框解码器。它遵循DETR的端到端设计原理,涵盖多种应用场景。T-Rex2在COCO、LVIS、ODinW和Roboflow100等四个学术基准测试中取得了最优秀的表现。
用于精细文本控制图像生成的空间对齐文本注入
FineControlNet是一个基于Pytorch的官方实现,用于生成可通过空间对齐的文本控制输入(如2D人体姿势)和实例特定的文本描述来控制图像实例的形状和纹理的图像。它可以使用从简单的线条画作为空间输入,到复杂的人体姿势。FineControlNet确保了实例和环境之间自然的交互和视觉协调,同时获得了Stable Diffusion的质量和泛化能力,但具有更多的控制能力。
只需要100美金,就能手搓一个Humane Pin。
ADeus是一个开源的人工智能可穿戴设备项目,实时记录语音和环境数据,通过手机或电脑应用进行个性化助理服务,支持多种智能功能,用户拥有对数据的完全控制权。
交互式自我反思
Seren是一款交互式日记应用,通过人工智能的直观理解,增强每次记录,让您更接近内心。用户可以轻松口述想法,AI将帮助您更深入地探索思想和情感。用户可以与不同方面的思想和情感互动,帮助您发现新的见解。Seren提供永久的隐私保护,所有记录和对话都经过安全加密,绝不会被分享。您的思想始终属于您自己,安全且私密。定价灵活,适合个人用户和专业用户,定位于提升个人情感和思想探索的工具。
与AWS云对话,终端内使用人类语言交互
ChatWithCloud是一个CLI工具,通过生成式人工智能,使您能够在终端内使用人类语言与AWS云进行交互。它可以帮助您进行成本分析、安全分析、故障排除以及解决问题,并提供终身许可和托管订阅两种购买方式。
轻松记录和总结演讲内容
Summify - Summarize speech是一款移动应用程序,可以让您轻松记录和总结任何演讲,从大学讲座或学校课堂到人工智能商务会议!它利用 OpenAI 的 Whisper AI 模型和 ChatGPT 的强大功能,以尽可能高的准确性转录文本并进行总结,捕捉每一个重要细节。Summify可以帮助您提高生产力,集中注意力,在家修改演讲内容,并保护您的隐私。
企业AI SaaS平台
ALFI是一款由人工智能驱动的企业SaaS平台,采用计算机视觉、机器学习、深度学习和边缘计算技术。它提供了广告定向、实时观众分析和个性化内容交付等功能。ALFI的独特网络将人工智能屏幕安装在Uber和Lyft等共乘服务中,实现数字户外广告的精准定向和个性化交付。它通过计算机视觉技术实时匹配受众与相关广告,并在符合隐私规范的过程中进行内容投放。ALFI的目标是为品牌提供更精准的广告投放,为企业提供实时观众分析和定制化内容交付。
隐私政策和使用条款的快速摘要
SimpliTerms是一个使用人工智能来摘要隐私政策和使用条款的工具。它能够生成100-300字的摘要,突出重要的条款和隐私政策内容。该工具可以帮助用户省时省力地了解自己接受的政策内容,避免因为不了解而盲目接受。定价分为免费版和付费版,付费版提供更多的摘要次数和AI生成的摘要功能。
通过人工智能提供参与度分析平台
AttentionKart是一个利用人工智能提供参与度洞察的平台。它使用计算机视觉技术如面部识别、表情识别、眼球追踪等,帮助用户分析参与度和互动,获得用户行为深入洞察。平台可以离线分析录像,也可以在线整合第三方应用。主要功能包括参与度分析、精准用户画像、互动优化等。适用于教育机构的在线课程、企业的会议演示、销售电话等场景。
Pump - 60% AWS费用最快的节省方式
Pump是一个利用人工智能和团购来自动节省云计算费用的工具。它能帮助企业节省高达60%的AWS费用,无需工程师参与,并且完全免费。Pump还提供智能的AWS支持,帮助企业实现成本优化。
© 2024 AIbase 备案号:闽ICP备08105208号-14