需求人群:
U-xer适用于各种自动化场景,包括测试自动化、RPA、机器人开发等。
产品特色:
基于计算机视觉的自动化
测试自动化和RPA功能
适用于Web和桌面应用程序
用户友好的脚本语言
平台无关性
与移动设备和Mac兼容
浏览量:30
最新流量情况
月访问量
493
平均访问时长
00:00:42
每次访问页数
2.21
跳出率
42.55%
流量来源
直接访问
40.10%
自然搜索
38.73%
邮件
0.12%
外链引荐
11.57%
社交媒体
7.86%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
德国
58.89%
美国
41.11%
计算机视觉自动化和RPA工具
U-xer是一款基于计算机视觉的测试自动化和RPA工具,旨在自动化屏幕上看到的任何内容,包括Web和桌面应用程序。它具有易用和高级两种模式,可以满足非技术用户和高级用户的不同需求。U-xer能够识别屏幕,像人类一样解释屏幕内容,实现更自然、准确的自动化。它适用于各种应用场景,包括Web应用程序、桌面软件、移动设备等,并提供定制化解决方案。U-xer的定价和定位请查看官方网站。
基于条件扩散模型的人类-物体交互合成技术
Controllable Human-Object Interaction Synthesis (CHOIS) 是一种先进的技术,它能够根据语言描述、初始物体和人类状态以及稀疏物体路径点来同时生成物体运动和人类运动。这项技术对于模拟真实的人类行为至关重要,尤其在需要精确手-物体接触和由地面支撑的适当接触的场景中。CHOIS通过引入物体几何损失作为额外的监督信息,以及在训练扩散模型的采样过程中设计指导项来强制执行接触约束,从而提高了生成物体运动与输入物体路径点之间的匹配度,并确保了交互的真实性。
从单张图片重建逼真的3D人体模型
PSHuman是一个创新的框架,它利用多视图扩散模型和显式重构技术,从单张图片中重建出逼真的3D人体模型。这项技术的重要性在于它能够处理复杂的自遮挡问题,并且在生成的面部细节上避免了几何失真。PSHuman通过跨尺度扩散模型联合建模全局全身形状和局部面部特征,实现了细节丰富且保持身份特征的新视角生成。此外,PSHuman还通过SMPL-X等参数化模型提供的身体先验,增强了不同人体姿态下的跨视图身体形状一致性。PSHuman的主要优点包括几何细节丰富、纹理保真度高以及泛化能力强。
基于文本生成姿态并进一步生成图像的模型
text-to-pose是一个研究项目,旨在通过文本描述生成人物姿态,并利用这些姿态生成图像。该技术结合了自然语言处理和计算机视觉,通过改进扩散模型的控制和质量,实现了从文本到图像的生成。项目背景基于NeurIPS 2024 Workshop上发表的论文,具有创新性和前沿性。该技术的主要优点包括提高图像生成的准确性和可控性,以及在艺术创作和虚拟现实等领域的应用潜力。
未来演示控制的手势识别技术
Phantomy AI是一款利用计算机视觉软件,通过屏幕对象检测和手势识别技术,增强用户交互和演示的先进工具。它无需额外硬件,即可通过直观的手势控制屏幕,为用户提供了一种无需接触的交互方式。Phantomy AI的主要优点包括高精准的屏幕对象检测、基于手势的控制、流畅的幻灯片导航、增强的用户体验和广泛的应用场景。产品背景信息显示,Phantomy AI由AI工程师Almajd Ismail开发,他拥有软件开发和全栈开发的背景。关于价格和定位,页面上没有提供具体信息。
面向开放世界的检测与理解统一视觉模型
DINO-X是一个以物体感知为核心的视觉大模型,具备开集检测、智能问答、人体姿态、物体计数、服装换色等核心能力。它不仅能识别已知目标,还能灵活应对未知类别,凭借先进算法,模型具备出色的适应性和鲁棒性,能够精准应对各种不可预见的挑战,提供针对复杂视觉数据的全方位解决方案。DINO-X的应用场景广泛,包括机器人、农业、零售行业、安防监控、交通管理、制造业、智能家居、物流与仓储、娱乐媒体等,是DeepDataSpace公司在计算机视觉技术领域的旗舰产品。
数据标注平台,助力AI项目高效管理数据标注项目。
Data Annotation Platform是一个端到端的数据标注平台,允许用户上传计算机视觉数据,选择标注类型,并下载结果,无需任何最低承诺。该平台支持多种数据标注类型,包括矩形、多边形、3D立方体、关键点、语义分割、实例分割和泛视觉分割等,服务于AI项目经理、机器学习工程师、AI初创公司和研究团队,解决他们在数据标注过程中遇到的挑战。平台以其无缝执行、成本计算器、指令生成器、免费任务、API接入和团队访问等特点,为用户提供了一个简单、高效、成本效益高的数据标注解决方案。
基于Segment-Anything-2和Segment-Anything-1的自动全视频分割工具
AutoSeg-SAM2是一个基于Segment-Anything-2(SAM2)和Segment-Anything-1(SAM1)的自动全视频分割工具,它能够对视频中的每个对象进行追踪,并检测可能的新对象。该工具的重要性在于它能够提供静态分割结果,并利用SAM2对这些结果进行追踪,这对于视频内容分析、对象识别和视频编辑等领域具有重要意义。产品背景信息显示,它是由zrporz开发的,并且是基于Facebook Research的SAM2和zrporz自己的SAM1。价格方面,由于这是一个开源项目,因此它是免费的。
一站式OCR代理,快速从图像中生成洞见。
TurboLens是一个集OCR、计算机视觉和生成式AI于一体的全功能平台,它能够自动化地从非结构化图像中快速生成洞见,简化工作流程。产品背景信息显示,TurboLens旨在通过其创新的OCR技术和AI驱动的翻译及分析套件,从印刷和手写文档中提取定制化的洞见。此外,TurboLens还提供了数学公式和表格识别功能,将图像转换为可操作的数据,并将数学公式翻译成LaTeX格式,表格转换为Excel格式。产品价格方面,TurboLens提供免费和付费两种计划,满足不同用户的需求。
3D网格生成与语言模型的统一
LLaMA-Mesh是一项将大型语言模型(LLMs)预训练在文本上扩展到生成3D网格的能力的技术。这项技术利用了LLMs中已经嵌入的空间知识,并实现了对话式3D生成和网格理解。LLaMA-Mesh的主要优势在于它能够将3D网格的顶点坐标和面定义表示为纯文本,允许与LLMs直接集成而无需扩展词汇表。该技术的主要优点包括能够从文本提示生成3D网格、按需产生交错的文本和3D网格输出,以及理解和解释3D网格。LLaMA-Mesh在保持强大的文本生成性能的同时,实现了与从头开始训练的模型相当的网格生成质量。
使用先进计算机视觉算法进行自动、准确计数的应用。
CountAnything是一个前沿应用,利用先进的计算机视觉算法实现自动、准确的物体计数。它适用于多种场景,包括工业、养殖业、建筑、医药和零售等。该产品的主要优点在于其高精度和高效率,能够显著提升计数工作的准确性和速度。产品背景信息显示,CountAnything目前已开放给非中国大陆地区用户使用,并且提供免费试用。
利用NVIDIA AI构建视频搜索和摘要代理
NVIDIA AI Blueprint for Video Search and Summarization是一个基于NVIDIA NIM微服务和生成式AI模型的参考工作流程,用于构建能够理解自然语言提示并执行视觉问题回答的视觉AI代理。这些代理可以部署在工厂、仓库、零售店、机场、交通路口等多种场景中,帮助运营团队从自然交互中生成的丰富洞察中做出更好的决策。
生成任何3D和4D场景的先进框架
GenXD是一个专注于3D和4D场景生成的框架,它利用日常生活中常见的相机和物体运动来联合研究一般的3D和4D生成。由于社区缺乏大规模的4D数据,GenXD首先提出了一个数据策划流程,从视频中获取相机姿态和物体运动强度。基于此流程,GenXD引入了一个大规模的现实世界4D场景数据集:CamVid-30K。通过利用所有3D和4D数据,GenXD框架能够生成任何3D或4D场景。它提出了多视图-时间模块,这些模块分离相机和物体运动,无缝地从3D和4D数据中学习。此外,GenXD还采用了掩码潜在条件,以支持多种条件视图。GenXD能够生成遵循相机轨迹的视频以及可以提升到3D表示的一致3D视图。它在各种现实世界和合成数据集上进行了广泛的评估,展示了GenXD在3D和4D生成方面与以前方法相比的有效性和多功能性。
业界领先的开源大型混合专家模型
Tencent-Hunyuan-Large(混元大模型)是由腾讯推出的业界领先的开源大型混合专家(MoE)模型,拥有3890亿总参数和520亿激活参数。该模型在自然语言处理、计算机视觉和科学任务等领域取得了显著进展,特别是在处理长上下文输入和提升长上下文任务处理能力方面表现出色。混元大模型的开源,旨在激发更多研究者的创新灵感,共同推动AI技术的进步和应用。
从单张图片或文本提示生成高质量3D资产
Flex3D是一个两阶段流程,能够从单张图片或文本提示生成高质量的3D资产。该技术代表了3D重建领域的最新进展,可以显著提高3D内容的生成效率和质量。Flex3D的开发得到了Meta的支持,并且团队成员在3D重建和计算机视觉领域有着深厚的背景。
去除镜面反射,揭示隐藏纹理
StableDelight是一个先进的模型,专注于从纹理表面去除镜面反射。它基于StableNormal的成功,后者专注于提高单目法线估计的稳定性。StableDelight通过应用这一概念来解决去除反射的挑战性任务。训练数据包括Hypersim、Lumos以及来自TSHRNet的各种镜面高光去除数据集。此外,我们在扩散训练过程中整合了多尺度SSIM损失和随机条件尺度技术,以提高一步扩散预测的清晰度。
一种在野外环境中分解图像为反射率和照明效果的技术。
Colorful Diffuse Intrinsic Image Decomposition 是一种图像处理技术,它能够将野外拍摄的照片分解为反照率、漫反射阴影和非漫反射残留部分。这项技术通过逐步移除单色照明和Lambertian世界假设,实现了对图像中多彩漫反射阴影的估计,包括多个照明和场景中的二次反射,同时模型了镜面反射和可见光源。这项技术对于图像编辑应用,如去除镜面反射和像素级白平衡,具有重要意义。
图像条件扩散模型的微调工具
diffusion-e2e-ft是一个开源的图像条件扩散模型微调工具,它通过微调预训练的扩散模型来提高特定任务的性能。该工具支持多种模型和任务,如深度估计和法线估计,并提供了详细的使用说明和模型检查点。它在图像处理和计算机视觉领域具有重要应用,能够显著提升模型在特定任务上的准确性和效率。
OpenCV的额外模块库,用于开发和测试新的图像处理功能。
opencv_contrib是OpenCV的额外模块库,用于开发和测试新的图像处理功能。这些模块通常在API稳定、经过充分测试并被广泛接受后,才会被整合到OpenCV的核心库中。该库允许开发者使用最新的图像处理技术,推动计算机视觉领域的创新。
开源计算机视觉库
OpenCV是一个跨平台的开源计算机视觉和机器学习软件库,它提供了一系列编程功能,包括但不限于图像处理、视频分析、特征检测、机器学习等。该库广泛应用于学术研究和商业项目中,因其强大的功能和灵活性而受到开发者的青睐。
基于重力视角坐标恢复世界定位的人体运动
GVHMR是一种创新的人体运动恢复技术,它通过重力视角坐标系统来解决从单目视频中恢复世界定位的人体运动的问题。该技术能够减少学习图像-姿态映射的歧义,并且避免了自回归方法中连续图像的累积误差。GVHMR在野外基准测试中表现出色,不仅在准确性和速度上超越了现有的最先进技术,而且其训练过程和模型权重对公众开放,具有很高的科研和实用价值。
专注于计算机视觉和机器学习领域的研究与创新的博客网站
Shangchen Zhou 是一位在计算机视觉和机器学习领域有着深厚研究背景的博士生,他的工作主要集中在视觉内容增强、编辑和生成AI(2D和3D)上。他的研究成果广泛应用于图像和视频的超分辨率、去模糊、低光照增强等领域,为提升视觉内容的质量和用户体验做出了重要贡献。
用于手术视频分割的先进模型
Segment Anything 2 for Surgical Video Segmentation 是一个基于Segment Anything Model 2的手术视频分割模型。它利用先进的计算机视觉技术,对手术视频进行自动分割,以识别和定位手术工具,提高手术视频分析的效率和准确性。该模型适用于内窥镜手术、耳蜗植入手术等多种手术场景,具有高精度和高鲁棒性的特点。
3D人体姿态估计技术
AvatarPose是一种用于从稀疏多视角视频中估计多个紧密互动人的3D姿态和形状的方法。该技术通过重建每个人的个性化隐式神经化身,并将其作为先验,通过颜色和轮廓渲染损失来细化姿态,显著提高了在紧密互动中估计3D姿态的鲁棒性和精确度。
用于训练通用目标分割模型的视频数据集
SA-V Dataset是一个专为训练通用目标分割模型设计的开放世界视频数据集,包含51K个多样化视频和643K个时空分割掩模(masklets)。该数据集用于计算机视觉研究,允许在CC BY 4.0许可下使用。视频内容多样,包括地点、对象和场景等主题,掩模从建筑物等大规模对象到室内装饰等细节不等。
下一代视频和图像实时对象分割模型。
Meta Segment Anything Model 2 (SAM 2)是Meta公司开发的下一代模型,用于视频和图像中的实时、可提示的对象分割。它实现了最先进的性能,并且支持零样本泛化,即无需定制适配即可应用于之前未见过的视觉内容。SAM 2的发布遵循开放科学的方法,代码和模型权重在Apache 2.0许可下共享,SA-V数据集也在CC BY 4.0许可下共享。
用于体育分析的计算机视觉工具集
roboflow/sports 是一个开源的计算机视觉工具集,专注于体育领域的应用。它利用先进的图像处理技术,如目标检测、图像分割、关键点检测等,来解决体育分析中的挑战。这个工具集由Roboflow开发,旨在推动计算机视觉技术在体育领域的应用,并通过社区贡献不断优化。
深度学习驱动的三维重建技术
VGGSfM是一种基于深度学习的三维重建技术,旨在从一组不受限制的2D图像中重建场景的相机姿态和3D结构。该技术通过完全可微分的深度学习框架,实现端到端的训练。它利用深度2D点跟踪技术提取可靠的像素级轨迹,同时基于图像和轨迹特征恢复所有相机,并通过可微分的捆绑调整层优化相机和三角化3D点。VGGSfM在CO3D、IMC Phototourism和ETH3D三个流行数据集上取得了最先进的性能。
© 2024 AIbase 备案号:闽ICP备08105208号-14