浏览量:8
最新流量情况
月访问量
1973
平均访问时长
00:00:00
每次访问页数
0.05
跳出率
30.75%
流量来源
直接访问
0
自然搜索
0
邮件
0
外链引荐
0
社交媒体
100.00%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
荷兰
49.84%
巴西
33.16%
以色列
17.00%
基于视觉观察自动估计人体及服装的物理参数的框架
PhysAvatar是一个结合逆向渲染和逆向物理的创新框架,可以从多视角视频数据中自动估计人体形状、外表以及服装的物理参数。它采用网格对齐的4D高斯时空网格跟踪技术和基于物理的逆向渲染器来估计内在的材料属性。PhysAvatar集成了物理模拟器,使用基于梯度的优化方法以原理性的方式估计服装的物理参数。这些创新能力使PhysAvatar能够在训练数据之外的运动和照明条件下,渲染出高质量的穿着宽松衣服的新视角头像。
可伸缩便携运动捕捉数据收集系统
DexCap是一种便携手部动作捕捉系统,结合了全息测距和电磁场技术,提供准确、抗遮挡的手腕和手指运动跟踪,并通过对环境的3D观测进行数据采集。DexIL算法利用逆运动学和基于点云的模仿学习,直接从人类手部动作数据中训练灵巧的机器手技能。系统支持选项的人机协同校正机制,利用这一丰富数据集,机器手能够复制人类动作,还能根据人类手动作进一步提高表现。
Snap视频:用于文本到视频合成的可扩展空间时间转换器
Snap视频是一个视频优先的模型,通过延伸EDM框架系统地解决视频生成域中的运动保真度、视觉质量和可扩展性等挑战。该模型利用帧间的冗余信息,提出了一个可伸缩的transformer架构,将空间和时间维度作为一个高度压缩的1D潜在向量,从而有效地进行空间时间联合建模,合成时间连贯性强、运动复杂的视频。这种架构使模型可以高效训练,达到数十亿参数规模,在多项基准测试中取得最优效果。
Sora AI 开发的纯文本到视频生成模型
Sora 是 OpenAI 开发的文本到视频生成模型,能够根据文本描述生成长达1分钟的逼真图像序列。它具有理解和模拟物理世界运动的能力,目标是训练出帮助人们解决需要实物交互的问题的模型。Sora 可以解释长篇提示,根据文本输入生成各种人物、动物、景观和城市景象。它的缺点是难以准确描绘复杂场景的物理学以及理解因果关系。
这是一个使用深度学习为文字描述生成动画视频的模型
AnimateLCM是一个使用深度学习生成动画视频的模型。它可以仅使用极少的采样步骤就生成高保真的动画视频。与直接在原始视频数据集上进行一致性学习不同,AnimateLCM采用了解耦的一致性学习策略,将图像生成先验知识和运动生成先验知识的萃取进行解耦,从而提高了训练效率并增强了生成的视觉质量。此外,AnimateLCM还可以与Stable Diffusion社区的插件模块配合使用,实现各种可控生成功能。AnimateLCM已经在基于图像的视频生成和基于布局的视频生成中验证了其性能。
ActAnywhere是一个主体感知视频背景生成模型。
ActAnywhere是一个用于自动生成与前景主体运动和外观相符的视频背景的生成模型。该任务涉及合成与前景主体运动和外观相一致的背景,同时也符合艺术家的创作意图。ActAnywhere利用大规模视频扩散模型的力量,并专门定制用于此任务。ActAnywhere以一系列前景主体分割作为输入,以描述所需场景的图像作为条件,生成与条件帧相一致的连贯视频,同时实现现实的前景和背景交互。该模型在大规模人机交互视频数据集上进行训练。大量评估表明该模型的性能明显优于基准,可以泛化到各种分布样本,包括非人类主体。
无需视频制作经验,通过简单操作即可生成精细控制的视频
DragNUWA是一款视频生成工具,能够通过直接操作背景或图像,将动作转化为摄像机运动或目标物体运动,生成对应的视频。DragNUWA 1.5基于稳定视频扩散技术,可根据特定路径使图像动起来。DragNUWA 1.0利用文字、图像和轨迹作为三个重要的控制因素,从语义、空间和时间上促进高度可控的视频生成。用户可通过git克隆仓库、下载预训练模型,并在桌面端进行图像拖拽生成动画。
从音频生成照片般逼真的人类avatar
audio2photoreal是一个从音频生成照片级逼真avatar的开源项目。它包含了一个pytorch实现,可以从音频中合成交谈中的人类形象。该项目提供了训练代码、测试代码、预训练的运动模型以及数据集访问。它的模型包括人脸扩散模型、人体扩散模型、人体VQ VAE模型和人体引导变换器模型。该项目让研究人员和开发者能够训练自己的模型,并基于语音合成高质量的逼真avatar。
全方位数字家庭健身房
Trainer+ by Vitruvian是一款全方位数字家庭健身房,结合了AI技术和专业教练,提供个性化的训练计划。Trainer+可以帮助您实现健身目标。它通过先进的人工智能技术调整重量,确保您始终能够获得最佳训练效果。不论您是初学者还是经验丰富的运动员,Trainer+都将帮助您超越健身目标。
通过AI、教练、运动员和研究者联合提供实惠的专业辅导
EvolveAI通过结合先进的人工智能、行业领先的教练、世界级运动员和前沿研究者,为每个人提供实现训练目标的实惠专业辅导。我们的产品提供个性化的训练计划、专业反馈和实时监控,帮助用户在各种运动领域取得突破。定价灵活,满足不同用户的需求。
零样本图像动画生成器
AnimateZero是一款零样本图像动画生成器,通过分离外观和运动生成视频,解决了黑盒、低效、不可控等问题。它可以通过零样本修改将预训练的T2V模型转换为I2V模型,从而实现零样本图像动画生成。AnimateZero还可以用于视频编辑、帧插值、循环视频生成和真实图像动画等场景,具有较高的主观质量和匹配度。
AI健身教练,提供个性化的健身计划
Dumbbell AI是一个AI驱动的健身应用程序,为用户提供个性化的健身计划和训练。它具有AI运动重复跟踪器,可以准确计数用户的重复次数,并根据用户的目标和喜好生成自定义的全身健身计划。它还具有社区功能, 用户可以在健身过程中与其他用户分享自己的进步。
自定义文本到视频扩散模型的动作
MotionDirector是一种能够自定义文本到视频扩散模型以生成具有所需动作的视频的技术。它采用双路径LoRAs架构,以解耦外观和运动的学习,并设计了一种新颖的去偏置时间损失,以减轻外观对时间训练目标的影响。该方法支持各种下游应用,如混合不同视频的外观和运动,以及用定制动作为单个图像添加动画。
高保真文本到4D生成
4D-fy是一种文本到4D生成方法,通过混合分数蒸馏采样技术,结合了多种预训练扩散模型的监督信号,实现了高保真的文本到4D场景生成。其方法通过神经表示参数化4D辐射场,使用静态和动态多尺度哈希表特征,并利用体积渲染从表示中渲染图像和视频。通过混合分数蒸馏采样,首先使用3D感知文本到图像模型(3D-T2I)的梯度来优化表示,然后结合文本到图像模型(T2I)的梯度来改善外观,最后结合文本到视频模型(T2V)的梯度来增加场景的运动。4D-fy可以生成具有引人入胜外观、3D结构和运动的4D场景。
为手绘草图添加动画
LiveSketch是一种将动画效果添加到手绘草图的工具。它可以根据文本提示自动生成矢量动画,让草图栩栩如生。该工具不需要复杂的训练,通过预训练的文本到视频模型来指导笔触的运动。它适用于设计师、动画师等需要给草图添加动画效果的用户。动画绘画可以在网站上使用。
创新的运动分析平台
Apollo Co-Pilot是一款创新的运动分析平台,为教练和运动员提供智能辅助分析工具。它可以帮助教练和运动员分析训练数据,提供个性化的训练建议和优化方案。同时,它还提供了实时反馈和比赛策略分析等功能,帮助提高运动员的竞技表现。
高保真、时间连贯的视频编辑
MagicEdit是一款高保真、时间连贯的视频编辑模型,通过明确分离外观和运动的学习,支持视频风格化、局部编辑、视频混合和视频外扩等多种编辑应用。MagicEdit还支持视频外扩任务,无需重新训练即可实现。
Jamies Fit:个性化健身,随时随地
Jamies Fit是一款移动健身应用,通过AI智能技术提供个性化的健身训练。用户可以随时随地进行个性化的健身训练,无需前往健身房或雇佣私人教练。该应用通过实时动作检测,提供准确的指导和反馈,帮助用户进行正确的训练。Jamies Fit提供多种健身训练方式,包括体重训练、有氧运动、力量训练、高强度间歇训练(HIIT)等。用户可以设置自己的健身目标,并跟踪进展。Jamies Fit还适用于儿童健身,为他们提供专属的训练计划。该应用提供了用户友好的界面和个性化的健身方案,帮助用户享受健康和健身的乐趣。
解锁真正潜能,体验个性化锻炼计划
WorkoutPro是一款AI个人健身教练软件,利用先进的算法和机器学习技术,为用户生成个性化的锻炼计划。它根据用户的健身目标、喜好和健身水平等数据,结合丰富的运动方案知识库,生成最适合用户需求的定制化锻炼计划。WorkoutPro可以帮助用户减脂、保持身材、增肌等不同健身目标,并提供详细的训练指导、强化训练和营养指导等功能。用户只需填写简单信息,即可获得个性化的健身计划。
通过了解大脑运作制定改变计划的APP
Neurture是一个旨在帮助用户了解大脑如何运作,并通过基于研究的治疗方法来制定有效的改变计划的应用程序。它通过数字化手写日记条目、获取后续期刊提示建议、由人工智能支持的情景冥想和期刊推荐等功能,帮助用户打破习惯或解决成瘾行为,实现重要的其他目标。Neurture强调隐私和信任,不收集用户数据,不投放广告,不训练模型,旨在为用户提供一个安全、无负担的自我提升环境。
由哔哩哔哩用户评论微调训练而成的本地聊天机器人
bilibot是一个基于哔哩哔哩用户评论训练的本地聊天机器人,支持文字聊天和语音对话。它使用Qwen1.5-32B-Chat作为基础模型,并结合苹果的mlx-lm LORA项目进行微调。语音生成部分基于GPT-SoVITS项目,使用派蒙语音模型。该机器人可以快速生成对话内容,适用于需要智能对话系统的场合。
MuLan:为110多种语言适配多语言扩散模型
MuLan是一个开源的多语言扩散模型,旨在为超过110种语言提供无需额外训练即可使用的扩散模型支持。该模型通过适配技术,使得原本需要大量训练数据和计算资源的扩散模型能够快速适应新的语言环境,极大地扩展了扩散模型的应用范围和语言多样性。MuLan的主要优点包括对多种语言的支持、优化的内存使用、以及通过技术报告和代码模型的发布,为研究人员和开发者提供了丰富的资源。
小米开发的大规模预训练语言模型,参数规模64亿。
MiLM-6B是由小米公司开发的大规模预训练语言模型,参数规模达到64亿,它在中文基础模型评测数据集C-Eval和CMMLU上均取得同尺寸最好的效果。该模型代表了自然语言处理领域的最新进展,具有强大的语言理解和生成能力,可以广泛应用于文本生成、机器翻译、问答系统等多种场景。
Google的尖端开放视觉语言模型
PaliGemma是Google发布的一款先进的视觉语言模型,它结合了图像编码器SigLIP和文本解码器Gemma-2B,能够理解图像和文本,并通过联合训练实现图像和文本的交互理解。该模型专为特定的下游任务设计,如图像描述、视觉问答、分割等,是研究和开发领域的重要工具。
一款具有128k有效上下文长度的70B参数的大型语言模型。
Llama-3-Giraffe-70B-Instruct是Abacus.AI推出的一款大型语言模型,它通过PoSE和动态NTK插值的训练方法,具有更长的有效上下文长度,能够处理大量的文本数据。该模型在训练中使用了约1.5B个token,并且通过适配器转换技术,将Llama-3-70B-Base模型的适配器应用到Llama-3-Giraffe-70B-Instruct上,以提高模型的性能。
一个完全开源的大型语言模型,提供先进的自然语言处理能力。
MAP-NEO是一个完全开源的大型语言模型,它包括预训练数据、数据处理管道(Matrix)、预训练脚本和对齐代码。该模型从零开始训练,使用了4.5T的英文和中文token,展现出与LLaMA2 7B相当的性能。MAP-NEO在推理、数学和编码等具有挑战性的任务中表现出色,超越了同等规模的模型。为了研究目的,我们致力于实现LLM训练过程的完全透明度,因此我们全面发布了MAP-NEO,包括最终和中间检查点、自训练的分词器、预训练语料库以及高效稳定的优化预训练代码库。
通过Mazaal体验AI的变革性力量。我们的无代码平台为您的业务提供了一种简单、经济的利用AI的方式。
Mazaal是一个无代码AI平台,可以将您的数据转化为强大的AI模型,无需编写任何代码。它提供了多种预训练模型,可以用于优化生产、管理库存、预测需求等。Mazaal可以自动化工作流程,提高效率,并帮助您解决业务中的各种问题。
提升大型语言模型解决数学问题的能力
ChatGLM-Math 是一个基于自我批评流程定制的数学问题解决模型,旨在提高大型语言模型(LLMs)在数学问题解决方面的能力。该模型通过训练一个通用的Math-Critique模型来提供反馈信号,并采用拒绝采样微调和直接偏好优化来增强LLM的数学问题解决能力。它在学术数据集和新创建的挑战性数据集MathUserEval上进行了实验,显示出在保持语言能力的同时,显著提升了数学问题解决能力。
© 2024 AIbase 备案号:闽ICP备2023012347号-1