使用扩散模型实现时间一致性的人像动画
TCAN是一种基于扩散模型的新型人像动画框架,它能够保持时间一致性并很好地泛化到未见过的领域。该框架通过特有的模块,如外观-姿态自适应层(APPA层)、时间控制网络和姿态驱动的温度图,来确保生成的视频既保持源图像的外观,又遵循驱动视频的姿态,同时保持背景的一致性。
数学视觉指令调优模型
MAVIS是一个针对多模态大型语言模型(MLLMs)的数学视觉指令调优模型,主要通过改进视觉编码数学图表、图表-语言对齐和数学推理技能来增强MLLMs在视觉数学问题解决方面的能力。该模型包括两个新策划的数据集、一个数学视觉编码器和数学MLLM,通过三阶段训练范式在MathVerse基准测试中取得领先性能。
智能代码助手,提升开发效率
Claude Dev是一款VSCode扩展,利用Anthropic的Claude 3.5 Sonnet的代理编码能力,可以逐步处理复杂的软件开发任务。它不仅支持文件读写、创建项目和执行终端命令(在获得用户许可后),还提供了一个直观的GUI,使用户能够安全且容易地探索代理AI的潜力。
文本生成领域的先进模型
H2O Danube3 是由 h2oai 公司开发的一系列文本生成模型,这些模型专注于提供高质量的文本生成服务,广泛应用于聊天机器人、内容创作等领域。它们具备强大的语言理解和生成能力,能够根据给定的上下文生成连贯、准确的文本。
在家使用日常设备搭建自己的AI集群。
exo是一个实验性的软件项目,旨在利用家中的现有设备,如iPhone、iPad、Android、Mac、Linux等,统一成一个强大的GPU来运行AI模型。它支持多种流行的模型,如LLaMA,并具有动态模型分割功能,能够根据当前网络拓扑和设备资源来最优地分割模型。此外,exo还提供了与ChatGPT兼容的API,使得在应用程序中使用exo运行模型仅需一行代码的更改。
实时低延迟语音转换技术
StreamVC是由Google研发的实时低延迟语音转换解决方案,能够在保持源语音内容和韵律的同时,匹配目标语音的音色。该技术特别适合实时通信场景,如电话和视频会议,并且可用于语音匿名化等用例。StreamVC利用SoundStream神经音频编解码器的架构和训练策略,实现轻量级高质量的语音合成。它还展示了学习软语音单元的因果性以及提供白化基频信息以提高音高稳定性而不泄露源音色信息的有效性。
低代码工具,快速构建和协调多智能体团队
Tribe AI是一个低代码工具,它利用langgraph框架,让用户能够轻松自定义和协调智能体团队。通过将复杂任务分配给擅长不同领域的智能体,每个智能体可以专注于其最擅长的工作,从而更快更好地解决问题。
你的智能编码助手
通义灵码是阿里云推出的AI编码辅助工具,基于海量优秀开源代码数据集和编程资料库训练,可根据当前代码文件及跨文件的上下文,自动生成行级/函数级代码、单元测试、代码注释等,此外还具备代码解释、智能研发问答、异常报错排查等能力为开发者带来高效、流畅的编码体验。 通义灵码能以毫秒级的速度生成建议代码,满足程序员日常开发诉求。并兼容Java、Python、JavaScript、TypeScript、C/C++等200多种主流编程语言,支持Visual Studio Code、JetBrains IDEs等主流IDE。
开创计算新时代的NVIDIA Blackwell平台现已发布
NVIDIA Blackwell平台使用六项变革技术推动加速计算,能够在减少成本和能耗的同时,实现实时生成AI和处理高达数万亿参数的大型语言模型。
开源项目,旨在复制、增强和创新自主AI软件工程师Devin
OpenDevin是一个开源项目,目标是复制、增强和创新Devin——一个能够执行复杂工程任务并与用户在软件开发项目上积极协作的自主AI软件工程师。该项目通过开源社区的力量,探索和扩展Devin的能力,识别其优势和改进空间,以指导开源代码模型的进展。
简洁美观的OpenAPI/Swagger UI文档工具
openapi-ui是一个比Swagger UI更简洁美观的OpenAPI文档网站,它能够快速生成模拟参数并调用API请求,同时也是一个简化版的Postman工具。
Babel旨在提供一个人工智能协作平台,极大地提高构建应用程序的效率并消除运营复杂性
Babel提供了一种新的软件工程范式,包括AI生成组件、结构化编程、实时编码、全息观察和NoOps。Babel的自我驱动代理可以协作处理编码、调试、测试、部署等问题,同时还能自动维护和操作应用程序。
Tavus构建了先进的AI模型,包括数字复制、唇同步、配音、文本转视频,通过API为开发者提供访问
Tavus提供了一系列的AI模型,特别是在生成高度逼真的说话头部视频方面,其Phoenix模型通过神经辐射场(NeRFs)技术,能够产生自然面部动作和表情,并与输入同步。开发者可以通过Tavus的API访问这些具有高度真实感和可定制性的视频生成服务。
WhisperKit是一个开源项目,旨在帮助开发者和企业在用户设备上部署商业规模的推理工作负载
WhisperKit由Argmax公司推出,是一个基于Whisper项目的推理工具包,它允许在iOS和macOS应用程序中进行语音识别和转录。该项目的目标是收集开发者反馈,并在几周内发布一个稳定的候选版本,以加速设备上推理的生产化。
shell_gpt是一个基于AI大型语言模型(如GPT-4)的命令行生产力工具,旨在帮助用户更快更高效地完成任务
shell_gpt利用AI大型语言模型的强大能力,通过命令行界面提供辅助,使用户能够通过自然语言指令来执行任务,提高工作效率和效率。
Transformer Debugger是由OpenAI的Superalignment团队开发的用于调查小型语言模型特定行为的工具
Transformer Debugger结合了自动化可解释性和稀疏自编码器技术,支持在编写代码之前进行快速探索,并能够在前向传递中进行干预,以观察其如何影响特定行为。它通过识别对行为有贡献的特定组件(神经元、注意力头、自编码器潜在表示),展示自动生成的解释来说明这些组件为何强烈激活,并追踪组件间的连接以帮助发现电路。
LaVague是一个大型动作模型框架,用于自动化浏览器交互
LaVague旨在通过将自然语言指令转换为无缝的浏览器交互来重新定义互联网浏览体验。它利用自然语言处理和Selenium集成,使用户或其他AI能够轻松表达网络工作流程并在浏览器上执行它们。
© 2024 AIbase 备案号:闽ICP备08105208号-14