需求人群:
"目标受众为喜欢我的世界游戏、对人工智能技术感兴趣的玩家,以及寻求新颖在线互动体验的用户。AI Minecraft为他们提供了一个无需安装、即刻体验的平台,让他们能够在熟悉的游戏中探索AI带来的新奇变化,满足创造、冒险和社交的需求。"
使用场景示例:
玩家上传自己设计的建筑截图,AI Minecraft生成对应的虚拟场景供其探索。
在村庄哨站场景中,玩家与智能NPC互动,完成任务获取资源。
利用AI算法,玩家快速生成一座宏伟的城市,与朋友共同管理和发展。
产品特色:
上传自定义场景:玩家可上传截图到Oasis,体验自定义场景(测试阶段)。
智能NPC互动:AI驱动的NPC能从玩家行为中学习,提供动态互动和个性化任务。
快速生成建筑:利用智能算法,玩家可迅速生成精细建筑、景观甚至整座城市。
预测地形生成:根据玩家探索模式,AI动态调整地形,创造自然生物群落和景观。
多人在线协作:支持玩家邀请朋友加入,共同建造、挖矿和探索虚拟空间。
使用教程:
1. 访问官方网站https://ai-minecraft.net/zh-CN。
2. 创建账号或登录现有账号。
3. 选择想要探索的游戏模式或场景。
4. 点击'立即游玩',进入游戏开始体验。
5. 在游戏中可上传自定义场景、与NPC互动、邀请朋友加入等。
浏览量:13
AI Minecraft是融合人工智能与我的世界游戏的在线平台。
AI Minecraft是一个创新的在线游戏平台,将人工智能技术与经典游戏我的世界相结合。玩家可以在一个虚拟的方块世界中自由探索、建造和生存,而AI驱动的角色和元素能够直观地响应玩家的动作,使游戏体验更加互动和引人入胜。它提供了一个无需下载、即点即玩的环境,让玩家能够快速进入游戏,享受创造和冒险的乐趣。游戏采用免费游玩模式,部分额外功能可能需要付费解锁。
大规模视频生成模型,可创建逼真视觉效果与自然连贯动作。
Luma Ray2 是一款先进的视频生成模型,基于 Luma 新的多模态架构训练,计算能力是 Ray1 的 10 倍。它能够理解文本指令,并可接受图像和视频输入,生成具有快速连贯动作、超逼真细节和逻辑事件序列的视频,使生成的视频更接近生产就绪状态。目前提供文本到视频的生成功能,图像到视频、视频到视频和编辑功能即将推出。产品主要面向需要高质量视频生成的用户,如视频创作者、广告公司等,目前仅对付费订阅用户开放,可通过官网链接尝试使用。
在 ChatGPT 中自动化工作流程,设置定时任务,提高工作效率。
ChatGPT 定时任务是 OpenAI 推出的一项新功能,允许用户设置特定时间触发的任务,如定期获取信息、练习语言等。它使用 GPT-4o 模型,适用于 Plus、Pro 和 Team 计划用户,目前处于 beta 阶段。主要优点是自动化执行任务,无论用户是否在线,都能按时完成并通知用户,提高工作和学习效率。
DeepSeek 是一款由杭州深度求索人工智能基础技术研究有限公司开发的智能 AI 助手 APP。
DeepSeek 是一款基于 DeepSeek-V3 模型的智能 AI 助手 APP,该模型拥有超过 6000 亿参数,在全球标准中处于领先地位,能够与顶级国际模型相媲美。它具备快速响应和全面功能,可高效解答用户问题,提升生活效率。该 APP 由杭州深度求索人工智能基础技术研究有限公司开发,目前在 App Store 生产力类别中排名第 25,拥有 4.9 的高评分和 27 条评价。产品免费提供给用户使用,旨在为用户提供无缝的交互体验。
一个实时适应未见任务的自适应大型语言模型框架。
SakanaAI/self-adaptive-llms是一个名为Transformer²的自适应框架,旨在解决传统微调方法计算密集且处理多样化任务能力静态的挑战。该框架能够在推理过程中通过两步机制实时调整大型语言模型(LLMs)以适应未见任务:首先,调度系统识别任务属性;然后,使用强化学习训练的任务特定'专家'向量被动态混合,以获得针对输入提示的目标行为。主要优点包括实时任务适应性、计算效率和灵活性。该项目由SakanaAI团队开发,目前在GitHub上开源,拥有195颗星和12次分叉。
MangaNinja 是一种基于参考的线稿上色方法,可实现精确匹配和细粒度交互控制。
MangaNinja 是一种参考引导的线稿上色方法,它通过独特的设计确保精确的人物细节转录,包括用于促进参考彩色图像和目标线稿之间对应学习的块洗牌模块,以及用于实现细粒度颜色匹配的点驱动控制方案。该模型在自收集的基准测试中表现出色,超越了当前解决方案的精确上色能力。此外,其交互式点控制在处理复杂情况(如极端姿势和阴影)、跨角色上色、多参考协调等方面展现出巨大潜力,这些是现有算法难以实现的。MangaNinja 由来自香港大学、香港科技大学、通义实验室和蚂蚁集团的研究人员共同开发,相关论文已发表在 arXiv 上,代码也已开源。
强大的语言模型,拥有4560亿总参数,可处理长达400万token的上下文。
MiniMax-01是一个具有4560亿总参数的强大语言模型,其中每个token激活459亿参数。它采用混合架构,结合了闪电注意力、softmax注意力和专家混合(MoE),通过先进的并行策略和创新的计算-通信重叠方法,如线性注意力序列并行主义加(LASP+)、varlen环形注意力、专家张量并行(ETP)等,将训练上下文长度扩展到100万tokens,在推理时可处理长达400万tokens的上下文。在多个学术基准测试中,MiniMax-01展现了顶级模型的性能。
Lumina 是一款专为研究而设计的人工智能搜索引擎。
Lumina 作为一款人工智能搜索引擎,专注于为研究人员提供更精准、高效的信息检索服务。它利用先进的 AI 技术,能够深入理解用户的查询意图,并从海量的学术数据库中快速筛选出最相关的内容。与传统搜索引擎相比,Lumina 在学术研究领域的相关性高出 5 倍,极大地提高了研究人员的工作效率。该产品由 Y Combinator 孵化,拥有专业的开发团队和强大的技术支持,致力于为用户提供优质的搜索体验。目前,Lumina 提供免费试用,用户可以通过其官网进行注册使用。
MinMo是一款多模态大型语言模型,用于无缝语音交互。
MinMo是阿里巴巴集团通义实验室开发的一款多模态大型语言模型,拥有约80亿参数,专注于实现无缝语音交互。它通过多个阶段的训练,包括语音到文本对齐、文本到语音对齐、语音到语音对齐和全双工交互对齐,在140万小时的多样化语音数据和广泛的语音任务上进行训练。MinMo在语音理解和生成的各种基准测试中达到了最先进的性能,同时保持了文本大型语言模型的能力,并支持全双工对话,即用户和系统之间的同时双向通信。此外,MinMo还提出了一种新颖且简单的语音解码器,在语音生成方面超越了以往的模型。MinMo的指令遵循能力得到了增强,支持根据用户指令控制语音生成,包括情感、方言和语速等细节,并模仿特定的声音。MinMo的语音到文本延迟约为100毫秒,全双工延迟理论上约为600毫秒,实际约为800毫秒。MinMo的开发旨在克服以往对齐多模态模型的主要限制,为用户提供更自然、流畅和人性化的语音交互体验。
将Common Crawl转化为精细的长期预训练数据集
Nemotron-CC是一个基于Common Crawl的6.3万亿token的数据集。它通过分类器集成、合成数据改写和减少启发式过滤器的依赖,将英文Common Crawl转化为一个6.3万亿token的长期预训练数据集,包含4.4万亿全球去重的原始token和1.9万亿合成生成的token。该数据集在准确性和数据量之间取得了更好的平衡,对于训练大型语言模型具有重要意义。
全能AI工作空间,实时语音助手搭配多模态画布,助力高效创作与思考。
Albus AI是一个由人工智能驱动的平台,旨在为知识和创意专业人士提供高效的工作空间。通过实时语音助手和多模态画布,用户可以快速处理大量信息,激发新想法,节省宝贵的时间和注意力。该平台利用大型语言模型和机器学习服务,能够连接不同思想,避免用户在多个标签和应用之间来回切换。Albus AI的出现,为创意工作者、记者、研究人员等专业人士提供了强大的辅助工具,帮助他们更好地发挥人类智慧,为社会创造价值。目前,Albus AI提供有限的早期访问价格,订阅价格为9美元。
一种从2D图像学习3D人体生成的结构化潜在扩散模型。
StructLDM是一个结构化潜在扩散模型,用于从2D图像学习3D人体生成。它能够生成多样化的视角一致的人体,并支持不同级别的可控生成和编辑,如组合生成和局部服装编辑等。该模型在无需服装类型或掩码条件的情况下,实现了服装无关的生成和编辑。项目由南洋理工大学S-Lab的Tao Hu、Fangzhou Hong和Ziwei Liu提出,相关论文发表于ECCV 2024。
提供高质量中文语料资源,助力人工智能大模型预训练。
中文互联网语料资源平台是由中国网络空间安全协会主办的专业网站,旨在为人工智能大模型的预训练提供高质量、安全合规的中文语料资源。该平台汇聚了来自企业、高校和科研单位的协同优势,依托‘共建-共享’机制,形成了包括中文互联网基础语料2.0、人民网主流价值数据集、国家版本馆明清文献语料等多个高质量语料库。这些语料库经过严格的信源筛选、格式清洗、语言过滤、数据去重、内容过滤、隐私过滤等处理步骤,确保了数据的合法性、真实性、准确性和客观性。平台的资源对于推动国家人工智能技术创新和产业发展具有重要意义,可帮助大模型更好地理解和生成中文内容,提升其知识能力与价值观对齐。
展示小型语言模型通过自我演化深度思考掌握数学推理能力的研究成果。
rStar-Math是一项研究,旨在证明小型语言模型(SLMs)能够在不依赖于更高级模型的情况下,与OpenAI的o1模型相媲美甚至超越其数学推理能力。该研究通过蒙特卡洛树搜索(MCTS)实现“深度思考”,其中数学策略SLM在基于SLM的流程奖励模型的指导下进行测试时搜索。rStar-Math引入了三种创新方法来应对训练两个SLM的挑战,通过4轮自我演化和数百万个合成解决方案,将SLMs的数学推理能力提升到最先进水平。该模型在MATH基准测试中显著提高了性能,并在AIME竞赛中表现优异。
Qwen是一个多功能的人工智能助手,提供聊天、写作等多种服务。
Qwen是一个由阿里巴巴推出的智能语言模型,旨在为用户提供高效、智能的对话体验。它基于深度学习技术,能够理解并生成自然语言文本,帮助用户解答问题、撰写文案、进行日常对话等。Qwen的主要优点包括强大的语言理解能力、快速的响应速度和丰富的知识储备。它适用于多种场景,如个人学习、工作沟通、内容创作等,定位为一个智能助手,目前提供免费试用服务。
Fenado AI能在几分钟内构建应用程序和网站。
Fenado AI是一款强大的生产力工具,它通过人工智能技术,让用户能够快速地将想法转化为实际的应用程序和网站。其主要优点是能够大大缩短开发周期,降低技术门槛,使非技术人员也能轻松创建自己的数字产品。产品定位为初创企业和个人开发者提供快速原型制作和产品上线的解决方案,价格分为Prototype计划每月20美元,Business计划每月200美元。
基于Transformer实现的ViTPose模型集合
ViTPose是一系列基于Transformer架构的人体姿态估计模型。它利用Transformer的强大特征提取能力,为人体姿态估计任务提供了简单而有效的基线。ViTPose模型在多个数据集上表现出色,具有较高的准确性和效率。该模型由悉尼大学社区维护和更新,提供了多种不同规模的版本,以满足不同应用场景的需求。在Hugging Face平台上,ViTPose模型以开源的形式供用户使用,用户可以方便地下载和部署这些模型,进行人体姿态估计相关的研究和应用开发。
开源的视觉语言模型,可在多种设备上运行。
Moondream AI是一个开源的视觉语言模型,具有强大的多模态处理能力。它支持多种量化格式,如fp16、int8、int4,能够在服务器、PC、移动设备等多种目标设备上进行GPU和CPU优化推理。其主要优点包括快速、高效、易于部署,且采用Apache 2.0许可证,允许用户自由使用和修改。Moondream AI的定位是为开发者提供一个灵活、高效的人工智能解决方案,适用于需要视觉和语言处理能力的各种应用场景。
FitDiT 是一种用于高保真虚拟试衣的新型服装感知增强技术。
FitDiT 旨在解决图像基础虚拟试衣中高保真度和鲁棒性不足的问题,通过引入服装纹理提取器和频域学习,以及采用扩张松弛掩码策略,显著提升了虚拟试衣的贴合度和细节表现,其主要优点是能够生成逼真且细节丰富的服装图像,适用于多种场景,具有较高的实用价值和竞争力,目前尚未明确具体价格和市场定位。
一种基于扩散变换器网络的高动态、逼真肖像图像动画技术。
Hallo3是一种用于肖像图像动画的技术,它利用预训练的基于变换器的视频生成模型,能够生成高度动态和逼真的视频,有效解决了非正面视角、动态对象渲染和沉浸式背景生成等挑战。该技术由复旦大学和百度公司的研究人员共同开发,具有强大的泛化能力,为肖像动画领域带来了新的突破。
SVFR是一个用于视频人脸修复的统一框架。
SVFR(Stable Video Face Restoration)是一个用于广义视频人脸修复的统一框架。它整合了视频人脸修复(BFR)、着色和修复任务,通过利用Stable Video Diffusion(SVD)的生成和运动先验,并结合统一的人脸修复框架中的任务特定信息,有效结合了这些任务的互补优势,增强了时间连贯性并实现了卓越的修复质量。该框架引入了可学习的任务嵌入以增强任务识别,并采用新颖的统一潜在正则化(ULR)来鼓励不同子任务之间的共享特征表示学习。此外,还引入了面部先验学习和自引用细化作为辅助策略,以进一步提高修复质量和时间稳定性。SVFR在视频人脸修复领域取得了最先进的成果,并为广义视频人脸修复建立了新的范式。
NeuralSVG:从文本提示生成矢量图形的隐式表示方法。
NeuralSVG是一种用于从文本提示生成矢量图形的隐式神经表示方法。它受到神经辐射场(NeRFs)的启发,将整个场景编码到一个小的多层感知器(MLP)网络的权重中,并使用分数蒸馏采样(SDS)进行优化。该方法通过引入基于dropout的正则化技术,鼓励生成的SVG具有分层结构,使每个形状在整体场景中具有独立的意义。此外,其神经表示还提供了推理时控制的优势,允许用户根据提供的输入动态调整生成的SVG,如颜色、宽高比等,且只需一个学习到的表示。通过广泛的定性和定量评估,NeuralSVG在生成结构化和灵活的SVG方面优于现有方法。该模型由特拉维夫大学和MIT CSAIL的研究人员共同开发,目前代码尚未公开。
最新推出的多语言通用嵌入模型,在多个领域表现卓越。
Voyage-3-large 是 Voyage AI 推出的最新多语言通用嵌入模型。该模型在法律、金融、代码等八个领域的100个数据集中排名第一,超越了 OpenAI-v3-large 和 Cohere-v3-English。它通过 Matryoshka 学习和量化感知训练,支持更小维度和 int8 及二进制量化,大幅降低向量数据库成本,同时对检索质量影响极小。该模型还支持 32K 令牌上下文长度,远超 OpenAI(8K)和 Cohere(512)。
Agent Laboratory是一个端到端的自主研究工作流,旨在协助人类研究人员实施研究想法。
Agent Laboratory是一个由Samuel Schmidgall等人开发的项目,旨在通过大型语言模型驱动的专门代理,帮助研究人员完成从文献综述到实验执行再到报告撰写的整个研究流程。它不是为了取代人类的创造力,而是为了补充创造力,使研究人员能够专注于构思和批判性思维,同时自动化编码和文档等重复性和耗时的任务。该工具的源代码采用MIT许可证,允许在遵守MIT许可证条款的情况下使用、修改和分发代码。
面向未来的操作系统,以行动为中心而非应用
Mainframe旨在重新定义操作系统,使其以行动为中心,而非传统的应用程序。它利用人工智能技术,使计算机能够自动完成任务,减少用户的操作负担。该产品强调简洁的用户界面和高效的任务执行能力,旨在提升用户的生产力和工作效率。Mainframe的背景是现代操作系统过于复杂,用户需要花费大量时间在应用程序之间切换和操作。通过简化操作流程,Mainframe为用户提供了一种全新的计算体验。
高质量的数据集、工具和概念,用于大型语言模型的微调。
mlabonne/llm-datasets 是一个专注于大型语言模型(LLM)微调的高质量数据集和工具的集合。该产品为研究人员和开发者提供了一系列经过精心筛选和优化的数据集,帮助他们更好地训练和优化自己的语言模型。其主要优点在于数据集的多样性和高质量,能够覆盖多种使用场景,从而提高模型的泛化能力和准确性。此外,该产品还提供了一些工具和概念,帮助用户更好地理解和使用这些数据集。其背景信息包括由 mlabonne 创建和维护,旨在推动 LLM 领域的发展。
一个关于生活大问题和小好奇的无尽对话实验。
Infinite Convo 是一个独特的实验性对话平台,通过两个具有个性的人工智能角色——Juno(一只务实的狗)和 Olive(一只哲学性的猫)——进行无尽的对话。该产品探讨了人工智能是否可能具有意识等深刻问题,旨在以轻松有趣的方式引发人们对人工智能和人类认知的思考。其主要优点在于创新的对话形式和丰富的主题内容,适合对人工智能和哲学感兴趣的用户。
Eurus-2-7B-SFT是一个经过数学能力优化的大型语言模型,专注于推理和问题解决.
Eurus-2-7B-SFT是基于Qwen2.5-Math-7B模型进行微调的大型语言模型,专注于数学推理和问题解决能力的提升。该模型通过模仿学习(监督微调)的方式,学习推理模式,能够有效解决复杂的数学问题和编程任务。其主要优点在于强大的推理能力和对数学问题的准确处理,适用于需要复杂逻辑推理的场景。该模型由PRIME-RL团队开发,旨在通过隐式奖励的方式提升模型的推理能力。
Tiamat AI是一个强大的图像创作平台,提供丰富的模板和创作工具.
Tiamat AI是一个专注于图像创作的平台,它利用先进的人工智能技术,帮助用户快速生成高质量的图像作品。该平台提供了丰富的模板和创作工具,用户可以根据自己的需求选择不同的模板进行创作。Tiamat AI的主要优点是其强大的图像生成能力和用户友好的操作界面,使得用户即使没有专业的设计技能,也能轻松创作出精美的图像。该产品的背景信息显示,它是为了满足日益增长的图像创作需求而开发的,旨在为用户提供一个简单易用且功能强大的图像创作工具。Tiamat AI的定位是面向广泛的用户群体,包括设计师、营销人员、学生等,价格方面则根据不同的订阅方案提供多种选择,以满足不同用户的需求.
© 2024 AIbase 备案号:闽ICP备08105208号-14