需求人群:
"该模型主要面向教育领域的研究人员、开发者以及数学竞赛选手。研究人员可以利用其开源特性进行算法研究和改进;开发者可以将其集成到教育软件中,为学生提供智能辅导;数学竞赛选手可以使用该模型进行解题练习和思路启发。"
使用场景示例:
在数学竞赛辅导软件中集成该模型,为学生提供实时解题建议和思路。
研究人员利用该模型的开源代码,探索新的强化学习算法优化方法。
数学教师使用该模型生成练习题和解析,辅助课堂教学。
产品特色:
使用分布式强化学习算法优化模型性能
支持长文本上下文(最长可达24K),提升复杂问题解决能力
基于大规模数学问题数据集进行训练,覆盖 AIME、AMC 等竞赛题目
提供高效的推理服务支持,兼容多种高性能推理系统
开源模型架构和训练方法,便于开发者二次开发和研究
使用教程:
1. 访问 Hugging Face 网站并下载 DeepScaleR-1.5B-Preview 模型文件。
2. 安装支持的推理系统(如 vLLM 或 Hugging Face Text Generation Inference)。
3. 将模型加载到推理系统中,配置合适的参数(如上下文长度、采样策略等)。
4. 使用模型进行数学问题的推理和解答,通过 API 接口调用模型服务。
5. 根据实际需求对模型输出进行解析和处理,例如提取答案、生成解题步骤等。
浏览量:98
最新流量情况
月访问量
25296.55k
平均访问时长
00:04:45
每次访问页数
5.83
跳出率
43.31%
流量来源
直接访问
48.39%
自然搜索
35.85%
邮件
0.03%
外链引荐
12.76%
社交媒体
2.96%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
17.08%
印度
8.40%
日本
3.42%
俄罗斯
4.58%
美国
17.94%
一个基于强化学习优化的大型语言模型,专注于数学问题解决能力的提升。
DeepScaleR-1.5B-Preview 是一个经过强化学习优化的大型语言模型,专注于提升数学问题解决能力。该模型通过分布式强化学习算法,显著提高了在长文本推理场景下的准确率。其主要优点包括高效的训练策略、显著的性能提升以及开源的灵活性。该模型由加州大学伯克利分校的 Sky Computing Lab 和 Berkeley AI Research 团队开发,旨在推动人工智能在教育领域的应用,尤其是在数学教育和竞赛数学领域。模型采用 MIT 开源许可,完全免费供研究人员和开发者使用。
业界首个超大规模混合 Mamba 推理模型,强推理能力。
混元T1 是腾讯推出的超大规模推理模型,基于强化学习技术,通过大量后训练显著提升推理能力。它在长文处理和上下文捕捉上表现突出,同时优化了计算资源的消耗,具备高效的推理能力。适用于各类推理任务,尤其在数学、逻辑推理等领域表现优异。该产品以深度学习为基础,结合实际反馈不断优化,适合科研、教育等多个领域的应用。
Light-R1 是一个专注于长链推理(Long COT)的开源项目,通过课程式 SFT、DPO 和 RL 提供从零开始的训练方法。
Light-R1 是一个由 Qihoo360 开发的开源项目,旨在通过课程式监督微调(SFT)、直接偏好优化(DPO)和强化学习(RL)训练长链推理模型。该项目通过去污染数据集和高效的训练方法,实现了从零开始的长链推理能力。其主要优点包括开源的训练数据、低成本的训练方式以及在数学推理领域的卓越性能。项目背景基于当前长链推理模型的训练需求,旨在提供一种透明且可复现的训练方法。项目目前免费开源,适合研究机构和开发者使用。
NotaGen 是一个用于符号音乐生成的模型,采用大语言模型训练范式,专注于生成高质量古典乐谱。
NotaGen 是一款创新的符号音乐生成模型,通过预训练、微调和强化学习三个阶段提升音乐生成质量。它利用大语言模型技术,能够生成高质量的古典乐谱,为音乐创作带来新的可能性。该模型的主要优点包括高效生成、风格多样和高质量输出。它适用于音乐创作、教育和研究等领域,具有广泛的应用前景。
NovaSky 是一个专注于代码生成和推理模型优化的人工智能技术平台。
NovaSky 是一个专注于提升代码生成和推理模型性能的人工智能技术平台。它通过创新的测试时扩展技术(如 S*)、强化学习蒸馏推理等技术,显著提升了非推理模型的性能,使其在代码生成领域表现出色。该平台致力于为开发者提供高效、低成本的模型训练和优化解决方案,帮助他们在编程任务中实现更高的效率和准确性。NovaSky 的技术背景源于 Sky Computing Lab @ Berkeley,具有强大的学术支持和前沿的技术研究基础。目前,NovaSky 提供多种模型优化方法,包括但不限于推理成本优化和模型蒸馏技术,满足不同开发者的需求。
Tülu 3 405B 是一个大规模开源语言模型,通过强化学习提升性能。
Tülu 3 405B 是由 Allen Institute for AI 开发的开源语言模型,具有 4050 亿参数。该模型通过创新的强化学习框架(RLVR)提升性能,尤其在数学和指令跟随任务中表现出色。它基于 Llama-405B 模型进行优化,采用监督微调、偏好优化等技术。Tülu 3 405B 的开源性质使其成为研究和开发领域的强大工具,适用于需要高性能语言模型的各种应用场景。
PaSa 是一个由大语言模型驱动的先进学术论文搜索代理,能够自主决策并获取准确结果。
PaSa 是由字节跳动开发的一种先进学术论文搜索代理,基于大语言模型(LLM)技术,能够自主调用搜索工具、阅读论文并筛选相关参考文献,以获取复杂学术查询的全面准确结果。该技术通过强化学习优化,使用合成数据集 AutoScholarQuery 进行训练,并在真实世界查询数据集 RealScholarQuery 上表现出色,显著优于传统搜索引擎和基于 GPT 的方法。PaSa 的主要优势在于其高召回率和精准率,能够为研究人员提供更高效的学术搜索体验。
DeepSeek-R1 是一款高性能推理模型,支持多种语言和任务,适用于研究和商业应用。
DeepSeek-R1 是 DeepSeek 团队推出的第一代推理模型,通过大规模强化学习训练,无需监督微调即可展现出卓越的推理能力。该模型在数学、代码和推理任务上表现优异,与 OpenAI-o1 模型相当。DeepSeek-R1 还提供了多种蒸馏模型,适用于不同规模和性能需求的场景。其开源特性为研究社区提供了强大的工具,支持商业使用和二次开发。
一个用于强化学习人类反馈训练过程可视化的工具,帮助深度理解与调试。
RLLoggingBoard 是一个专注于强化学习人类反馈(RLHF)训练过程可视化的工具。它通过细粒度的指标监控,帮助研究人员和开发者直观理解训练过程,快速定位问题,并优化训练效果。该工具支持多种可视化模块,包括奖励曲线、响应排序和 token 级别指标等,旨在辅助现有的训练框架,提升训练效率和效果。它适用于任何支持保存所需指标的训练框架,具有高度的灵活性和可扩展性。
一个实时适应未见任务的自适应大型语言模型框架。
SakanaAI/self-adaptive-llms是一个名为Transformer²的自适应框架,旨在解决传统微调方法计算密集且处理多样化任务能力静态的挑战。该框架能够在推理过程中通过两步机制实时调整大型语言模型(LLMs)以适应未见任务:首先,调度系统识别任务属性;然后,使用强化学习训练的任务特定'专家'向量被动态混合,以获得针对输入提示的目标行为。主要优点包括实时任务适应性、计算效率和灵活性。该项目由SakanaAI团队开发,目前在GitHub上开源,拥有195颗星和12次分叉。
首款基于行为基础模型的虚拟物理人形代理控制工具
Meta Motivo是由Meta FAIR发布的首款行为基础模型,通过一种新颖的无监督强化学习算法预训练,用于控制复杂的虚拟人形代理完成全身任务。该模型能够在测试时,通过提示解决未见过的任务,如动作跟踪、姿势达到和奖励优化,无需额外学习或微调。这一技术的重要性在于其零样本学习能力,能够处理多种复杂任务,同时保持行为的鲁棒性。Meta Motivo的开发背景是基于对更复杂任务和不同类型代理的泛化能力的追求,其开源的预训练模型和训练代码鼓励社区进一步发展行为基础模型的研究。
谷歌旗下领先的人工智能研究公司
Google DeepMind 是谷歌旗下的一家领先的人工智能公司,专注于开发先进的机器学习算法和系统。DeepMind 以其在深度学习和强化学习领域的开创性工作而闻名,其研究涵盖了从游戏到医疗保健等多个领域。DeepMind 的目标是通过构建智能系统来解决复杂的问题,推动科学和医学的进步。
扩散世界模型中训练的强化学习代理
DIAMOND(DIffusion As a Model Of eNvironment Dreams)是一个在扩散世界模型中训练的强化学习代理,用于雅达利游戏中的视觉细节至关重要的世界建模。它通过自回归想象在Atari游戏子集上进行训练,可以快速安装并尝试预先训练的世界模型。
用于测量和训练 AI 通用智能的软件平台
Universe 是一个软件平台,能够通过各种游戏、网站和其他应用程序,测量和训练人工智能的通用智能能力。它允许 AI 代理像人类一样使用计算机,通过观察屏幕像素和操作虚拟键盘和鼠标来与系统交互。该平台集成了包括 Flash 游戏、网页任务、视频游戏等上千种环境,旨在通过构建能够灵活应用过往经验快速掌握陌生环境的 AI 代理,从而实现通用人工智能的重大突破。
增强LLM推理能力的ReFT
ReFT是一种增强大型语言模型(LLMs)推理能力的简单而有效的方法。它首先通过监督微调(SFT)对模型进行预热,然后使用在线强化学习,具体来说是本文中的PPO算法,进一步微调模型。ReFT通过自动对给定问题进行大量推理路径的采样,并从真实答案中自然地得出奖励,从而显著优于SFT。ReFT的性能可能通过结合推理时策略(如多数投票和重新排名)进一步提升。需要注意的是,ReFT通过学习与SFT相同的训练问题而获得改进,而无需依赖额外或增强的训练问题。这表明ReFT具有更强的泛化能力。
从人工智能反馈中获得内在动机
Motif 是一个基于 PyTorch 的项目,通过从 LLM(大型语言模型)的偏好中获取奖励函数,训练 AI 代理在 NetHack 上进行。它可以生成与人类行为直觉一致的行为,并且可以通过提示修改进行引导。
OpenTrain AI是一个全球自由职业者市场,将您现有的标注工具与全球经过审核的人工数据专家连接起来。
OpenTrain AI是一个人工智能训练数据市场,可以让您直接雇佣全球经过审核的人工数据专家,使用您喜欢的标注软件。降低成本,保持控制,快速构建高质量的AI训练数据。
Clado是一个全球人才搜索平台,利用人工智能精确匹配人才。
Clado是一个全球人才搜索平台,利用100,000个AI智能代理为用户搜索、筛选和排名人才。其独特的邮件和电话号码增强引擎使得用户能获得完整的丰富人才信息。
Rork通过AI和React Native从您的描述中构建完整、可投入生产的移动应用程序。
Rork是一个移动应用程序构建工具,利用人工智能和React Native技术,帮助用户快速构建跨平台的移动应用。它的主要优点包括高效率、易用性和强大的功能定制能力。
提高文字转化率,吸引更多客户。
New Copy是一款能够帮助用户写出更具吸引力和转化率的文案的人工智能工具。其主要优点在于能够大幅提升营销效果和转化率,节省时间和精力。该产品的背景信息为创立团队拥有丰富的营销经验,定位于为中小型企业提供效果显著的营销工具。
BAGEL是一款开源的统一多模态模型,您可以在任何地方进行微调、精简和部署。
BAGEL是一款可扩展的统一多模态模型,它正在革新AI与复杂系统的交互方式。该模型具有对话推理、图像生成、编辑、风格转移、导航、构图、思考等功能,通过深度学习视频和网络数据进行预训练,为生成高保真度、逼真图像提供了基础。
自动化生产计划排程软件,内置人工智能优化工厂生产,告别繁琐表格手工计划。
SkyPlanner APS是一款集成人工智能的高级生产计划和排程软件。其内置的AI能够在几秒钟内优化工厂的生产计划。产品定位于解决生产调度中的效率和资源管理问题。
AI分析自拍照,提供个性化健康建议,帮助提升幸福感和平衡生活。
Reflecta.me是您的日常自我护理伴侣,利用人工智能分析您的自拍照,提供个性化健康建议,帮助您感到平衡、充满活力和快乐。私密、安全、简单美观。
快速筛选顶级候选人,提供AI面试服务,加速招聘流程。
AI Interview是一个AI招聘平台,利用人工智能技术快速筛选简历和进行面试。其主要优点包括快速、准确的候选人筛选,节省招聘时间和成本。定位于帮助企业高效招聘人才。
DMind 是一个开源的 Web3 AGI 研究机构,致力于 AI 与 Web3 的交汇探索。
DMind-1 和 DMind-1-mini 是针对 Web3 任务的领域专用大型语言模型,提供比其他通用模型更高的领域准确性、指令跟随能力及专业理解。DMind-1 经过专家策划的 Web3 数据微调,并通过强化学习与人类反馈对齐,适合复杂指令和多轮对话,适用于区块链、DeFi 和智能合约等领域。DMind-1-mini 作为更轻量的版本,旨在满足实时和资源高效的应用场景,特别适合代理部署和链上工具。产品定价及具体信息需进一步确认。
AI人脸年龄检测工具,上传照片即可获取面部年龄分析,包括面部年龄、眼部年龄、皮肤年龄和皱纹年龄。
FaceAge AI是一款基于人工智能的面部年龄检测工具,通过上传照片,快速准确地分析面部各个部位的年龄信息。其主要优点在于提供私密、快速、准确的年龄分析结果,可帮助用户更好地了解自己的面部特征。
Xagio SEO AI 软件提供直观插件和WordPress仪表板,为任何人(新手到专家)提供快速简单的优化。
Xagio SEO AI 软件通过直观的插件和WordPress仪表板帮助您实现非凡的结果,使优化变得快速简单,适用于任何人。它采用人工智能技术,综合了关键词研究、页面优化和页面外优化等三个基本SEO实践步骤。
© 2025 AIbase 备案号:闽ICP备08105208号-14