产品库

首页发现 GPTS 排行榜提交 AI导航

首页生产力 d1

d1

推理强化学习

该模型通过强化学习和高质量推理轨迹的掩蔽自监督微调，实现了对扩散大语言模型的推理能力的提升。此技术的重要性在于它能够优化模型的推理过程，减少计算成本，同时保证学习动态的稳定性。适合希望在写作和推理任务中提升效率的用户。

需求人群：

"适合研究人员和开发者，他们希望利用强化学习来优化语言模型的推理能力，提升应用效率。"

使用场景示例：

使用该模型提升聊天机器人在复杂问题上的推理能力。

在教育应用中，帮助学生解决逻辑推理题目。

为内容创作者提供智能化的写作辅助，提升创作效率。

产品特色：

高质量推理轨迹：使用经过筛选的 1000 个推理问题进行微调。

有效的策略梯度算法：引入 diffu-GRPO，以适应掩蔽扩散大语言模型。

对数概率估计：采用均场近似方法，提供高效的对数概率估计。

随机掩蔽：创建扰动视图，增强策略优化的正则化效果。

稳定的学习动态：提高内更新的次数，降低外部批量迭代需求。

使用教程：

下载并安装模型软件。

准备高质量的推理问题数据集。

执行掩蔽自监督微调。

应用 diffu-GRPO 进行策略优化。

评估模型在实际应用中的表现并进行调整。

浏览量：63

打开站点

网站流量情况

d1

利用强化学习提升扩散大语言模型的推理能力。

该模型通过强化学习和高质量推理轨迹的掩蔽自监督微调，实现了对扩散大语言模型的推理能力的提升。此技术的重要性在于它能够优化模型的推理过程，减少计算成本，同时保证学习动态的稳定性。适合希望在写作和推理任务中提升效率的用户。

推理强化学习

mwp_ReFT

基于深度强化学习的模型微调框架

ReFT是一个开源的研究项目，旨在通过深度强化学习技术对大型语言模型进行微调，以提高其在特定任务上的表现。该项目提供了详细的代码和数据，以便研究人员和开发者能够复现论文中的结果。ReFT的主要优点包括能够利用强化学习自动调整模型参数，以及通过微调提高模型在特定任务上的性能。产品背景信息显示，ReFT基于Codellama和Galactica模型，遵循Apache2.0许可证。

自然语言处理深度学习

Text-to-image扩散模型是一类深度生成模型，展现了出色的图像生成能力。然而，这些模型容易受到来自网页规模的文本-图像训练对的隐含偏见的影响，可能无法准确地对我们关心的图像方面进行建模。这可能导致次优样本、模型偏见以及与人类伦理和偏好不符的图像。本文介绍了一种有效可扩展的算法，利用强化学习（RL）改进扩散模型，涵盖了多样的奖励函数，如人类偏好、组成性和公平性，覆盖了数百万张图像。我们阐明了我们的方法如何大幅优于现有方法，使扩散模型与人类偏好保持一致。我们进一步阐明了如何这显著改进了预训练的稳定扩散（SD）模型，生成的样本被人类偏好80.3%，同时改善了生成样本的组成和多样性。

深度学习图像生成

DeepSeek-R1-Zero

DeepSeek-R1-Zero 是一款通过大规模强化学习训练的推理模型，无需监督微调即可实现卓越推理能力。

DeepSeek-R1-Zero 是由 DeepSeek 团队开发的推理模型，专注于通过强化学习提升模型的推理能力。该模型在无需监督微调的情况下，展现出强大的推理行为，如自我验证、反思和生成长链推理。其主要优点包括高效推理能力、无需预训练即可使用，以及在数学、代码和推理任务上的卓越表现。该模型基于 DeepSeek-V3 架构开发，支持大规模推理任务，适用于研究和商业应用。

中文精选

强化学习推理模型

PRIME-RL

PRIME通过隐式奖励增强在线强化学习，提升语言模型的推理能力。

PRIME是一个开源的在线强化学习解决方案，通过隐式过程奖励来增强语言模型的推理能力。该技术的主要优点在于能够在不依赖显式过程标签的情况下，有效地提供密集的奖励信号，从而加速模型的训练和推理能力的提升。PRIME在数学竞赛基准测试中表现出色，超越了现有的大型语言模型。其背景信息包括由多个研究者共同开发，并在GitHub上发布了相关代码和数据集。PRIME的定位是为需要复杂推理任务的用户提供强大的模型支持。

强化学习推理能力

DeepSeek-R1-Distill-Llama-70B

DeepSeek-R1-Distill-Llama-70B 是一款基于强化学习优化的大型语言模型，专注于推理和对话能力。

DeepSeek-R1-Distill-Llama-70B 是由 DeepSeek 团队开发的一款大型语言模型，基于 Llama-70B 架构并通过强化学习进行优化。该模型在推理、对话和多语言任务中表现出色，支持多种应用场景，包括代码生成、数学推理和自然语言处理。其主要优点是高效的推理能力和对复杂问题的解决能力，同时支持开源和商业使用。该模型适用于需要高性能语言生成和推理能力的企业和研究机构。

大型语言模型强化学习

EurusPRM-Stage2

EurusPRM-Stage2是一个基于隐式过程奖励的强化学习模型，用于提升生成模型的推理能力。

EurusPRM-Stage2是一个先进的强化学习模型，通过隐式过程奖励来优化生成模型的推理过程。该模型利用因果语言模型的对数似然比来计算过程奖励，从而在不增加额外标注成本的情况下提升模型的推理能力。其主要优点在于能够在仅使用响应级标签的情况下，隐式地学习到过程奖励，从而提高生成模型的准确性和可靠性。该模型在数学问题解答等任务中表现出色，适用于需要复杂推理和决策的场景。

强化学习隐式过程奖励

DIAMOND

扩散世界模型中训练的强化学习代理

DIAMOND（DIffusion As a Model Of eNvironment Dreams）是一个在扩散世界模型中训练的强化学习代理，用于雅达利游戏中的视觉细节至关重要的世界建模。它通过自回归想象在Atari游戏子集上进行训练，可以快速安装并尝试预先训练的世界模型。

机器学习强化学习

DeepScaleR-1.5B-Preview

一个基于强化学习优化的大型语言模型，专注于数学问题解决能力的提升。

DeepScaleR-1.5B-Preview 是一个经过强化学习优化的大型语言模型，专注于提升数学问题解决能力。该模型通过分布式强化学习算法，显著提高了在长文本推理场景下的准确率。其主要优点包括高效的训练策略、显著的性能提升以及开源的灵活性。该模型由加州大学伯克利分校的 Sky Computing Lab 和 Berkeley AI Research 团队开发，旨在推动人工智能在教育领域的应用，尤其是在数学教育和竞赛数学领域。模型采用 MIT 开源许可，完全免费供研究人员和开发者使用。

人工智能强化学习

JaxMARL

JaxMARL - 多智能体强化学习库

JaxMARL 是一个多智能体强化学习库，结合了易用性和 GPU 加速效能。它支持常用的多智能体强化学习环境以及流行的基准算法。目标是提供一个全面评估多智能体强化学习方法的库，并与相关基准进行比较。同时，它还引入了 SMAX，这是一个简化版的流行的星际争霸多智能体挑战环境，无需运行星际争霸 II 游戏引擎。

强化学习多智能体

Kimi k1.5

Kimi k1.5 是一个通过强化学习扩展的多模态语言模型，专注于提升推理和逻辑能力。

Kimi k1.5 是由 MoonshotAI 开发的多模态语言模型，通过强化学习和长上下文扩展技术，显著提升了模型在复杂推理任务中的表现。该模型在多个基准测试中达到了行业领先水平，例如在 AIME 和 MATH-500 等数学推理任务中超越了 GPT-4o 和 Claude Sonnet 3.5。其主要优点包括高效的训练框架、强大的多模态推理能力以及对长上下文的支持。Kimi k1.5 主要面向需要复杂推理和逻辑分析的应用场景，如编程辅助、数学解题和代码生成等。

中文精选

强化学习多模态

SWE-RL

通过强化学习提升大型语言模型在开源软件演变中的推理能力

SWE-RL 是由 Facebook Research 提出的一种基于强化学习的大型语言模型推理技术，旨在利用开源软件演变数据提升模型在软件工程任务中的表现。该技术通过规则驱动的奖励机制，优化模型的推理能力，使其能够更好地理解和生成高质量的代码。SWE-RL 的主要优点在于其创新性的强化学习方法和对开源数据的有效利用，为软件工程领域带来了新的可能性。该技术目前处于研究阶段，尚未明确商业化定价，但其在提升开发效率和代码质量方面具有显著潜力。

强化学习大型语言模型

RL4VLM

通过强化学习微调大型视觉-语言模型作为决策代理

RL4VLM是一个开源项目，旨在通过强化学习微调大型视觉-语言模型，使其成为能够做出决策的智能代理。该项目由Yuexiang Zhai, Hao Bai, Zipeng Lin, Jiayi Pan, Shengbang Tong, Alane Suhr, Saining Xie, Yann LeCun, Yi Ma, Sergey Levine等研究人员共同开发。它基于LLaVA模型，并采用了PPO算法进行强化学习微调。RL4VLM项目提供了详细的代码库结构、入门指南、许可证信息以及如何引用该研究的说明。

强化学习视觉-语言模型

Search-R1

一个高效的强化学习框架，用于训练推理和搜索引擎调用的语言模型。

Search-R1 是一个强化学习框架，旨在训练能够进行推理和调用搜索引擎的语言模型（LLMs）。它基于 veRL 构建，支持多种强化学习方法和不同的 LLM 架构，使得在工具增强的推理研究和开发中具备高效性和可扩展性。

强化学习自然语言处理

Unitree RL GYM

用于强化学习的Unitree机器人平台

Unitree RL GYM是一个基于Unitree机器人的强化学习平台，支持Unitree Go2、H1、H1_2、G1等型号。该平台提供了一个集成环境，允许研究人员和开发者训练和测试强化学习算法在真实或模拟的机器人上的表现。它的重要性在于推动机器人自主性和智能技术的发展，特别是在需要复杂决策和运动控制的应用中。Unitree RL GYM是开源的，可以免费使用，主要面向科研人员和机器人爱好者。

Unitree 强化学习

Parrot

多目标强化学习框架，文本转图像生成

Parrot 是一种多目标强化学习框架，专为文本转图像生成而设计。它通过批量 Pareto 最优选择的方式，自动识别在 T2I 生成的 RL 优化过程中不同奖励之间的最佳权衡。此外，Parrot采用了 T2I 模型和提示扩展网络的联合优化方法，促进了生成质量感知的文本提示，从而进一步提高了最终图像质量。为了抵消由于提示扩展而可能导致的原始用户提示的潜在灾难性遗忘，我们在推理时引入了原始提示中心化指导，确保生成的图像忠实于用户输入。大量实验和用户研究表明，Parrot在各种质量标准，包括美学、人类偏好、图像情感和文本-图像对齐方面，均优于几种基线方法。

强化学习文本生成

DigiRL

使用自主强化学习训练野外设备控制代理

DigiRL是一个创新的在线强化学习算法，用于训练能够在野外环境中控制设备的智能代理。它通过自主价值评估模型（VLM）来解决开放式的、现实世界中的Android任务。DigiRL的主要优点包括能够利用现有的非最优离线数据集，并通过离线到在线的强化学习来鼓励代理从自身的尝试和错误中学习。该模型使用指令级价值函数来隐式构建自动课程，优先考虑对代理最有价值的任务，并通过步进级价值函数挑选出在轨迹中对目标有贡献的有利动作。

强化学习自主学习

RLVR-GSM-MATH-IF-Mixed-Constraints

用于强化学习验证的数学问题数据集

RLVR-GSM-MATH-IF-Mixed-Constraints数据集是一个专注于数学问题的数据集，它包含了多种类型的数学问题和相应的解答，用于训练和验证强化学习模型。这个数据集的重要性在于它能够帮助开发更智能的教育辅助工具，提高学生解决数学问题的能力。产品背景信息显示，该数据集由allenai在Hugging Face平台上发布，包含了GSM8k和MATH两个子集，以及带有可验证约束的IF Prompts，适用于MIT License和ODC-BY license。

数学教育

EurusPRM-Stage1

EurusPRM-Stage1是一个基于隐式过程奖励的强化学习模型，用于提升生成模型的推理能力。

EurusPRM-Stage1是PRIME-RL项目的一部分，旨在通过隐式过程奖励来增强生成模型的推理能力。该模型利用隐式过程奖励机制，无需额外标注过程标签，即可在推理过程中获得过程奖励。其主要优点是能够有效地提升生成模型在复杂任务中的表现，同时降低了标注成本。该模型适用于需要复杂推理和生成能力的场景，如数学问题解答、自然语言生成等。

强化学习隐式过程奖励

HuatuoGPT-o1

医疗领域复杂推理的大型语言模型

HuatuoGPT-o1是一个专为医疗复杂推理设计的大语言模型，能够识别错误、探索替代策略并完善答案。该模型通过利用可验证的医疗问题和专门的医疗验证器，推进了复杂推理的发展。HuatuoGPT-o1的主要优点包括：使用验证器指导复杂推理轨迹的搜索，以微调大型语言模型；应用基于验证器奖励的强化学习（PPO）进一步提升复杂推理能力。HuatuoGPT-o1的开源模型、数据和代码，使其在医疗教育和研究领域具有重要价值。

医疗复杂推理

SERL

SERL是一个高效的机器人强化学习软件套件

SERL是一个经过精心实现的代码库,包含了一个高效的离策略深度强化学习方法,以及计算奖励和重置环境的方法,一个高质量的广泛采用的机器人控制器,以及一些具有挑战性的示例任务。它为社区提供了一个资源,描述了它的设计选择,并呈现了实验结果。令人惊讶的是,我们发现我们的实现可以实现非常高效的学习,仅需25到50分钟的训练即可获得PCB装配、电缆布线和物体重定位等策略,改进了文献中报告的类似任务的最新结果。这些策略实现了完美或接近完美的成功率,即使在扰动下也具有极强的鲁棒性,并呈现出新兴的恢复和修正行为。我们希望这些有前途的结果和我们的高质量开源实现能为机器人社区提供一个工具,以促进机器人强化学习的进一步发展。

强化学习机器人

NovaSky

NovaSky 是一个专注于代码生成和推理模型优化的人工智能技术平台。

NovaSky 是一个专注于提升代码生成和推理模型性能的人工智能技术平台。它通过创新的测试时扩展技术（如 S*）、强化学习蒸馏推理等技术，显著提升了非推理模型的性能，使其在代码生成领域表现出色。该平台致力于为开发者提供高效、低成本的模型训练和优化解决方案，帮助他们在编程任务中实现更高的效率和准确性。NovaSky 的技术背景源于 Sky Computing Lab @ Berkeley，具有强大的学术支持和前沿的技术研究基础。目前，NovaSky 提供多种模型优化方法，包括但不限于推理成本优化和模型蒸馏技术，满足不同开发者的需求。

人工智能代码生成

DeepSeek-R1-Distill-Qwen-7B

DeepSeek-R1-Distill-Qwen-7B 是一个开源的推理模型，专注于数学、代码和推理任务。

DeepSeek-R1-Distill-Qwen-7B 是一个经过强化学习优化的推理模型，基于 Qwen-7B 进行了蒸馏优化。它在数学、代码和推理任务上表现出色，能够生成高质量的推理链和解决方案。该模型通过大规模强化学习和数据蒸馏技术，显著提升了推理能力和效率，适用于需要复杂推理和逻辑分析的场景。

强化学习推理模型

Xiaomi MiMo

小米首个推理大模型MiMo开源，专为推理任务设计，性能卓越。

Xiaomi MiMo是小米公司开源的首个推理大模型，专为推理任务设计，具备卓越的数学推理和代码生成能力。该模型在数学推理（AIME 24-25）和代码竞赛（LiveCodeBench v5）公开测评集上表现出色，仅用7B的参数规模就超越了OpenAI的o1-mini和阿里Qwen的QwQ-32B-Preview等更大规模的模型。MiMo通过预训练和后训练阶段的多层面创新，包括数据挖掘、训练策略和强化学习算法等，显著提升了推理能力。该模型的开源为研究人员和开发者提供了强大的工具，推动了人工智能在推理领域的进一步发展。

优质新品

推理

Light-R1-14B-DS

一款开源的14B参数量的数学模型，通过强化学习训练，性能卓越。

Light-R1-14B-DS 是由北京奇虎科技有限公司开发的开源数学模型。该模型基于 DeepSeek-R1-Distill-Qwen-14B 进行强化学习训练，在 AIME24 和 AIME25 数学竞赛基准测试中分别达到了 74.0 和 60.2 的高分，超越了许多 32B 参数量的模型。它在轻量级预算下成功实现了对已经长链推理微调模型的强化学习尝试，为开源社区提供了一个强大的数学模型工具。该模型的开源有助于推动自然语言处理在教育领域的应用，特别是数学问题解决方面，为研究人员和开发者提供了宝贵的研究基础和实践工具。

强化学习数学模型

混元T1

业界首个超大规模混合 Mamba 推理模型，强推理能力。

混元T1 是腾讯推出的超大规模推理模型，基于强化学习技术，通过大量后训练显著提升推理能力。它在长文处理和上下文捕捉上表现突出，同时优化了计算资源的消耗，具备高效的推理能力。适用于各类推理任务，尤其在数学、逻辑推理等领域表现优异。该产品以深度学习为基础，结合实际反馈不断优化，适合科研、教育等多个领域的应用。

中文精选

推理模型人工智能

agibot_x1_train

模块化仿人机器人，用于强化学习训练

Agibot X1是由Agibot开发的模块化仿人机器人，具有高自由度，基于Agibot开源框架AimRT作为中间件，并使用强化学习进行运动控制。该项目是Agibot X1使用的强化学习训练代码，可以与Agibot X1提供的推理软件结合用于真实机器人和模拟步行调试，或导入其他机器人模型进行训练。

开源强化学习

DeepSeek-R1-Distill-Qwen-1.5B

DeepSeek-R1-Distill-Qwen-1.5B 是一款高效推理的开源语言模型，适用于多种自然语言处理任务。

DeepSeek-R1-Distill-Qwen-1.5B 是由 DeepSeek 团队开发的开源语言模型，基于 Qwen2.5 系列进行蒸馏优化。该模型通过大规模强化学习和数据蒸馏技术，显著提升了推理能力和性能，同时保持了较小的模型体积。它在多项基准测试中表现出色，尤其在数学、代码生成和推理任务中具有显著优势。该模型支持商业使用，并允许用户进行修改和衍生作品开发，适合研究机构和企业用于开发高性能的自然语言处理应用。

自然语言处理强化学习

AlphaMaze

AlphaMaze 是一款专注于视觉推理任务的解码器语言模型，旨在解决传统语言模型在视觉任务上的不足。

AlphaMaze 是一款专为解决视觉推理任务而设计的解码器语言模型。它通过针对迷宫解谜任务的训练，展示了语言模型在视觉推理方面的潜力。该模型基于 15 亿参数的 Qwen 模型构建，并通过监督微调（SFT）和强化学习（RL）进行训练。其主要优点在于能够将视觉任务转化为文本格式进行推理，从而弥补传统语言模型在空间理解上的不足。该模型的开发背景是提升 AI 在视觉任务上的表现，尤其是在需要逐步推理的场景中。目前，AlphaMaze 作为研究项目，暂未明确其商业化定价和市场定位。

AI 视觉推理

Fin-R1

通过强化学习驱动的金融推理大模型。

Fin-R1 是一个专为金融领域设计的大型语言模型，旨在提升金融推理能力。由上海财经大学和财跃星辰联合研发，基于 Qwen2.5-7B-Instruct 进行微调和强化学习，具有高效的金融推理能力，适用于银行、证券等核心金融场景。该模型免费开源，便于用户使用和改进。

金融人工智能

隐私政策

用户协议

意见反馈网站地图

用户协议

AIbase服务使用协议，由享联科技有限公司实施、托管和运营。客户必须同意这些条款才能使用服务。

本网站及位于 AIbase.com 及其他子域名的服务，包括网页 App、小程序 App、移动端 App（统称为“本 App”）是享联科技有限公司的著作权产品。

通过访问或使用本网站，您表示接受这些条款（代表您本人或您代表的实体），并声明和保证您有权、权力和能力遵守这些条款（代表您本人或您代表的实体）。如果您未满 18 岁，您不得访问或使用本网站或接受这些条款。如果您不同意这些条款的所有规定，请不要访问和/或使用本 App。除了以下协议外，您还需要遵守 https://www.chinaz.com/aboutus/agreement.html 中的协议。

用户账户

为了充分利用此网站的所有功能，用户需要创建账户并填写准确的资料。用户有义务保护自己的账户和密码的保密性，并对其账户内的所有活动承担责任。若用户发现其账户遭到未经授权的使用，应迅速告知我们。

用户内容

此网站允许用户将问题记录存储并发送至服务器。用户需要对自身存储和发送的内容负责，确保其不触犯任何法律、法规或本协议。

行为规范

用户在使用此网站服务时，应遵循以下规定：

禁止发布、传播任何违法、淫秽、色情、赌博、暴力、恐怖或煽动犯罪的内容；

禁止发布、传播侵犯他人知识产权或其他合法权益的内容；

禁止发布、传播误导、欺诈、虚假信息或进行任何不诚实的行为；

禁止发布、传播政治宣传或进行任何政治活动；

禁止从事危害网络安全的行为，包括但不限于恶意攻击、恶意破坏、恶意干扰等；

禁止从事影响本网站正常运行的行为，包括但不限于非法使用本网站的资源、恶意注册、恶意请求等；

若用户违反上述规定，我们有权立即终止本协议并禁止用户使用本网站。

一般性支付条款

本网站提供的所有服务均为一次性付款，您只需支付所需的会员服务时长。服务到期后，本网站不会使用您过往的支付方式自动续费，也不存在需要取消的订阅。

会员服务时长购买后无法转送他人。本公司保留调整订阅价格的权力，已购买的服务时长内不受影响。

退款保障

如果由于本公司的过失导致您无法使用服务，您可以在首次购买服务后的24小时内申请取消服务并退还服务费。如果不符合上述要求，您的退款申请可以被考虑，但是最终决定权由本公司全权决定。本公司仅有义务通过原支付渠道进行退款，退款申请将在申请后30天内处理。如果您想根据我们的退款保证申请退款，请通过网站页面上客服联系方式进行联系咨询我们，我们收到信息将为您解决。本退款保证条款仅适用于通过本网站直接订阅服务的用户。

知识产权

本网站包含的所有内容，包括但不限于文本、图片、音频、视频、软件、代码、商标、商业信息等，皆受著作权、商标权、专利权及其他知识产权法律的保护。未经我们书面同意，用户不得使用、复制、修改、拷贝、发布、出售、出租、传播本网站的任何内容。

网站服务器回答内容责任

本网站的服务器根据用户的问题提供答案，但用户需要自行判断回答内容的正确性和可靠性，并自行承担使用回答内容的风险。我们不对回答内容的准确性、可靠性、完整性、有效性、及时性、适用性等作出任何保证或承诺。

隐私保护

我们尊重用户的隐私权，并承诺在使用用户的个人信息时遵守相关法律法规。我们将采取合理的安全措施保护用户的个人信息，但不对因不可抗力或非因我们的原因导致的信息泄露承担责任。

免责声明

本网站提供的信息和服务仅供参考，不构成任何担保或承诺。我们不保证本网站的信息和服务的准确性、可靠性、完整性、有效性、及时性、适用性。用户使用本网站的信息和服务所产生的风险由用户自行承担。

变更和终止

我们有权随时修改本协议的任何条款，并将修改后的协议在本网站上公布。若用户继续使用本网站，即表示用户同意受修改后的协议约束。若用户不同意修改后的协议，应立即停止使用本网站。

我们有权在任何时候终止本协议，且无需提前通知用户。在协议终止后，用户无权继续使用本网站。

适用法律

本协议的订立、执行、解释及争议的解决均适用中华人民共和国法律。如发生本协议与中华人民共和国法律相抵触时，应以中华人民共和国法律的明文规定为准。

如双方就本协议内容或执行发生任何争议，双方应尽力友好协商解决；协商不成时，任何一方均可向本网站所在地的人民法院提起诉讼。

其他

本协议构成双方对本协议之约定事项及其他有关事宜的完整协议，除本协议规定的之外，未赋予本协议各方其他权利。

如本协议中的任何条款无论因何种原因完全或部分无效或不具有执行力，本协议的其余条款仍应有效并且有约束力。

本协议中的标题仅供方便参阅，不具有实际意义，不能作为本协议涵义解释的依据。

本协议未尽事宜，您需遵守我们不时发布的其他服务条款和操作规则。

本协议自您接受之日起生效，对我们和用户均具有约束力。

确认

隐私政策

欢迎访问我们的产品。AIbase（包括 App 和网站等产品提供的服务，以下简称“产品和服务”）是由享联科技有限公司（以下简称“我们”）开发并运营的。确保用户的数据安全和隐私保护是我们的首要任务，本隐私政策详细说明了您访问和使用我们的产品和服务时所收集的数据以及其处理方式。

在继续使用我们的产品之前，我们强烈建议您认真阅读并理解本隐私政策的全部规则和要点。一旦您选择使用，即表示您同意本隐私政策的全部内容，并同意我们收集和使用您相关的信息。如果您在阅读过程中对本政策有任何疑问，请通过产品中的反馈方式联系我们的客服进行咨询。如果您不同意其中的任何条款或相关协议，则应停止使用我们的产品和服务。

本隐私政策旨在帮助您了解以下内容：

一、我们如何收集和使用您的个人信息；

二、我们如何存储和保护您的个人信息；

三、我们如何公开披露您的个人信息；

四、我们如何使用 Cookie 和其他追踪技术；

五、其他补充说明；

一、我们如何收集和使用您的个人信息

个人信息是指以电子或其他方式记录的能够单独或与其他信息结合识别特定自然人身份或反映特定自然人活动情况的各种信息。我们根据《中华人民共和国网络安全法》和《信息安全技术个人信息安全规范》（GB/T 35273-2017）以及其他相关法律法规的要求，严格遵循正当、合法、必要的原则，出于您使用我们提供的服务和/或产品等过程中而收集和使用您的个人信息，包括但不限于电话号码、电子邮箱地址、偏好及兴趣等。

为接受我们全面的产品服务，您应首先注册一个用户账号，我们将通过它记录相关的数据。您所提供的所有信息均来自于您本人在注册时提供的数据。如扫码登录、手机验证登录等方式，我们可能通过发短信或邮件的方式来验证您的身份是否有效。

二、我们如何存储和保护您的个人信息

作为一般规则，我们仅在实现信息收集目的所需的时间内保留您的个人信息。当您开立帐户或从我们的产品获取服务时，我们会在对于管理与您之间的关系严格必要的时间内保留您的个人信息。出于遵守法律义务或为证明某项权利或合同满足适用的诉讼时效要求的目的，我们可能需要在上述期限到期后保留您存档的个人信息，并且无法按您的要求删除。当您的个人信息对于我们的法定义务或法定时效对应的目的或档案不再必要时，我们确保将其完全删除或匿名化。

我们使用符合业界标准的安全防护措施保护您提供的个人信息，并加密其中的关键数据，防止其遭到未经授权访问、公开披露、使用、修改、损坏或丢失。我们会采取一切合理可行的措施，保护您的个人信息。我们会使用加密技术确保数据的保密性；我们会使用受信赖的保护机制防止数据遭到恶意攻击。

值得一提的是，为了加强对隐私数据的保护，我们在收集时就已对其进行了脱敏处理，即使在我们自己的数据库中，也不会储存具有关联性的、明文的隐私数据。

三、我们如何公开披露您的个人信息

为了更好地服务客户并追求合法利益，我们将合规并且恰当地使用您的个人信息。我们可能会根据法律法规规定或政府主管部门的强制性要求，对外共享您的个人信息。在符合法律法规的前提下，当我们收到上述披露信息的请求时，我们会要求必须出具与之相应的法律文件，如传票或调查函。我们坚信，在法律允许的范围内，对于要求我们提供的信息，应该尽可能保持透明。

在以下情形中，共享、公开披露您的个人信息无需事先征得您的授权同意：

与国家安全、国防安全直接相关的；

与犯罪侦查、起诉、审判和判决执行等直接相关的；

出于维护您或其他个人的生命、财产等重大合法权益但难以得到本人同意的；

您自行向社会公众公开的个人信息；

从合法公开披露的信息中收集个人信息的，如合法的新闻报道、政府信息公开等渠道；

根据个人信息主体要求签订和履行合同所必需的；

用于维护所提供的产品或服务的安全稳定运行所必需的，例如发现、处置产品或服务的故障；

法律法规规定的其他情形。

四、如何使用 Cookie 和其他追踪技术

为了确保产品正常运作，我们会在您的计算机或移动设备上存储名为 Cookie 的小数据文件。 Cookie 通常包含标识符、产品名称以及一些数字和字符。通过使用 Cookie，我们可以存储您的偏好或产品数据，并用于判断注册用户是否已登录，提高服务和产品质量以及优化用户体验。我们出于不同目的使用各种 Cookie，包括：严格必要型 Cookie、性能 Cookie、营销 Cookie 和功能 Cookie。某些 Cookie 可能由第三方提供，以向我们的产品提供其他功能。我们不会将 Cookie 用于本政策所述目的之外的任何用途。您可以根据自己的偏好管理或删除 Cookie。您可以清除计算机或手机中保存的所有 Cookie，大多数网络浏览器都设有阻止或禁用 Cookie 的功能，您可以对浏览器进行配置。阻止或禁用 Cookie 功能后，可能会影响您使用或无法充分使用我们的产品和服务。

五：其他补充

1、有关用户身份注销问题

关于您注销账户的方式以及您应满足的条件，请详见《站长之家账户注销须知》。您注销账户后，我们将停止为您提供产品与/或服务，并依据您的要求，除法律法规另有规定外，我们将删除您的个人信息。请您理解，由于技术所限、法律或监管要求，我们可能无法满足您的所有要求，我们会在合理的期限内答复您的请求。

确认

产品库

d1

d1

mwp_ReFT

DiffusionRL

DeepSeek-R1-Zero

PRIME-RL

DeepSeek-R1-Distill-Llama-70B

EurusPRM-Stage2

DIAMOND

DeepScaleR-1.5B-Preview

JaxMARL

Kimi k1.5

SWE-RL

RL4VLM

Search-R1

Unitree RL GYM

Parrot

DigiRL

RLVR-GSM-MATH-IF-Mixed-Constraints

EurusPRM-Stage1

HuatuoGPT-o1

SERL

NovaSky

DeepSeek-R1-Distill-Qwen-7B

Xiaomi MiMo

Light-R1-14B-DS

混元T1

agibot_x1_train

DeepSeek-R1-Distill-Qwen-1.5B

AlphaMaze

Fin-R1