产品库

首页发现 GPTS 排行榜提交 AI导航

首页生产力 DIAMOND

DIAMOND

机器学习强化学习

DIAMOND（DIffusion As a Model Of eNvironment Dreams）是一个在扩散世界模型中训练的强化学习代理，用于雅达利游戏中的视觉细节至关重要的世界建模。它通过自回归想象在Atari游戏子集上进行训练，可以快速安装并尝试预先训练的世界模型。

需求人群：

"目标受众包括机器学习研究人员、强化学习爱好者以及对人工智能在游戏领域应用感兴趣的开发者。DIAMOND模型能够帮助他们理解并应用扩散模型在强化学习中的应用，以及如何通过自回归想象来改进游戏策略。"

使用场景示例：

研究人员使用DIAMOND模型在雅达利游戏中进行策略训练和评估。

开发者利用DIAMOND进行游戏环境的自回归想象，以改进游戏AI。

教育工作者将DIAMOND作为教学案例，向学生展示强化学习在实际问题中的应用。

产品特色：

自回归想象用于雅达利游戏子集

快速安装并尝试预先训练的世界模型

使用miniconda或python venv进行环境配置

支持多种控制方式，如按键m获取控制权

可以调整扩散世界模型的采样参数

提供可视化和数据集模式以浏览和重放存储的剧集

使用教程：

克隆或下载DIAMOND的代码库到本地。

根据提供的安装指南，使用miniconda或python venv配置开发环境。

安装所需的依赖项，如Python 3.10和其他库。

运行预训练的世界模型，观察代理的表现。

使用提供的控件，如按键m，来获取控制权并进行交互。

调整扩散世界模型的采样参数，以优化性能。

使用可视化和数据集模式来分析和重放游戏剧集。

浏览量：52

打开站点

网站流量情况

DIAMOND

扩散世界模型中训练的强化学习代理

DIAMOND（DIffusion As a Model Of eNvironment Dreams）是一个在扩散世界模型中训练的强化学习代理，用于雅达利游戏中的视觉细节至关重要的世界建模。它通过自回归想象在Atari游戏子集上进行训练，可以快速安装并尝试预先训练的世界模型。

机器学习强化学习

Text-to-image扩散模型是一类深度生成模型，展现了出色的图像生成能力。然而，这些模型容易受到来自网页规模的文本-图像训练对的隐含偏见的影响，可能无法准确地对我们关心的图像方面进行建模。这可能导致次优样本、模型偏见以及与人类伦理和偏好不符的图像。本文介绍了一种有效可扩展的算法，利用强化学习（RL）改进扩散模型，涵盖了多样的奖励函数，如人类偏好、组成性和公平性，覆盖了数百万张图像。我们阐明了我们的方法如何大幅优于现有方法，使扩散模型与人类偏好保持一致。我们进一步阐明了如何这显著改进了预训练的稳定扩散（SD）模型，生成的样本被人类偏好80.3%，同时改善了生成样本的组成和多样性。

深度学习图像生成

d1

利用强化学习提升扩散大语言模型的推理能力。

该模型通过强化学习和高质量推理轨迹的掩蔽自监督微调，实现了对扩散大语言模型的推理能力的提升。此技术的重要性在于它能够优化模型的推理过程，减少计算成本，同时保证学习动态的稳定性。适合希望在写作和推理任务中提升效率的用户。

推理强化学习

Unitree RL GYM

用于强化学习的Unitree机器人平台

Unitree RL GYM是一个基于Unitree机器人的强化学习平台，支持Unitree Go2、H1、H1_2、G1等型号。该平台提供了一个集成环境，允许研究人员和开发者训练和测试强化学习算法在真实或模拟的机器人上的表现。它的重要性在于推动机器人自主性和智能技术的发展，特别是在需要复杂决策和运动控制的应用中。Unitree RL GYM是开源的，可以免费使用，主要面向科研人员和机器人爱好者。

Unitree 强化学习

mwp_ReFT

基于深度强化学习的模型微调框架

ReFT是一个开源的研究项目，旨在通过深度强化学习技术对大型语言模型进行微调，以提高其在特定任务上的表现。该项目提供了详细的代码和数据，以便研究人员和开发者能够复现论文中的结果。ReFT的主要优点包括能够利用强化学习自动调整模型参数，以及通过微调提高模型在特定任务上的性能。产品背景信息显示，ReFT基于Codellama和Galactica模型，遵循Apache2.0许可证。

自然语言处理深度学习

SERL

SERL是一个高效的机器人强化学习软件套件

SERL是一个经过精心实现的代码库,包含了一个高效的离策略深度强化学习方法,以及计算奖励和重置环境的方法,一个高质量的广泛采用的机器人控制器,以及一些具有挑战性的示例任务。它为社区提供了一个资源,描述了它的设计选择,并呈现了实验结果。令人惊讶的是,我们发现我们的实现可以实现非常高效的学习,仅需25到50分钟的训练即可获得PCB装配、电缆布线和物体重定位等策略,改进了文献中报告的类似任务的最新结果。这些策略实现了完美或接近完美的成功率,即使在扰动下也具有极强的鲁棒性,并呈现出新兴的恢复和修正行为。我们希望这些有前途的结果和我们的高质量开源实现能为机器人社区提供一个工具,以促进机器人强化学习的进一步发展。

强化学习机器人

JaxMARL

JaxMARL - 多智能体强化学习库

JaxMARL 是一个多智能体强化学习库，结合了易用性和 GPU 加速效能。它支持常用的多智能体强化学习环境以及流行的基准算法。目标是提供一个全面评估多智能体强化学习方法的库，并与相关基准进行比较。同时，它还引入了 SMAX，这是一个简化版的流行的星际争霸多智能体挑战环境，无需运行星际争霸 II 游戏引擎。

强化学习多智能体

agibot_x1_train

模块化仿人机器人，用于强化学习训练

Agibot X1是由Agibot开发的模块化仿人机器人，具有高自由度，基于Agibot开源框架AimRT作为中间件，并使用强化学习进行运动控制。该项目是Agibot X1使用的强化学习训练代码，可以与Agibot X1提供的推理软件结合用于真实机器人和模拟步行调试，或导入其他机器人模型进行训练。

开源强化学习

RL4VLM

通过强化学习微调大型视觉-语言模型作为决策代理

RL4VLM是一个开源项目，旨在通过强化学习微调大型视觉-语言模型，使其成为能够做出决策的智能代理。该项目由Yuexiang Zhai, Hao Bai, Zipeng Lin, Jiayi Pan, Shengbang Tong, Alane Suhr, Saining Xie, Yann LeCun, Yi Ma, Sergey Levine等研究人员共同开发。它基于LLaVA模型，并采用了PPO算法进行强化学习微调。RL4VLM项目提供了详细的代码库结构、入门指南、许可证信息以及如何引用该研究的说明。

强化学习视觉-语言模型

DigiRL

使用自主强化学习训练野外设备控制代理

DigiRL是一个创新的在线强化学习算法，用于训练能够在野外环境中控制设备的智能代理。它通过自主价值评估模型（VLM）来解决开放式的、现实世界中的Android任务。DigiRL的主要优点包括能够利用现有的非最优离线数据集，并通过离线到在线的强化学习来鼓励代理从自身的尝试和错误中学习。该模型使用指令级价值函数来隐式构建自动课程，优先考虑对代理最有价值的任务，并通过步进级价值函数挑选出在轨迹中对目标有贡献的有利动作。

强化学习自主学习

Parrot

多目标强化学习框架，文本转图像生成

Parrot 是一种多目标强化学习框架，专为文本转图像生成而设计。它通过批量 Pareto 最优选择的方式，自动识别在 T2I 生成的 RL 优化过程中不同奖励之间的最佳权衡。此外，Parrot采用了 T2I 模型和提示扩展网络的联合优化方法，促进了生成质量感知的文本提示，从而进一步提高了最终图像质量。为了抵消由于提示扩展而可能导致的原始用户提示的潜在灾难性遗忘，我们在推理时引入了原始提示中心化指导，确保生成的图像忠实于用户输入。大量实验和用户研究表明，Parrot在各种质量标准，包括美学、人类偏好、图像情感和文本-图像对齐方面，均优于几种基线方法。

强化学习文本生成

RLVR-GSM-MATH-IF-Mixed-Constraints

用于强化学习验证的数学问题数据集

RLVR-GSM-MATH-IF-Mixed-Constraints数据集是一个专注于数学问题的数据集，它包含了多种类型的数学问题和相应的解答，用于训练和验证强化学习模型。这个数据集的重要性在于它能够帮助开发更智能的教育辅助工具，提高学生解决数学问题的能力。产品背景信息显示，该数据集由allenai在Hugging Face平台上发布，包含了GSM8k和MATH两个子集，以及带有可验证约束的IF Prompts，适用于MIT License和ODC-BY license。

数学教育

SWE-RL

通过强化学习提升大型语言模型在开源软件演变中的推理能力

SWE-RL 是由 Facebook Research 提出的一种基于强化学习的大型语言模型推理技术，旨在利用开源软件演变数据提升模型在软件工程任务中的表现。该技术通过规则驱动的奖励机制，优化模型的推理能力，使其能够更好地理解和生成高质量的代码。SWE-RL 的主要优点在于其创新性的强化学习方法和对开源数据的有效利用，为软件工程领域带来了新的可能性。该技术目前处于研究阶段，尚未明确商业化定价，但其在提升开发效率和代码质量方面具有显著潜力。

强化学习大型语言模型

PRIME-RL

PRIME通过隐式奖励增强在线强化学习，提升语言模型的推理能力。

PRIME是一个开源的在线强化学习解决方案，通过隐式过程奖励来增强语言模型的推理能力。该技术的主要优点在于能够在不依赖显式过程标签的情况下，有效地提供密集的奖励信号，从而加速模型的训练和推理能力的提升。PRIME在数学竞赛基准测试中表现出色，超越了现有的大型语言模型。其背景信息包括由多个研究者共同开发，并在GitHub上发布了相关代码和数据集。PRIME的定位是为需要复杂推理任务的用户提供强大的模型支持。

强化学习推理能力

LeRobot

为真实世界机器人提供最先进的机器学习模型、数据集和工具。

LeRobot 是一个旨在降低进入机器人领域的门槛，让每个人都能贡献并从共享数据集和预训练模型中受益的开源项目。它包含了在真实世界中经过验证的最先进的方法，特别关注模仿学习和强化学习。LeRobot 提供了一组预训练模型、带有人类收集演示的数据集和模拟环境，以便用户无需组装机器人即可开始。未来几周内，计划增加对最实惠和最有能力的真实世界机器人的支持。

机器学习强化学习

Search-R1

一个高效的强化学习框架，用于训练推理和搜索引擎调用的语言模型。

Search-R1 是一个强化学习框架，旨在训练能够进行推理和调用搜索引擎的语言模型（LLMs）。它基于 veRL 构建，支持多种强化学习方法和不同的 LLM 架构，使得在工具增强的推理研究和开发中具备高效性和可扩展性。

强化学习自然语言处理

Light-R1-14B-DS

一款开源的14B参数量的数学模型，通过强化学习训练，性能卓越。

Light-R1-14B-DS 是由北京奇虎科技有限公司开发的开源数学模型。该模型基于 DeepSeek-R1-Distill-Qwen-14B 进行强化学习训练，在 AIME24 和 AIME25 数学竞赛基准测试中分别达到了 74.0 和 60.2 的高分，超越了许多 32B 参数量的模型。它在轻量级预算下成功实现了对已经长链推理微调模型的强化学习尝试，为开源社区提供了一个强大的数学模型工具。该模型的开源有助于推动自然语言处理在教育领域的应用，特别是数学问题解决方面，为研究人员和开发者提供了宝贵的研究基础和实践工具。

强化学习数学模型

DeepSeek-R1-Zero

DeepSeek-R1-Zero 是一款通过大规模强化学习训练的推理模型，无需监督微调即可实现卓越推理能力。

DeepSeek-R1-Zero 是由 DeepSeek 团队开发的推理模型，专注于通过强化学习提升模型的推理能力。该模型在无需监督微调的情况下，展现出强大的推理行为，如自我验证、反思和生成长链推理。其主要优点包括高效推理能力、无需预训练即可使用，以及在数学、代码和推理任务上的卓越表现。该模型基于 DeepSeek-V3 架构开发，支持大规模推理任务，适用于研究和商业应用。

中文精选

强化学习推理模型

DeepScaleR-1.5B-Preview

一个基于强化学习优化的大型语言模型，专注于数学问题解决能力的提升。

DeepScaleR-1.5B-Preview 是一个经过强化学习优化的大型语言模型，专注于提升数学问题解决能力。该模型通过分布式强化学习算法，显著提高了在长文本推理场景下的准确率。其主要优点包括高效的训练策略、显著的性能提升以及开源的灵活性。该模型由加州大学伯克利分校的 Sky Computing Lab 和 Berkeley AI Research 团队开发，旨在推动人工智能在教育领域的应用，尤其是在数学教育和竞赛数学领域。模型采用 MIT 开源许可，完全免费供研究人员和开发者使用。

人工智能强化学习

DeepSeek-R1-Distill-Llama-70B

DeepSeek-R1-Distill-Llama-70B 是一款基于强化学习优化的大型语言模型，专注于推理和对话能力。

DeepSeek-R1-Distill-Llama-70B 是由 DeepSeek 团队开发的一款大型语言模型，基于 Llama-70B 架构并通过强化学习进行优化。该模型在推理、对话和多语言任务中表现出色，支持多种应用场景，包括代码生成、数学推理和自然语言处理。其主要优点是高效的推理能力和对复杂问题的解决能力，同时支持开源和商业使用。该模型适用于需要高性能语言生成和推理能力的企业和研究机构。

大型语言模型强化学习

Tülu 3 405B

Tülu 3 405B 是一个大规模开源语言模型，通过强化学习提升性能。

Tülu 3 405B 是由 Allen Institute for AI 开发的开源语言模型，具有 4050 亿参数。该模型通过创新的强化学习框架（RLVR）提升性能，尤其在数学和指令跟随任务中表现出色。它基于 Llama-405B 模型进行优化，采用监督微调、偏好优化等技术。Tülu 3 405B 的开源性质使其成为研究和开发领域的强大工具，适用于需要高性能语言模型的各种应用场景。

优质新品

人工智能自然语言处理

R1-Omni

R1-Omni 是一个结合强化学习的全模态情绪识别模型，专注于提升多模态情绪识别的可解释性。

R1-Omni 是一个创新的多模态情绪识别模型，通过强化学习提升模型的推理能力和泛化能力。该模型基于 HumanOmni-0.5B 开发，专注于情绪识别任务，能够通过视觉和音频模态信息进行情绪分析。其主要优点包括强大的推理能力、显著提升的情绪识别性能以及在分布外数据上的出色表现。该模型适用于需要多模态理解的场景，如情感分析、智能客服等领域，具有重要的研究和应用价值。

多模态情绪识别

Kimi k1.5

Kimi k1.5 是一个通过强化学习扩展的多模态语言模型，专注于提升推理和逻辑能力。

Kimi k1.5 是由 MoonshotAI 开发的多模态语言模型，通过强化学习和长上下文扩展技术，显著提升了模型在复杂推理任务中的表现。该模型在多个基准测试中达到了行业领先水平，例如在 AIME 和 MATH-500 等数学推理任务中超越了 GPT-4o 和 Claude Sonnet 3.5。其主要优点包括高效的训练框架、强大的多模态推理能力以及对长上下文的支持。Kimi k1.5 主要面向需要复杂推理和逻辑分析的应用场景，如编程辅助、数学解题和代码生成等。

中文精选

强化学习多模态

EurusPRM-Stage2

EurusPRM-Stage2是一个基于隐式过程奖励的强化学习模型，用于提升生成模型的推理能力。

EurusPRM-Stage2是一个先进的强化学习模型，通过隐式过程奖励来优化生成模型的推理过程。该模型利用因果语言模型的对数似然比来计算过程奖励，从而在不增加额外标注成本的情况下提升模型的推理能力。其主要优点在于能够在仅使用响应级标签的情况下，隐式地学习到过程奖励，从而提高生成模型的准确性和可靠性。该模型在数学问题解答等任务中表现出色，适用于需要复杂推理和决策的场景。

强化学习隐式过程奖励

夸克AI学习助手

提高大学生自学效率和质量的智能学习助手

夸克App推出的AI学习助手基于自研大模型，通过智能化的解题思路和讲解方式，提升大学生自学效率和质量。采用夸克宝宝的虚拟形象进行题目讲解，提供“考点分析”“详解步骤”“答案总结”等详细内容。并通过夸克网盘实现学习资料备份和使用，以及夸克扫描王提取核心复习内容。覆盖英语等学科的选择题、填空题、阅读题等常考题型，后续将加入数学等学科。

学习助手题目讲解

KnoWhiz

个性化学习平台，提升学习效率。

KnoWhiz是一个在线教育平台，专注于将课程转化为高效、个性化的学习计划。它提供个性化的闪卡、结构化学习模块和即时反馈的测验，帮助用户更快地实现学习目标。平台支持按月或按年订阅，提供基础、高级和专业三种不同的学习计划。

个性化学习在线教育

Factorio学习环境

基于《Factorio》游戏的大语言模型测试与学习环境

Factorio Learning Environment（FLE）是基于《Factorio》游戏构建的新型框架，用于评估大型语言模型（LLMs）在长期规划、程序合成和资源优化方面的能力。随着LLMs逐渐饱和现有基准测试，FLE提供了新的开放式评估方式。它的重要性在于能让研究人员更全面、深入地了解LLMs的优势与不足。主要优点是提供了开放式且难度呈指数级增长的挑战，拥有结构化任务和开放式任务两种评估协议。该项目由Jack Hopkins等人开发，以开源形式发布，免费使用，定位是推动AI研究人员对复杂、开放式领域中智能体能力的研究。

语言模型评估 Factorio游戏

RLLoggingBoard

一个用于强化学习人类反馈训练过程可视化的工具，帮助深度理解与调试。

RLLoggingBoard 是一个专注于强化学习人类反馈（RLHF）训练过程可视化的工具。它通过细粒度的指标监控，帮助研究人员和开发者直观理解训练过程，快速定位问题，并优化训练效果。该工具支持多种可视化模块，包括奖励曲线、响应排序和 token 级别指标等，旨在辅助现有的训练框架，提升训练效率和效果。它适用于任何支持保存所需指标的训练框架，具有高度的灵活性和可扩展性。

强化学习可视化

EducUp Study

个性化学习路径的AI助手

EducUp Study是一个致力于使学习变得简单和有趣的教育技术初创公司。它使用人工智能技术将任何想法、视频、网站、PDF或文本转化为定制化的、游戏化的学习课程，以满足用户的个性化学习需求。

国外精选

个性化学习 AI教育

Replicate

机器学习模型运行和部署的工具

Replicate是一款机器学习模型运行和部署的工具，无需自行配置环境，可以快速运行和部署机器学习模型。Replicate提供了Python库和API接口，支持运行和查询模型。社区共享了成千上万个可用的机器学习模型，涵盖了文本理解、视频编辑、图像处理等多个领域。使用Replicate和相关工具，您可以快速构建自己的项目并进行部署。

机器学习模型运行

隐私政策

用户协议

意见反馈网站地图

用户协议

AIbase服务使用协议，由享联科技有限公司实施、托管和运营。客户必须同意这些条款才能使用服务。

本网站及位于 AIbase.com 及其他子域名的服务，包括网页 App、小程序 App、移动端 App（统称为“本 App”）是享联科技有限公司的著作权产品。

通过访问或使用本网站，您表示接受这些条款（代表您本人或您代表的实体），并声明和保证您有权、权力和能力遵守这些条款（代表您本人或您代表的实体）。如果您未满 18 岁，您不得访问或使用本网站或接受这些条款。如果您不同意这些条款的所有规定，请不要访问和/或使用本 App。除了以下协议外，您还需要遵守 https://www.chinaz.com/aboutus/agreement.html 中的协议。

用户账户

为了充分利用此网站的所有功能，用户需要创建账户并填写准确的资料。用户有义务保护自己的账户和密码的保密性，并对其账户内的所有活动承担责任。若用户发现其账户遭到未经授权的使用，应迅速告知我们。

用户内容

此网站允许用户将问题记录存储并发送至服务器。用户需要对自身存储和发送的内容负责，确保其不触犯任何法律、法规或本协议。

行为规范

用户在使用此网站服务时，应遵循以下规定：

禁止发布、传播任何违法、淫秽、色情、赌博、暴力、恐怖或煽动犯罪的内容；

禁止发布、传播侵犯他人知识产权或其他合法权益的内容；

禁止发布、传播误导、欺诈、虚假信息或进行任何不诚实的行为；

禁止发布、传播政治宣传或进行任何政治活动；

禁止从事危害网络安全的行为，包括但不限于恶意攻击、恶意破坏、恶意干扰等；

禁止从事影响本网站正常运行的行为，包括但不限于非法使用本网站的资源、恶意注册、恶意请求等；

若用户违反上述规定，我们有权立即终止本协议并禁止用户使用本网站。

一般性支付条款

本网站提供的所有服务均为一次性付款，您只需支付所需的会员服务时长。服务到期后，本网站不会使用您过往的支付方式自动续费，也不存在需要取消的订阅。

会员服务时长购买后无法转送他人。本公司保留调整订阅价格的权力，已购买的服务时长内不受影响。

退款保障

如果由于本公司的过失导致您无法使用服务，您可以在首次购买服务后的24小时内申请取消服务并退还服务费。如果不符合上述要求，您的退款申请可以被考虑，但是最终决定权由本公司全权决定。本公司仅有义务通过原支付渠道进行退款，退款申请将在申请后30天内处理。如果您想根据我们的退款保证申请退款，请通过网站页面上客服联系方式进行联系咨询我们，我们收到信息将为您解决。本退款保证条款仅适用于通过本网站直接订阅服务的用户。

知识产权

本网站包含的所有内容，包括但不限于文本、图片、音频、视频、软件、代码、商标、商业信息等，皆受著作权、商标权、专利权及其他知识产权法律的保护。未经我们书面同意，用户不得使用、复制、修改、拷贝、发布、出售、出租、传播本网站的任何内容。

网站服务器回答内容责任

本网站的服务器根据用户的问题提供答案，但用户需要自行判断回答内容的正确性和可靠性，并自行承担使用回答内容的风险。我们不对回答内容的准确性、可靠性、完整性、有效性、及时性、适用性等作出任何保证或承诺。

隐私保护

我们尊重用户的隐私权，并承诺在使用用户的个人信息时遵守相关法律法规。我们将采取合理的安全措施保护用户的个人信息，但不对因不可抗力或非因我们的原因导致的信息泄露承担责任。

免责声明

本网站提供的信息和服务仅供参考，不构成任何担保或承诺。我们不保证本网站的信息和服务的准确性、可靠性、完整性、有效性、及时性、适用性。用户使用本网站的信息和服务所产生的风险由用户自行承担。

变更和终止

我们有权随时修改本协议的任何条款，并将修改后的协议在本网站上公布。若用户继续使用本网站，即表示用户同意受修改后的协议约束。若用户不同意修改后的协议，应立即停止使用本网站。

我们有权在任何时候终止本协议，且无需提前通知用户。在协议终止后，用户无权继续使用本网站。

适用法律

本协议的订立、执行、解释及争议的解决均适用中华人民共和国法律。如发生本协议与中华人民共和国法律相抵触时，应以中华人民共和国法律的明文规定为准。

如双方就本协议内容或执行发生任何争议，双方应尽力友好协商解决；协商不成时，任何一方均可向本网站所在地的人民法院提起诉讼。

其他

本协议构成双方对本协议之约定事项及其他有关事宜的完整协议，除本协议规定的之外，未赋予本协议各方其他权利。

如本协议中的任何条款无论因何种原因完全或部分无效或不具有执行力，本协议的其余条款仍应有效并且有约束力。

本协议中的标题仅供方便参阅，不具有实际意义，不能作为本协议涵义解释的依据。

本协议未尽事宜，您需遵守我们不时发布的其他服务条款和操作规则。

本协议自您接受之日起生效，对我们和用户均具有约束力。

确认

隐私政策

欢迎访问我们的产品。AIbase（包括 App 和网站等产品提供的服务，以下简称“产品和服务”）是由享联科技有限公司（以下简称“我们”）开发并运营的。确保用户的数据安全和隐私保护是我们的首要任务，本隐私政策详细说明了您访问和使用我们的产品和服务时所收集的数据以及其处理方式。

在继续使用我们的产品之前，我们强烈建议您认真阅读并理解本隐私政策的全部规则和要点。一旦您选择使用，即表示您同意本隐私政策的全部内容，并同意我们收集和使用您相关的信息。如果您在阅读过程中对本政策有任何疑问，请通过产品中的反馈方式联系我们的客服进行咨询。如果您不同意其中的任何条款或相关协议，则应停止使用我们的产品和服务。

本隐私政策旨在帮助您了解以下内容：

一、我们如何收集和使用您的个人信息；

二、我们如何存储和保护您的个人信息；

三、我们如何公开披露您的个人信息；

四、我们如何使用 Cookie 和其他追踪技术；

五、其他补充说明；

一、我们如何收集和使用您的个人信息

个人信息是指以电子或其他方式记录的能够单独或与其他信息结合识别特定自然人身份或反映特定自然人活动情况的各种信息。我们根据《中华人民共和国网络安全法》和《信息安全技术个人信息安全规范》（GB/T 35273-2017）以及其他相关法律法规的要求，严格遵循正当、合法、必要的原则，出于您使用我们提供的服务和/或产品等过程中而收集和使用您的个人信息，包括但不限于电话号码、电子邮箱地址、偏好及兴趣等。

为接受我们全面的产品服务，您应首先注册一个用户账号，我们将通过它记录相关的数据。您所提供的所有信息均来自于您本人在注册时提供的数据。如扫码登录、手机验证登录等方式，我们可能通过发短信或邮件的方式来验证您的身份是否有效。

二、我们如何存储和保护您的个人信息

作为一般规则，我们仅在实现信息收集目的所需的时间内保留您的个人信息。当您开立帐户或从我们的产品获取服务时，我们会在对于管理与您之间的关系严格必要的时间内保留您的个人信息。出于遵守法律义务或为证明某项权利或合同满足适用的诉讼时效要求的目的，我们可能需要在上述期限到期后保留您存档的个人信息，并且无法按您的要求删除。当您的个人信息对于我们的法定义务或法定时效对应的目的或档案不再必要时，我们确保将其完全删除或匿名化。

我们使用符合业界标准的安全防护措施保护您提供的个人信息，并加密其中的关键数据，防止其遭到未经授权访问、公开披露、使用、修改、损坏或丢失。我们会采取一切合理可行的措施，保护您的个人信息。我们会使用加密技术确保数据的保密性；我们会使用受信赖的保护机制防止数据遭到恶意攻击。

值得一提的是，为了加强对隐私数据的保护，我们在收集时就已对其进行了脱敏处理，即使在我们自己的数据库中，也不会储存具有关联性的、明文的隐私数据。

三、我们如何公开披露您的个人信息

为了更好地服务客户并追求合法利益，我们将合规并且恰当地使用您的个人信息。我们可能会根据法律法规规定或政府主管部门的强制性要求，对外共享您的个人信息。在符合法律法规的前提下，当我们收到上述披露信息的请求时，我们会要求必须出具与之相应的法律文件，如传票或调查函。我们坚信，在法律允许的范围内，对于要求我们提供的信息，应该尽可能保持透明。

在以下情形中，共享、公开披露您的个人信息无需事先征得您的授权同意：

与国家安全、国防安全直接相关的；

与犯罪侦查、起诉、审判和判决执行等直接相关的；

出于维护您或其他个人的生命、财产等重大合法权益但难以得到本人同意的；

您自行向社会公众公开的个人信息；

从合法公开披露的信息中收集个人信息的，如合法的新闻报道、政府信息公开等渠道；

根据个人信息主体要求签订和履行合同所必需的；

用于维护所提供的产品或服务的安全稳定运行所必需的，例如发现、处置产品或服务的故障；

法律法规规定的其他情形。

四、如何使用 Cookie 和其他追踪技术

为了确保产品正常运作，我们会在您的计算机或移动设备上存储名为 Cookie 的小数据文件。 Cookie 通常包含标识符、产品名称以及一些数字和字符。通过使用 Cookie，我们可以存储您的偏好或产品数据，并用于判断注册用户是否已登录，提高服务和产品质量以及优化用户体验。我们出于不同目的使用各种 Cookie，包括：严格必要型 Cookie、性能 Cookie、营销 Cookie 和功能 Cookie。某些 Cookie 可能由第三方提供，以向我们的产品提供其他功能。我们不会将 Cookie 用于本政策所述目的之外的任何用途。您可以根据自己的偏好管理或删除 Cookie。您可以清除计算机或手机中保存的所有 Cookie，大多数网络浏览器都设有阻止或禁用 Cookie 的功能，您可以对浏览器进行配置。阻止或禁用 Cookie 功能后，可能会影响您使用或无法充分使用我们的产品和服务。

五：其他补充

1、有关用户身份注销问题

关于您注销账户的方式以及您应满足的条件，请详见《站长之家账户注销须知》。您注销账户后，我们将停止为您提供产品与/或服务，并依据您的要求，除法律法规另有规定外，我们将删除您的个人信息。请您理解，由于技术所限、法律或监管要求，我们可能无法满足您的所有要求，我们会在合理的期限内答复您的请求。

确认

产品库

DIAMOND

DIAMOND

DiffusionRL

d1

Unitree RL GYM

mwp_ReFT

SERL

JaxMARL

agibot_x1_train

RL4VLM

DigiRL

Parrot

RLVR-GSM-MATH-IF-Mixed-Constraints

SWE-RL

PRIME-RL

LeRobot

Search-R1

Light-R1-14B-DS

DeepSeek-R1-Zero

DeepScaleR-1.5B-Preview

DeepSeek-R1-Distill-Llama-70B

Tülu 3 405B

R1-Omni

Kimi k1.5

EurusPRM-Stage2

夸克AI学习助手

KnoWhiz

Factorio学习环境

RLLoggingBoard

EducUp Study

Replicate