简介:

一个高效的强化学习框架,用于训练推理和搜索引擎调用的语言模型。

功能:

支持多种强化学习方法(如 PPO、GRPO、reinforce),满足不同训练需求。

兼容多种语言模型(如 Llama3、Qwen2.5),方便用户选择合适的基础模型。

可以使用本地稀疏 / 密集检索器及在线搜索引擎,灵活应对不同场景。

提供多节点训练,支持 30B 以上的 LLMs,提升训练效率。

开放源码,促进工具增强的 LLM 推理的研究与开发。

支持自定义数据集和搜索引擎,满足个性化需求。

记录完整的实验日志,便于复现与分析。

提供便捷的安装和快速启动指南,降低使用门槛。

需求人群:

"适合研究人员和开发者,他们需要高效的工具增强推理模型,能够灵活调用搜索引擎以获取信息和提高模型性能。"

浏览量:81

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2025     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图