3FS

3FS是一个专为AI训练和推理工作负载设计的高性能分布式文件系统。它利用现代SSD和RDMA网络,提供共享存储层,简化分布式应用开发。其核心优势在于高性能、强一致性和对多种工作负载的支持,能够显著提升AI开发和部署的效率。该系统适用于大规模AI项目,尤其在数据准备、训练和推理阶段表现出色。

需求人群:

"3FS适合需要高性能存储解决方案的AI开发者和研究团队,尤其是那些处理大规模数据集和复杂模型训练的用户。它能够显著提升数据处理效率,降低开发和部署成本。"

使用场景示例:

在大规模AI训练中,3FS用于存储和快速访问训练数据,显著提升训练速度。

在推理阶段,3FS的KVCache功能为LLM推理提供高效的缓存支持,减少计算开销。

3FS用于数据准备阶段,高效管理数据管道的中间输出,优化数据处理流程。

产品特色:

高性能:结合数千个SSD的吞吐量和数百个存储节点的网络带宽,支持大规模并行访问。

强一致性:采用CRAQ协议,确保数据强一致性,简化应用开发。

多种工作负载支持:适用于数据准备、训练样本加载、检查点保存和推理缓存等场景。

易于使用:提供标准文件接口,无需学习新存储API。

高扩展性:支持大规模集群部署,满足不同规模的AI项目需求。

使用教程:

1. 从GitHub克隆3FS仓库:`git clone https://github.com/deepseek-ai/3fs`。

2. 初始化子模块:`cd 3fs && git submodule update --init --recursive`。

3. 安装依赖,如CMake、libuv、liblz4等(具体依赖见文档)。

4. 构建3FS:`cmake -S . -B build -DCMAKE_BUILD_TYPE=RelWithDebInfo`,然后运行`cmake --build build`。

5. 部署测试集群,按照部署指南配置存储节点和客户端。

浏览量:39

打开站点

网站流量情况

最新流量情况

月访问量

4.92m

平均访问时长

00:06:33

每次访问页数

6.11

跳出率

36.20%

流量来源

直接访问

51.61%

自然搜索

33.46%

邮件

0.04%

外链引荐

12.58%

社交媒体

2.19%

展示广告

0

截止目前所有流量趋势图

地理流量分布情况

中国

12.55%

德国

3.84%

印度

9.38%

俄罗斯

4.61%

美国

18.64%

类似产品

透明跟踪和触发,细粒度计算与集合的重叠

大型语言模型在训练和推断中越来越依赖于分布式技术。这些技术需要在设备之间进行通信,随着设备数量的增加,这可能会降低扩展效率。虽然一些分布式技术可以重叠,从而隐藏独立计算的通信,但类似张量并行(TP)的技术固有地将通信与模型执行串行化。隐藏这种串行化通信的一种方法是以细粒度的方式将其与生产者操作(通信数据的产生)交错在一起。然而,在软件中实现这种细粒度的通信和计算交错可能很困难。此外,与任何并发执行一样,它需要在计算和通信之间共享计算和内存资源,导致资源争用,从而降低了重叠效率。为了克服这些挑战,我们提出了T3,它应用硬件-软件共同设计,透明地重叠串行通信,同时最小化与计算的资源争用。T3通过简单配置生产者的输出地址空间,透明地融合了生产者操作和随后的通信,需要进行轻微的软件更改。在硬件层面,T3添加了轻量级的跟踪和触发机制,以编排生产者的计算和通信。它进一步利用增强计算的存储器来进行通信的相关计算。因此,T3减少了资源争用,并有效地将串行通信与计算重叠。对于重要的Transformer模型,如T-NLG,T3将通信密集型子层的速度提高了30%的几何平均值(最大47%),并将数据移动减少了22%的几何平均值(最大36%)。此外,随着模型的扩展,T3的好处仍然存在:对于sim500亿参数模型的子层,几何平均值为29%,PALM和MT-NLG。

© 2025     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图