栏目分类
热点资讯

新闻

你的位置:Kaiyun网页版·「中国」开云官方网站 登录入口 > 新闻 > 开云体育(中国)官方网站特色即是高通量、低蔓延-Kaiyun网页版·「中国」开云官方网站 登录入口

开云体育(中国)官方网站特色即是高通量、低蔓延-Kaiyun网页版·「中国」开云官方网站 登录入口

2026-04-23 03:40    点击次数:59

开云体育(中国)官方网站特色即是高通量、低蔓延-Kaiyun网页版·「中国」开云官方网站 登录入口

DeepSeek 开源周,本日厚爱收官!

实践依旧惊喜且重磅,径直公开了 V3 和 R1 傍观推理经由顶用到的文献系统。

具体来说,包括以下两项实践:

Fire-Flyer 文献系统(简称3FS,第三个 F 代表 File),一种愚弄当代 SSD 和 RDMA 采集的全部带宽的并行文献系统;

Smallpond,基于 3FS 和 DuckDB 构建的轻量级数据处理框架。

划要点即是,3FS 不错把固态硬盘的带宽性能愚弄到极致,阐扬出了惊东说念主的速率:

180 节点集群中的团聚读取微辞量为 6.6TB/s;

25 节点集群中 GraySort 基准测试的微辞量为 3.66TB/ 分钟;

每个客户端节点的 KVCache 查找峰值微辞量擢升 40GB/s。

V3 和 R1 中傍观数据预处理、数据集加载、镶嵌向量搜索和 KV Cache 查找等责任,3FS 齐立下了殊勋茂绩。

网友们暗意,3FS 和 Smallpond 为 AI 数据处理设定了新基准,将改革数据处理的游戏划定。

关于 AI 来说,这就像从自行车升级到了高铁。

将 SSD 和 RDMA 性能榨干

把柄 DeepSeek 团队先容,3FS 是一种高性能的散播式文献系统,濒临的即是 AI 傍观和推理责任负载的挑战。

它愚弄当代 SSD 和 RDMA 采集来提供分享存储层,从而简化散播式应用枢纽的建筑。

SSD 即是固态硬盘,而 RDMA(良友径直探问,remote direct memory access)是一种径直存储器探问期间。

它不错在莫得两边操作系统介入的情况下,将数据径直从一台狡计机的内存传输到另一台狡计机,也不需要中央处理器、CPU 缓存或高下文交换参与。

特色即是高通量、低蔓延,尤其合适在大鸿沟并行狡计机集群中使用。

具体到 3FS,具有以下特色:

散播式架构:蚁集了数千个 SSD 的微辞量和数百个存储节点的采集带宽,使应用枢纽大致以不受位置影响的神气探问存储资源。

强一致性罢了带:分拨查询的链式复制 ( CRAQ ) 以罢了强一致性,使应用枢纽代码简单易懂。

文献接口:文献接口无人不晓且随地可用,无需学习新的存储 API。

况且,3FS 大致适用于大模子傍观推理和经由中不同类型的应用负载:

数据准备:将数据分析 pipeline 的输出重组因素层目次结构,并有用束缚大宗中间输出。

数据加载器:通过跨狡计节点就地探问傍观样本,放置了预取或混洗数据集的需要。

Checkpoints:维持大鸿沟傍观的高微辞量并行 Checkpoints。

用于推理的 KV 缓存:为基于 DRAM 的缓存提供了一种经济高效的替代有益象打算,可提供高微辞量和更大的容量。

在大型 3FS 集群上的读取测试中,罢了了惊东说念主的高微辞量。

该集群由 180 个存储节点构成,每个存储节点配备 2 × 200Gbps InfiniBand 网卡和 16 个 14TB NVMe SSD。

节略 500+ 个客户端节点用于读压测,每个客户端节点建立 1x200Gbps InfiniBand 网卡。

在傍观功课的布景流量下,最终团聚读微辞达到约 6.6TB/s。

DeepSeek 还用 GraySort 基准测试评估了基于 3FS 构建的 smallpond 框架,该基准测试可测量大鸿沟数据集的排序性能。

测试分为两个阶段,先用键的前缀位通过 shuffle 对数据进行分区,然后进行分区内排序。两个阶段既需要从 3FS 读取,也需要向 3FS 写入数据。

测试集群包含 25 个存储节点(2 个 NUMA 域 / 节点、1 个存储劳动 /NUMA、2 × 400Gbps NIC/ 节点)和 50 个狡计节点(2 个 NUMA 域、192 个物理中枢、2.2 TB RAM 和 1 × 200 Gbps NIC/ 节点)。

最终对 8192 个分区中 110.5TB 数据进行排序,耗时 30 分 14 秒,平均微辞量为 3.66TB/ 分钟。

另外,KV 缓存客户端的读取微辞量,峰值也达到了 40GB/s。

One More Thing

追想 DeepSeek 这五天开源的实践,险些齐和 AI Infra 联系:

第一天,,DeepSeek 独创 MLA 架构的高性能版块,径直冲破 H800 狡计上限;

第二天,, 第一个用于 MoE 模子傍观和推理的开源 EP 通讯库,提供高微辞量和低蔓延的 all-to-all GPU 内核;

第三天,,一个通用矩阵乘法库,仅 300 行代码,是 V3/R1 傍观推理舛误秘密;

第四天,,翻新的双向活水线并行算法 DualPipe、用于 MoE 的负载平衡算法 EPLB,以及傍观和推理框架的性能分析数据;

第五天,3FS 和 Smallpond,高效的散播式文献系统和以之为基础的数据处理框架。

况且主打的即是特殊压缩老本,缩小耗尽的同期将各式硬件的性能全部证实到极致。

而另外一边,有网友也曾在期待 V4 和 R2 的上线了。

至此,DeepSeek 开源周的连载也要告一段落了,但 DeepSeek 后续作为依然值得握续神志。

感意思的话,迎接扫码备注「DeepSeek- 事业 / 姓名」加入群聊,沿路神志 DeepSeek 更多动态!

神气地址:

https://github.com/deepseek-ai/3FS

参考不息:

https://x.com/deepseek_ai/status/1895279409185390655开云体育(中国)官方网站



Powered by Kaiyun网页版·「中国」开云官方网站 登录入口 @2013-2022 RSS地图 HTML地图