XSKY星辰天合:以智能分层架构,赋能AI数据高效存储新实践

   发布时间:2025-12-10 07:17 作者:沈如风

在人工智能技术飞速发展的当下,大语言模型(LLM)和多模态模型的参数量与训练数据量呈指数级增长,这对数据存储提出了前所未有的挑战。AI全工作流,涵盖数据采集、清洗预处理、GPU高并发训练以及模型推理等环节,均需要TB/s级带宽和低延迟I/O支持。一旦存储出现瓶颈,昂贵的GPU算力便会闲置,造成资源浪费。同时,海量原始数据、中间数据和归档数据的长期保存需求,使得单一存储介质难以兼顾高性能与成本控制,“全闪存+混闪”的分层存储方案逐渐成为业界共识。

然而,传统分层存储方案存在诸多痛点。其一,数据分层依赖创建时间(mtime),导致高频访问的训练集可能因“到期”被降级至慢速混闪池,严重影响训练性能。其二,数据在不同存储层间流动需手动切换路径或挂载点,操作复杂且易出错,可能引发训练失败。其三,为避免性能问题,企业被迫将更多数据保留在全闪存层,或反复“搬运”降级数据回热层,导致总拥有成本(TCO)大幅上升。某大型智算中心曾因开源方案缺乏智能分层能力,数据预处理效率低下,GPU等待时间过长,无法实现数据的高效流转。

为破解这些难题,北京星辰天合科技股份有限公司基于XEOS对象存储,推出了“XEOS AI数据湖方案”。该方案通过智能数据流动机制,重塑了AI分层存储逻辑,为头部AGI厂商、国家级AI实验室和大型智算中心提供了高效的数据底座。方案采用基于访问时间(atime)的智能生命周期管理,系统能够实时感知数据访问行为,精准捕获如GetObject/HeadObject等操作,并自动刷新atime。高频训练数据集因访问频繁,atime不断更新,可长期驻留在全闪热层,保障训练性能稳定;而“长期无访问”的冷数据则自动流向低成本混闪池,实现资源合理分配。

在数据访问方面,方案实现了“一次慢、次次快”的模式。上层应用无需关心数据存储位置,在统一命名空间下,访问路径保持不变,避免了手动切换的失误。首次访问冷层数据时,系统会异步将数据缓存至热层,后续访问直接从热层读取,大幅提升速度。每一次缓存数据访问都会刷新其过期时间,确保热点数据长期驻留高速层。系统还支持通过批量HeadObject操作提前预热数据集,实现首次访问即达极致性能。

方案在架构设计上摒弃了传统多存储层割裂的模式,在统一命名空间内整合了“高性能全闪热层”与“大容量混闪温冷层”。热层采用全闪存介质,针对模型训练和推理等高频访问场景优化,提供低至毫秒级的时延和TB/s级带宽,满足GPU集群高并发数据加载需求。温冷层采用“SSD+HDD”混闪架构,以较低成本承载原始数据、中间结果和训练日志等低频访问数据,并支持自动归档与生命周期清理功能,有效管理长期存储数据。数据在层间流动时,访问路径和权限控制保持一致,消除了“数据搬运”的操作成本与性能损耗。

性能方面,方案基于分布式架构设计,单集群可承载EB级容量,支持线性扩展,能够轻松应对AI数据的“爆发式增长”。通过对I/O调度算法的优化,系统在极限压力下仍能保持低时延。在头部AGI厂商场景中,峰值读取带宽可达5Tbps,读取时延≤8ms;在智算中心场景中,读取峰值达149.34GB/s,满足大模型“高并发、高带宽”的训练需求。系统继承了星辰天合企业级存储的金融级可靠性,数据可用性达99.9999%,为数据安全提供了坚实保障。

该方案在实际应用中取得了显著成效。在经济效益方面,通过“智能分层+混闪架构”,客户存储TCO平均降低30%-60%。某智算中心避免了全闪存过度配置,年节省存储采购成本超千万元;头部AGI厂商通过冷数据自动归档,减少30%全闪容量占用。同时,方案消除了数据流动的人工干预与性能损耗,数据预处理效率提升300%,GPU利用率提升25%-75%。某智算中心GPU等待时间从日均4小时缩短至1小时,年增加模型训练迭代次数超50次。方案支持在线扩容,无需停机,某客户在4个月内完成20PB数据扩容,未影响任何训练任务,避免了因扩容中断导致的研发延误。

在社会效益方面,方案通过高效数据底座释放了GPU算力,帮助头部AGI厂商和国家级实验室突破模型训练效率瓶颈,加速了SOTA模型研发,助力我国AI技术在全球竞争中保持领先。同时,“高性能+低成本”的平衡方案降低了AI落地门槛,让中小型AI企业无需承担高昂全闪存成本即可获得TB/s级存储能力,推动了AI技术在制造、医疗、金融等行业的普及。混闪架构与智能分层减少了高能耗全闪存的使用量,某智算中心采用方案后,存储系统年耗电量降低28%,符合“双碳”目标,助力AI产业绿色发展。

XSKY星辰天合是面向AI时代的统一数据平台提供商,十年专注分布式存储,长期位列IDC市场报告“TOP 5”,且是唯一独立存储厂商,同时在对象存储市场保持长期领导者地位。公司产品已在3000+客户的企业级生产环境经受验证,为企业AI创新与数据基础设施现代化提供了可靠的数据底座。与之合作的某通用人工智能科技公司是全球领先的AGI科技公司,自主研发了具有业界竞争力的多模态通用大模型,在代码生成、智能体(Agent)能力及超长上下文处理等方面表现卓越,服务范围覆盖全球超200个国家及地区,累计触达个人用户突破一亿,并为超过5万家企业客户与开发者提供技术支持与解决方案。

 
 
更多>同类内容
全站最新
热门内容
本栏最新