积算科技推出GPU裸金属算力服务套件,协助用户快速部署算力环境

   发布时间:2025-07-03 18:35 作者:美通社

北京 2025年7月3日 /美通社/ -- 近日,北京积算科技有限公司(以下简称"积算科技")正式推出GPU裸金属算力服务套件,帮助客户实现并行环境的分钟级部署与出厂级性能校准,在GPU裸金属算力上高效构建性能可靠的企业级服务,为千亿参数大模型训练、推理、深度学习和大数据分析等场景提供高效、稳定、优质的算力基座。

裸金属算力兼具物理机的超强性能与云计算的灵活服务,并具备低延迟、强资源隔离、按需购买、灵活扩容、高性价比等优势,深受科技企业与高校科研用户青睐。然而在开通裸金属算力后的首要任务——部署系统环境阶段,用户经常面临步骤繁琐、周期长、性能优化困难、缺乏自动化部署工具等诸多挑战。

首先,部署过程涉及数十个驱动程序与软件包,步骤繁琐且配置复杂,不仅涉及操作系统和基础软件的安装,更关键的是需要精确配置与GPU硬件紧密关联的驱动、加速库、深度学习框架等。这些组件间复杂的版本依赖关系极易导致错误,兼容性问题也异常突出,不同GPU型号、操作系统及软件库版本间的复杂交互,使得故障排查和调试成本居高不下。因此部署周期长成为一个突出问题,从服务器开通到环境可用往往耗时数小时甚至数天,如果算力规模超过百台,部署难度和周期会呈指数级上升,严重拖慢了AI研发团队和科研项目进度,降低了GPU资源的利用效率。

其次,为了确保智能算力系统的高性能和稳定运行,需要验证不同硬件环境下的软件适配,优化BIOS、操作系统、底层驱动、文件系统和网络等多项指标,要求专业人员深入了解操作系统、驱动等技术知识,通过大量调试寻求系统性能最优解。若系统环境性能优化不足,例如GPU驱动与框架版本不匹配,将导致GPU的强大算力无法充分释放,高昂的硬件投资难以获得预期回报。

最后,由于普遍缺乏自动化部署工具,智能算力系统的环境部署难以标准化和规模化管理,进一步加剧了运维复杂性,难以满足快速变化的业务需求。

针对系统环境部署难题,积算科技推出GPU裸金属算力服务套件,为用户提供智能算力系统环境快速部署、系统性能优化等服务。该套件提供并行环境高效部署工具,包括操作系统、GPU/网络驱动程序和其他必要的软件基础包(如CUDA、InfiniBand/ROCE驱动等)快速安装、配置和更新。用户仅需按服务手册执行少量代码,即可完成智能算力系统部署,进而高效开展AI模型训练、微调、推理等任务。此外,该套件还可针对系统、内核、底层驱动进行性能优化。用户只需执行基于开源框架编写的简单脚本命令,几乎无需修改,即可快速完成性能优化工作,实现显存效率超过80%、网络RDMA带宽效率高于90%,并通过零冗余架构保障高性能负载。借助该套件,用户最快20分钟内即可完成200节点系统部署与性能优化,较传统方法部署(114分钟)时间缩短约80%,显著提升部署效率与系统性能。

目前,积算科技裸金属算力服务套件已经免费开放,可以满足预训练、微调、推理、深度学习等应用场景的需求。积算科技裸金属算力全系列通过硬件直通释放100%算力,InfiniBand网络实现纳秒级跨卡通信,TB内存保障百亿参数流畅加载,NVMe SSD提供百万级IOPS加速数据吞吐,满足从单卡推理到千卡算力系统的全维度AI需求。更多产品详情及试用申请请点击:算力服务使用(试用)需求表-北京积算科技。

积算科技诞生于全球生成式AI浪潮,专注于智能算力服务市场,致力于成为中国最具价值的智能算力服务商,聚焦互联网、运营商、高校、新能源汽车等领域的多家头部客户提供算力服务。公司拥有万卡级先进智能算力资源池,提供裸金属、智能算力系统、专属智能算力系统等算力服务产品,适用于大模型训练与推理、算法研究、大数据分析、自动驾驶、智能科学计算等多元场景。其运维和服务团队具备大规模智能算力系统设计建设、大模型开发应用及性能优化能力,可提供全栈大模型应用开发服务支持,并根据客户需求提供灵活服务模式。

 
 
更多>同类内容
全站最新
热门内容
本栏最新