在AI技术飞速发展的当下,国产算力正面临一场“空转”危机。海外高端GPU因供应短缺和价格高昂,让众多企业望而却步;而国产芯片虽产能提升,却因生态不完善、适配难度大、推理优化门槛高等问题,导致大量设备闲置,电费高昂却难以产出有效成果。企业渴望应用AI技术,却在算力环节遭遇瓶颈,如何打破这一僵局成为行业关注的焦点。
在这场算力困局中,一支从中国超级计算体系走出的年轻团队——是石科技,正以独特的技术路径寻求突破。这家成立于2021年的公司,由清华大学技术背景深厚、拥有国家级算力中心工程经验的核心科研团队联合创立,是国内最早将超算智算并行优化技术产业化的团队之一。公司名称取自“实事求是,甘为基石”,体现了团队对算力基础设施重要性的深刻理解。创始人兼董事长闫博文,1993年出生,清华大学计算机系博士后,带领团队瞄准高性能计算与人工智能计算的深度融合,致力于解决异构算力资源调度的难题。
是石科技认为,AI行业需要的不是简单的算力转租平台,而是要彻底跳出传统租赁模式,重构算力变现路径。为此,公司紧扣“Token标准化、国产化、效率提升”三大核心,打造了国产TOKEN调优工厂。这一创新模式的第一层技术底座,是异构算力的全域整合与深度国产化适配。不同于行业常见的单一算力资源模式,是石科技构建了全域异构算力资源池,兼容NVIDIA GPU、昇腾、昆仑芯、天数、太初、瀚博半导体等国产AI芯片,以及云厂商和边缘算力等多源渠道。通过智能调度与弹性扩缩容技术,实现算力资源的统一管理、智能分配和动态扩容,帮助企业摆脱“算力采购难、资源碎片化”的困境。
在推理优化这一核心技术领域,是石科技展现了深厚的积累。团队在高性能计算领域深耕多年,在严格遵循企业级SLA服务标准的前提下,从算子、内存、调度、解码等全维度进行技术革新。CUDA Kernel算子级优化、PagedAttention内存优化、Continuous Batching连续批处理、混合精度推理等技术被系统性部署在TOKEN工厂的生产线上。配合FlashAttention、推测解码、KV Cache精细化管理、模型并行(TP/PP)等前沿加速方案,GPU等国产芯片的资源利用率显著提升,Token吞吐量大幅增加,单位成本显著下降。实测数据显示,在同等算力条件下,是石科技的推理优化方案可将吞吐量提升30%-50%,单位Token成本降低40%,同时有效控制了延迟抖动、TTFT与TPOT波动等问题,确保Token生成的高效、稳定和高品质。
为保障规模化Token生产的稳定性,是石科技构建了一套多Provider互补与容灾体系。该体系通过资源互补、技术互补和区域互补,实现流量峰值时的自动弹性扩容、特定模型和技术能力的接入,以及跨地域部署以降低延迟、满足合规要求。自动Fallback故障切换机制与“自有集群承载主要流量、合作伙伴集群兜底容灾”的流量分配模式相结合,彻底规避了单点算力故障导致的业务中断风险,提供了99.9%的高可用性服务保障。这一设计类似于飞机引擎的“多冗余设计”,即使一台引擎失效,其他引擎也能自动补位,确保系统稳定运行。是石科技的AI推理服务因此配备了三套引擎——自有引擎、合作伙伴引擎和备用引擎,即使其中一套失效,系统也能在0.1秒内自动切换,用户几乎无感知。
当前,国产AI算力替代进程正在加快,标准化、可量产、低成本的Token产能已成为AI产业落地的核心生产资料。是石科技的目标是建成中国最大、技术最先进、服务最完善的国产TOKEN调优工厂,降低千行百业应用AI的门槛,推动国产算力生态实现规模化、高质量发展,助力中国AI产业迈向工业化、标准化新阶段。在行业追逐单一模型精度的背景下,是石科技选择了一条更具挑战但更具长期价值的道路——打造可进化、可复用、可普惠的Token生产力平台。尽管这条路投入更大、周期更长、协调更复杂,但一旦成功,将改变的不仅是某一家企业的推理成本,而是整个中国AI产业高效发展的国产算力生态。















