清华系团队打造国产TOKEN调优工厂，为AI产业筑牢推理底座新生态

发布时间：2026-05-31 18:55 来源：快讯作者：江紫萱

在AI技术飞速发展的当下，国产算力正面临一场“空转”危机。海外高端GPU因供应短缺和价格高昂，让众多企业望而却步；而国产芯片虽产能提升，却因生态不完善、适配难度大、推理优化门槛高等问题，导致大量设备闲置，电费高昂却难以产出有效成果。企业渴望应用AI技术，却在算力环节遭遇瓶颈，如何打破这一僵局成为行业关注的焦点。

在这场算力困局中，一支从中国超级计算体系走出的年轻团队——是石科技，正以独特的技术路径寻求突破。这家成立于2021年的公司，由清华大学技术背景深厚、拥有国家级算力中心工程经验的核心科研团队联合创立，是国内最早将超算智算并行优化技术产业化的团队之一。公司名称取自“实事求是，甘为基石”，体现了团队对算力基础设施重要性的深刻理解。创始人兼董事长闫博文，1993年出生，清华大学计算机系博士后，带领团队瞄准高性能计算与人工智能计算的深度融合，致力于解决异构算力资源调度的难题。

是石科技认为，AI行业需要的不是简单的算力转租平台，而是要彻底跳出传统租赁模式，重构算力变现路径。为此，公司紧扣“Token标准化、国产化、效率提升”三大核心，打造了国产TOKEN调优工厂。这一创新模式的第一层技术底座，是异构算力的全域整合与深度国产化适配。不同于行业常见的单一算力资源模式，是石科技构建了全域异构算力资源池，兼容NVIDIA GPU、昇腾、昆仑芯、天数、太初、瀚博半导体等国产AI芯片，以及云厂商和边缘算力等多源渠道。通过智能调度与弹性扩缩容技术，实现算力资源的统一管理、智能分配和动态扩容，帮助企业摆脱“算力采购难、资源碎片化”的困境。

在推理优化这一核心技术领域，是石科技展现了深厚的积累。团队在高性能计算领域深耕多年，在严格遵循企业级SLA服务标准的前提下，从算子、内存、调度、解码等全维度进行技术革新。CUDA Kernel算子级优化、PagedAttention内存优化、Continuous Batching连续批处理、混合精度推理等技术被系统性部署在TOKEN工厂的生产线上。配合FlashAttention、推测解码、KV Cache精细化管理、模型并行（TP/PP）等前沿加速方案，GPU等国产芯片的资源利用率显著提升，Token吞吐量大幅增加，单位成本显著下降。实测数据显示，在同等算力条件下，是石科技的推理优化方案可将吞吐量提升30%-50%，单位Token成本降低40%，同时有效控制了延迟抖动、TTFT与TPOT波动等问题，确保Token生成的高效、稳定和高品质。

为保障规模化Token生产的稳定性，是石科技构建了一套多Provider互补与容灾体系。该体系通过资源互补、技术互补和区域互补，实现流量峰值时的自动弹性扩容、特定模型和技术能力的接入，以及跨地域部署以降低延迟、满足合规要求。自动Fallback故障切换机制与“自有集群承载主要流量、合作伙伴集群兜底容灾”的流量分配模式相结合，彻底规避了单点算力故障导致的业务中断风险，提供了99.9%的高可用性服务保障。这一设计类似于飞机引擎的“多冗余设计”，即使一台引擎失效，其他引擎也能自动补位，确保系统稳定运行。是石科技的AI推理服务因此配备了三套引擎——自有引擎、合作伙伴引擎和备用引擎，即使其中一套失效，系统也能在0.1秒内自动切换，用户几乎无感知。

当前，国产AI算力替代进程正在加快，标准化、可量产、低成本的Token产能已成为AI产业落地的核心生产资料。是石科技的目标是建成中国最大、技术最先进、服务最完善的国产TOKEN调优工厂，降低千行百业应用AI的门槛，推动国产算力生态实现规模化、高质量发展，助力中国AI产业迈向工业化、标准化新阶段。在行业追逐单一模型精度的背景下，是石科技选择了一条更具挑战但更具长期价值的道路——打造可进化、可复用、可普惠的Token生产力平台。尽管这条路投入更大、周期更长、协调更复杂，但一旦成功，将改变的不仅是某一家企业的推理成本，而是整个中国AI产业高效发展的国产算力生态。

更多>同类内容