在当今数字化时代,金融机构的云迁移与分布式系统扩展面临着诸多挑战与机遇。摩根大通旗下的Chase.com在云迁移过程中积累了丰富的经验,其围绕三大核心目标展开的策略,为大规模系统管理提供了极具价值的参考。
在规划系统扩展时,人们往往只能预估两到三倍的负载增长。然而,互联网环境下,入站流量的规模、时间和使用模式难以控制。无论是合法业务增长带来的流量,还是恶意攻击者的行为,都可能引发巨大的负载激增。安全控制措施虽能阻止恶意流量,但市场波动引发的真实客户需求激增却需要系统具备应对能力。此时,多个组件可能同时故障,网络设备、负载均衡器、应用程序和数据库连接都可能中断。
Chase.com的云迁移聚焦于三大核心目标:以高成本效益和高效的方式实现弹性扩展、确保高韧性以及提供卓越性能。对于金融机构而言,高韧性尤为重要,而卓越性能则能防止用户因系统迟缓而转向其他服务。
在实现高效扩展方面,分析客户使用模式和行为是关键。组织需在保持弹性扩展能力的同时,发展预测能力。整体容量管理也不容忽视,单纯增加服务器并非成功之道,还需权衡成本因素。流量模式是高效扩展的基础,平均流量是日常处理的基准,可预测模式如工资入账等周期性事件会促使客户查询账户余额,全年还有季节性高峰。而突发事件如DDoS攻击会带来不同挑战,其流量可能远超正常负载。基于已知模式进行容量规划可预防运维问题,但弹性扩展存在局限性,应用程序启动和建立连接需要时间,大量请求在此期间涌入会导致资源争用。因此,预留计算容量十分必要,它能保证资源在需要时可用,尤其在多租户共享资源池出现争用时,还能带来成本节约。同时,成本管理需持续关注,定期应用FinOps流程。
扩展不应局限于增加服务器。当发生扩展时,要判断应用程序是否因真实客户需求而扩展,还是因上游服务排队导致响应变慢。线程等待响应会使CPU和内存压力上升,触发弹性扩展。这要求在设计中考虑容错,并将断路器整合到扩展策略中。当上游服务变慢或失败时,断路器可防止应用无限期等待响应,强制设置超时限制,避免线程耗尽、减少不必要资源消耗,防止错误触发扩展。
韧性要求为系统故障做好准备,早期检测和随时执行故障转移程序至关重要。但为所有组件实现100%的可用性既不现实也无必要。基础设施可根据关键性分为四个层级。关键类组件如DNS,必须尽可能接近100%可用;可管理层组件在故障时可通过故障转移维持运行,目标为“四个九”的可用性;可容忍层组件具备内置韧性,如缓存长期数据的令牌服务;可接受层组件允许有限数据丢失,如某些日志系统,韧性目标由影响严重程度决定。
性能会显著影响用户体验和基础设施成本。通过部署接入点(PoP)可提升用户体验,尤其对网站延迟敏感的移动设备。速度能建立用户信任,搜索引擎已将速度纳入排名算法。在网络连接受限场景下,移动端性能尤为关键。从基础设施角度看,客户完成任务时间越少,运营成本越低。Chase.com通过实施全面性能策略,系统延迟降低了71%,这些策略可适配其他业务场景。
其架构方法围绕五个重点领域展开。多区域部署通过隔离和分段实现功能化解耦,有助于管理区域、可用区和网络故障,限制故障爆炸半径。实现多区域架构需解决DNS管理问题,协调不同区域独立负载均衡器,确定区域间和区域内流量调度策略。可用区故障时,若应用未将依赖系统状态纳入健康检查,负载均衡器会继续路由流量导致应用失败,解决方案包括将依赖系统健康状态反馈给负载均衡器或采用基于代理的重路由机制。区域性故障时,依赖统一的区域健康脉搏检查,根据应用分段情况决定是否故障转移,但故障转移可能引发“惊群效应”。跨区域的数据复制与确保数据一致性是主要关注点,客户分片是一种可行方案。状态管理需为活跃会话维护会话亲和性并支持故障转移。
高性能对用户体验至关重要,边缘计算是实现性能目标的主要手段。可将静态内容卸载至靠近客户的入网点,源服务器处理动态操作和关键服务。流量整形可对流量分类,关键服务资源必须始终保持运行。地理分布影响性能,在PoP缓存内容可提升性能并带来安全收益。“最后一公里连接”问题值得关注,边缘计算改变了通信模式,移动应用也有优化空间。
自动化是关键战略元素,在流水线各阶段实施全面自动化可带来巨大收益,涵盖部署、基础设施供应、环境配置、健康检查和流量管理。创建“带有倾向性的”架构模板可帮助团队构建自动继承架构标准的应用,应用通过基于清单定义进行自动化部署。基础设施“重铺”是高效实践,定期自动重建环境可消除配置漂移,增强安全性,更新补丁。自动化故障转移需考虑活跃会话,防止故障转移循环,根据场景和延迟容忍度决定处理方式。
可观测性要求对观测到的事件进行自动化响应。云环境产生大量事件,自动化通过无服务器函数与可观测性集成,根据预设条件切换执行区域。数据库问题、维护活动等可触发相应函数。健康检查需在多个层级进行,应用内健康检查向上传播至各层级,通过简单布尔指标实现自动化健康评估,支持快速决策。在不同场景中,根据告警信息决定流量重定向或服务降级等决策。
安全需采用零信任模型的分层实现,每一层独立运作,假定其他层可能失效。客户端设备、边界安全、内部网络、容器安全、应用安全和数据安全各层都要采取相应措施,各层之间互相强化。
文化转型是成功迁移的基础,云运维与企业自建系统差异大,需持续适应。 “谁构建、谁拥有、谁部署”的所有权模型将责任赋予应用团队,自动化可确保一致性。公司开发的TrueCD CI/CD方法论类似航空业飞行前安全检查。从企业自建环境向云迁移会影响应用架构,抽象层可减少影响,Dapr是支持多云架构的开源框架。大型应用迁移需逐步进行,先在内部用户群体中验证系统,拆分系统为离散应用集,逐步迁移客户群体。
这些策略的实施带来了显著成果,成本显著降低,性能指标大幅提升,平台在对比分析中名列前茅。在实施策略时,需权衡成本与性能,不损害其他需求。多区域架构中要评估缓存复制策略,降低运维复杂性,减少人工干预,自动化是关键。控制故障爆炸半径至关重要,建立面向行动的可观测性并与自动化操作紧密关联。所有决策应以客户为中心,确保关键组件在流量激增时保持运行,核心系统维持响应能力,客户获得即时响应。















