千万级支付系统稳定性测试实战美团范勋伟自我介绍范勋伟?2005~2009上海交通大学信息安全?2009~2015中标软件操作系统&虚拟化?2015~至今美团金融服务平台-智能支付业务介绍–承载全部交易流量应对线上支付场景,为美团点评各业务线提供支付能力应对线下收单场景,为商家提供高效、智能化收银方案业务介绍–新业务指数级增长千万级日订单亿级用户百万级商户1204%YOY系统介绍–业务复杂度不断提升核心服务节点80+面临的挑战–业务/系统/团队…业务承载量持续增加新业务指数级增长系统复杂度不断提升午晚高峰特征明显团队极速扩张......面临的挑战–故障频繁出现…72%29%33%1.3%20%5.8%0901-银行卡支付不可用1027-条码支付不可用1117-条码支付不可用1小时5小时1小时高峰期3分钟不可用,即导致S2级严重故障暴露的问题影响服务稳定性的常见问题72%u第三方服务故障第三方支付通道(如:银行等)不稳定u基础设施故障基础组件(如:消息队列)不稳定u变更带来的故障60%的故障与代码、配置、数据变更相关经典Case场景解决方案–稳定性建设服务可用性提升99%99.9%99.99%柔性可用(MTBF)快速恢复(MTTR)8故障演练–由来一个真实的例子:2016年12月09日,某第三方支付通道超时严重,交易大量冲正、无法支付。开发同学执行之前已经测试通过的预案(服务器关闭该通道,预期客户端将开关置灰,不能再发起请求);但执行中发现预案失效(通道在客户端无法关闭)。经过分析,通道状态控制接口与业务系统未做隔离,线程堆积后客户端轮询开关状态的请求根本打不进去;导致客户端通道一直处于开启状态。非故障场景下预案功能正常,故障场景下失效功能验证故障演练888CBAQ8/28线上压测–整体方案全链路线上压测方案线上压测–开展策略线上