79  
2019-08-19事故报告单
作者: wyasw 于 2020年03月29日 发布在分类 / 事故报告 / 2019年 下,并于 2020年03月29日 编辑
事故报告

2019-08-19事故报告单

名称

2019-08-19事件报告

日期

2019/08/19

事件经过

2019 819

1 18:03开始更新预发布,更新完成后,运维验证核心流程(包括后台、充值、买币、卖币、saas平台)。

2 )验证预发布主流程没有问题,提交生产环境程序更新申请表。

3 19:54开始更新正式,20:02更新完成(日志无报错)。

4 20:06运营部同事反馈更新后玩家充值订单无法匹配,所有订单都卡在已就绪状态。

5 20:15产品登陆后台,配置商家分组时报错,无法保存。

6 20:20技术修改数据库字段,刚登陆到数据库,堡垒机断开,尝试10分钟左右后登陆成功。

7 20:35服务恢复正常

分析

1 )玩家充值订单无法匹配,所有订单都卡在已就绪状态。

原因:后台推单策略未匹配。

2 )配置商家分组时报错,无法保存。

原因:数据库数据字段类型不正确。

3 )登陆数据库,堡垒机断开。

原因:网络原因。

应急解决

1 )数据库字段类型不正确。

临时修复方案:由技术修改。

永久修复方案:对比正式和预发布所有表字段类型是否相同。

2 )网络原因导致无法连接堡垒机和数据库。

临时修复方案:切换网络。

永久修复方案:堡垒机准备备机并加数据库白名单。

后续

1.  非强关联项目要逐个确认之后再更新

2.  线上正式更新前telegram群要告知研发和测试负责人

3.  非紧急更新时间的约束。

a. 停服务的更新内容 需在凌晨5:00更新

b. 热更新的更新内容 需在早上8:00更新

c. 每次更新内容需跟产品组或技术核心人员最终确认,至少提前一天;

4.  紧急更新的前提为线上业务运行故障






 推荐知识

 历史版本

修改日期 修改人 备注
2020-03-29 21:34:27[当前版本] wyasw 格式调整
2020-03-29 21:33:37 wyasw 创建版本

文艺知识分享平台 - 4.3.0 - 文艺范儿