76  
2019-0801-事故报告单
作者: wyasw 于 2020年03月29日 发布在分类 / 事故报告 / 2019年 下,并于 2020年03月29日 编辑
事故报告

2019-0801- 事故报告单

名称

xx系统更新时间延长由半小时延长至一小时三十分

日期

2019/08/01

发现

2019 81

1)  08:30 开始按照文档更新项目。

2 08:41开始更新business后,按照文档,curl进行修复数据,由于线上有11W数据,一直跑到09:06,持续25分钟,继续更新其他程序

3 09:15更完其他程序,并启动nginx。开发发现问题,需要修改commission程序,停止nginx,开发给完更新包,更新后,发现启动不成功,再次修改程序,启动。直到09:50程序启动成功,启动nginx,恢复业务。

4 09:55发现堡垒机连接太卡。

分析

1 )业务中心首次启动失败

   原因:

     更新业务中心时,需要预加载的业务数据超出预估值,造成业务系统启动时负载过大,启动失败

2 )网络短时间阻塞导致堡垒机连接太卡和前端访问卡

   原因:

     由于APP更新包放置在应用服务器上,强制更新时,短时间内将所有带宽占满,造成短时间内多个系统访问失败,运维人员访问服务器时太卡,以至于无法操作

应急解决

1 )业务中心首次启动失败

应用的临时修复方案:

     放弃“初始化”状态订单的预加载,减少预加载数据

永久修复方案:

开发人员待定

2 )网络短时间阻塞导致堡垒机连接太卡和前端访问卡

应用的临时修复方案:

     机房增加带宽,加快网络疏通

永久修复方案:

    apk ipa文件添加到cdn缓存,让用户用cdn缓存下载。

后续




 推荐知识

 历史版本

修改日期 修改人 备注
2020-03-29 21:35:53[当前版本] wyasw 创建版本

文艺知识分享平台 - 4.3.0 - 文艺范儿