Polk
Polk

在沪务工的Polk、互拍👏👏👏

「工作」重大事故

前天也就是周一发生了重大事故,按照绩效等级来划分的话,那事故一定属于S级。下午6点开始几十台服务器全部告警,直接死机无法重启,一直持续到。。。反正我下班的时候晚上8点30还没好,有些同事那晚上甚至都没回家,总监的脸色一直是阴沉的。

我并非核心成员所以并不了解事情经过和处理过程。我是第二天才听总监跟运维同学聊的时候大概知道了事故缘由。大致是由于运维配错了权限相关的配置,直接导致所有服务连不上mq,因为是个很平常的操作也没在意,当告警出来的时候根本没往这方面寻找原因。后来一直找不到问题,经过阿里云人员提醒才恍然大悟,将配置回退版本就恢复了。

但积压的消息,丢失的消息这些基本上第二天一整天都在处理后续带来的问题。总监则跟上级领导解释这个事故产生的原因,经过,造成的损失。估计周五肯定要开会具体说了,复盘。

年底了出现这种大事故大家都情绪低落,这种事故肯定影响部门整体的绩效,涉事人员年终奖基本约等于没有了,辛苦一年由于这种事故,哎,私企就是这样,赏罚相对分明。

我也提心吊胆的,希望顺顺利利过完年!


CC BY-NC-ND 2.0 版权声明

喜欢我的文章吗?
别忘了给点支持与赞赏,让我知道创作的路上有你陪伴。

加载中…
加载中…

发布评论