2024/07/22 18:30分,我们第一时间收到了“云检测”的提示,有服务器离线了。
几乎同一时间,又陆续的收到了多条消息,10几台服务器,都离线了。
那种就是:“当头一棒”的感觉。”
已于23日00:30分全部恢复,影响范围:
22日 访问数据,转化数据,全部丢失。
22日 18:30 之后的转化数据,无法回传。
22日 18:30 之前的转化数据,可以在-【全部转化】里面进行回传。
事情经过:
经过10分钟排查,定位到是服务器机房无法连接;登陆服务器控制台,也看不到服务器。
于是我们立即提了工单让服务器机房那边排查。
事件结论:
服务器机房网络问题,导致了网络中断,无法登陆,无法访问。
服务器宿主机器故障,导致服务中断,导致服务器重启,导致页面数据丢失。
直至最后恢复。
系统只备份了前一天21号的数据。
此次事件的一些反思:
服务器机房故障,确实是极小概率事件,面对此类事件鼎尖网络也缺乏相关应急措施;毕竟服务器在千里之外,我们无法通过网络连接他,唯一能做的,就是给服务器提供商反馈故障,希望他们尽快恢复。
躲过了阿XxX云的那次故障,团队还很开心,幸好去年年底把服务器迁移到“电信”来了。
结果....还是遇到了这种机房的网络级别的故障!
我们在屏幕前,也只能焦急的等待,使不上半点劲,只希望立刻,马上,就能恢复好。
计划和任务:
1、建立完善的通知机制,能让大家第一时间知道故障,并且精确的告知影响范围,让你们对广告做调整。
2、希望能建立一套容灾服务器作为备用方案,有问题可以在5分钟内切换成功。
对此事件,我们也深表歉意,以后加强系统容灾,尽可能的避免发生。