6월 11일 AWS 점검으로 인한 뒤끝 서버 장애 발생 및 대응 안내

안녕하세요. 게임 서버 뒤끝입니다.
6월 11일(금) 03:31(KRT) ~ 03:48(KRT) 동안 AWS의 하드웨어 점검으로 인한 뒤끝 서버 장애가 발생했습니다.
이용에 불편을 드려 죄송합니다.
장애 원인과 대응, 추후 보완 사항을 안내해 드립니다.

  • 문제 발생 원인
    AWS 인프라팀의 하드웨어 점검 진행
    DB 점검이 진행된 하드웨어의 물리적인 중단
    (1) 5월 21일 AWS의 하드웨어 점검 일정 및 예상 진행 시간이 공지되었음
    (2) 고지된 하드웨어 점검 진행 예상시간은 “a few minutes”, “usually takes less than 60 seconds” 였음
    (3) 실제 하드웨어 점검 → 완전 정상화까지 소요된 시간은 17분
    (4) 고지된 시간보다 점검 시간이 길었던 부분, 이 영향으로 고객사의 피해가 발생한 부분에 대하여 AWS에 보상 요청

  • 문제 해결
    AWS 인프라팀의 DB 점검이 순차적으로 완료되면서 03:37(KRT) 정상화 시작, 03:48(KRT) 완전 정상화 완료

  • 보상
    이번 장애는 AWS의 하드웨어 점검으로 인해 발생, 서버 가동률 99.9596%로 뒤끝 이용약관 기준, 보상 대상 및 보상 범위에 해당하지 않습니다.
    하지만, AWS의 점검 내용을 사전에 공지해 드리지 못하였기에 그 책임을 통감하며 SLA 1단계 보상을 진행할 예정입니다.
    보상은 장애 발생 시간 기준 출시되어 서비스중인 프로젝트를 대상으로 SLA 기준에 따라 6월 이용 요금의 10%가 7월 초 뒤끝 크레딧으로 지급됩니다.

  • 향후 대응
    이번 사례는 2018년 8월, 뒤끝 서비스 출시 이후 처음 진행된 AWS 인프라팀의 물리 하드웨어 점검입니다.
    추후에도 동일한 상황이 발생할 수 있으며, 발생 시 AWS의 시스템 점검을 사전에 공지하여 고객사의 피해를 최소화할 수 있도록 하겠습니다.
    더불어 뒤끝 서버 인프라를 추가 이중화하여 하드웨어 중단 시간을 최소화하겠습니다.

감사합니다.