뒤끝 DNS서버장애 사과문

[공지] 뒤끝 DNS서버장애 사과문

안녕하세요.
뒤끝 대표 권오현입니다.

2020년 11월 27일, 뒤끝 서비스 시작 이후 최악의 서버 장애가 발생하였습니다.
이에 대해 고객 여러분께 진심으로 사죄의 말씀을 전달 드립니다.
장애 발생 상황을 정리하여 보고드립니다.

  • 장애 상황 보고
  1. 11월 27일 : 오전 4시 02분 DNS 서버 장애 발생 시작
  2. 06시 40분 : 뒤끝 장애 대응팀 장애 인지, 대응 시작
  3. 07시 47분 : 1차 장애 공지사항 등록
  4. 08시 08분 : 1차 장애 원인 해결 (DNS 복구)
  5. 09시 10분 : 장애 원인을 DNS TTL 문제로 판단 (시간이 지나면 자연히 해결될 것으로 예상 / 잘못된 판단)
  6. 12시 21분 : AWS 네임 서버 설정 장애 원인 확인
    6-1. 12시 33분 : 2차 장애 공지사항 등록 및 점검 시간 공지 (15시 완료 예정)
    6-2. 12시 50분 : AWS 네임 서버 설정 변경
    6-3. 15시 02분 : 장애 상황 공유, 서버 점검 연장 (15시 -> 16시)
    6-4. 15시 58분 : 장애 상황 공유, 서버 점검 연장 (16시 -> 17시)
    6-5. 17시 00분 : 장애 상황 공유, 서버 점검 연장 (17시-> 17시 30분)
    6-6. 17시 30분 : 장애 상황 공유, 서버 점검 연장 (17시 30분 -> 18시)
    6-7. 18시 03분 : 장애 상황 공유, 서버 점검 연장 (18시 -> 20시)
    6-8. 20시 10분 : 장애 상황 공유, 서버 점검 연장 (20시 -> 20시 30분)
  7. 20시 25분 모든 서버 정상화
  • 장애 원인
    thebackend.io의 호스팅 영역에 장애 발생 (godaddy <-> aws route53간 네임 서버 전환)
    뒤끝 서버팀의 네임 서버 관리 프로세스 소홀로 장애 발생
    충분한 관리, 모니터링 시 방지 가능한 장애로 확인됨

  • 향후 대응
    장애 시간 동안 발생한 문제에 대해 뒤끝 개발팀 데이터 수동 대응 지원 (데이터 꼬임, 이중 가입 등의 문제)
    뒤끝 네임 서버 관리 프로세스 보완/강화
    뒤끝 이용정책(SLA)에 따른 기본 보상 진행
    장애 발생 개발사 유선 연락, 피해 상황 파악 및 보상 진행



  • FAQ
  1. 장애의 범위가 어느 정도 수준인가요?
    대부분의 뒤끝 서버에서 장애 발생
    오전 4시 02분 ~ 오전 8시 8분 : 뒤끝 모든 서버
    오후 7시 이후 : 일부 게임 서버 정상화, 정상적인 이용 불가능
    오후 8시 25분 이후 : 전체 서버 정상화

  2. 사용자 폭주로 인해 발생한 문제인가요?
    아닙니다. DNS(도메인 네임 서버)의 설정이 변경되어, 서버로 접속하는 길 자체가 차단되어 발생한 오류입니다.

  3. 향후 동일한 장애가 발생할 수 있나요?
    관리 소홀이 지속되는 경우 재현될 수 있습니다.
    프로세스를 보완/강화하여 동일한 장애가 발생하지 않도록 하겠습니다.

  4. 수동 장애 지원은 어떻게 진행되나요?
    장애 발생 내역, 상황 등을 메일(help@thebackend.io) 또는 뒤끝 커뮤니티 DM을 남겨주시면 복구 가능한 영역들을 최대한 지원해드리도록 하겠습니다.

  5. 피해 상황 파악과 보상 절차는 어떻게 되나요?
    장애 개발사에 유선으로 연락하여 피해 상황 파악 및 복구 지원, 보상 등을 진행하겠습니다.

많은 개발자 여러분과 게임, 그리고 유저분들에게 큰 피해를 드린 점 진심으로 사죄드립니다.
뒤끝 대표
권오현 올림