
아마존웹서비스(AWS) 장애가 20일 새벽(한국시간) 글로벌 서비스를 줄줄이 멈춰 세우며 ‘aws down’ 경보가 울렸습니다. 클라우드 의존도가 절정에 이른 현시점에서 이번 사태가 남긴 교훈은 작지 않습니다.
🕑 장애 발생 시각은 02시 17분쯤으로 확인됐습니다. us-east-1 리전을 기점으로 API 오류가 급격히 늘어났고, 단 10분 만에 Downdetector 신고 건수가 1만 건을 돌파했습니다.
“Increased error rates impacting multiple services in US-EAST-1. We are actively working on mitigation.” – AWS Health Dashboardⓒ
이미지 출처: Downdetector
❗ 영향 범위는 예상보다 넓었습니다. Slack·Zoom·Roblox 같은 협업·게임 플랫폼이 접속 불가 메시지를 띄웠고, 국내에선 일부 배틀그라운드와 넷플릭스 스트리밍이 지연됐습니다.
특히 DynamoDB·RDS·Lambda를 사용하던 스타트업들이 대거 멈춰 섰습니다. 서버리스 구조 특성상 재시동 자체가 지연돼 피해가 컸습니다.
AWS 측 1차 공지는 발생 46분 후 올라왔습니다. 네트워크 경로 안정화·DNS 캐시 불안정 가능성을 언급했지만, 구체적 원인은 밝히지 않았습니다.
이미지 출처: Unsplash
클라우드 보안 기업 센티넬원 분석팀은 “내부 라우팅 테이블 손상이 의심된다”며 “DynamoDB 지연·RDS Proxy 오류·ELB 5xx 증폭”을 징후로 제시했습니다.
🟠 복구 타임라인은 다음과 같습니다:
03:10 네트워크 경로 일부 복구
03:37 API 오류율 30%→12% 감소
04:14 서비스 헬스 대시보드 ‘GREEN’ 전환
총 장애 시간은 약 1시간 57분, 업타임 99.995%를 자랑하던 AWS에겐 뼈아픈 기록입니다.
이번 aws 장애로 직접 피해를 본 국내 기업들은 SLA 환급을 요청할 수 있습니다. 그러나 다수 전문가는 “멀티 리전·멀티 클라우드 전략 없이는 근본적 해결이 어렵다”고 지적합니다.
클라우드 아키텍트 김도현 박사는 “① Active-Active 이중화, ② 캐시 레이어 독립, ③ Route 53 헬스체크 자동 우회
같은 3단계를 최소 요건으로 제시했습니다.”
이미지 출처: Unsplash
📊 경제적 손실도 만만치 않습니다. 한 회계법인 추정치(비공개)에 따르면 광고·커머스 매출 손실이 약 4,200만 달러에 달했습니다.
이는 2023년 12월 S3 장애 당시 손실액(3,800만 달러)을 웃도는 수치입니다.
정부 과학기술정보통신부는 클라우드서비스 안정성 평가 고도화 TF를 가동해 재발 방지책을 모색하겠다고 밝혔습니다. 업계에선 사전 리스크 공시 의무화까지 거론됩니다.
전문가들은 “Chaos Engineering을 정기적분기별으로 실시해 장애 내성을 높여야 한다”고 입을 모았습니다.
🔍 이번 aws down 사태는 우리에게 세 가지 숙제를 남겼습니다.
첫째, 단일 리전 의존의 위험성.
둘째, 실시간 헬스 모니터링 체계의 중요성.
셋째, 사후 리뷰 공개를 통한 투명성 확보입니다.
☁️ 클라우드가 ‘전기’처럼 당연해진 시대일수록, 가장 기본적인 가용성 설계가 기업 가치를 결정합니다.
라이브이슈KR은 AWS 공식 Post-Incident Report가 나오는 대로 추가 분석을 이어갈 예정입니다. 독자 여러분의 인프라가 오늘도 안전하기를 바랍니다. 🙏