httpst1.daumcdn.netmediaimg-sectionsportsmetateamkbo390.png

아마존 웹 서비스(AWS)가 20일 새벽(한국시간) 대규모 장애(AWS outage)를 겪으면서 글로벌 인터넷 서비스가 동시다발적으로 멈추었습니다.


AWS 장애 대표 이미지
이미지: DatacenterDynamics 제공

이번 AWS 장애는 미국 버지니아 북부(us-east-1) 리전을 기점으로 발생했으며, 퍼플렉시티·슬랙·캔바·로블록스 등 다수의 글로벌 플랫폼이 접속 불가 상태를 겪었습니다.

클라우드 모니터링 서비스 Downdetector1)에는 최대 분당 4만 건 이상의 장애 신고가 집중되면서 사건의 심각성이 드러났습니다.

“네트워크 연결 문제로 인해 일부 서비스에 간헐적 지연(latency) 및 오류가 발생하고 있으며, 엔지니어링 팀이 원인을 파악 중이다.” – AWS 서비스 헬스 대시보드 공지(20일 03:15 KST)

Downdetector AWS 로고
이미지: Downdetector 제공

장애는 EC2·EKS·RDS·S3 등 핵심 인프라에 영향을 미쳤고, 이에 의존하던 콘텐츠 스트리밍·전자상거래·게임·핀테크 서비스까지 줄줄이 다운되었습니다.

특히 국내 e커머스와 스타트업 다수가 AWS Korea 리전과 미국 리전을 동시 사용하고 있어 결제 API 지연 및 이미지 CDN 오류가 보고됐습니다.

뉴욕타임스 AWS 장애 보도
이미지: The New York Times 제공

전문가들은 단일 리전 의존 구조가 기업 IT 복원력을 약화시킨다고 지적합니다. 멀티 AZ를 넘어 멀티 리전·멀티 클라우드 전략을 도입해 Fail Over 경로를 확보해야 한다고 조언합니다.

실제 Netflix·Airbnb 등은 장애에 대비해 트래픽을 미국·유럽 리전으로 실시간 분산하는 활성-활성(active-active) 구성을 운영해 피해를 최소화했습니다.

국내 기업이 즉시 취할 수 있는 10가지 대응 체크포인트는 다음과 같습니다:
1. AWS Health Dashboard 실시간 구독
2. Route 53 상태 기반 헬스 체크 설정
3. RDS Cross-Region Read Replica 구축
4. S3 Replication 활성화
5. Aurora Global Database 활용
6. Auto Scaling Group 재시도 횟수 재조정
7. VPC Peering 및 Transit Gateway 대안 라우팅
8. Chaos Engineering 정기 시뮬레이션
9. SLA·SLO 재점검 및 고객 커뮤니케이션 매뉴얼화
10. 멀티 클라우드(예: Azure, GCP) 이중화 PoC 착수

이번 사건은 디지털 의존도가 심화된 현 시점에서 단 180분의 장애가 전 세계 경제·문화·일상에 얼마나 큰 파장을 미칠 수 있는지 보여주었습니다.

AWS는 4시간여 만에 “대부분 서비스가 정상화됐다”고 밝혔지만, 전문가들은 근본 원인 분석(RCA)과 재발 방지 대책이 투명하게 공유되어야 한다고 강조합니다.

기업·개발자·이용자 모두가 서비스 연속성의 중요성을 다시금 확인한 이번 ‘AWS outage 2025’. 안전한 클라우드 운영은 결국 사전 대비다층 방어에 달려 있습니다. 🛡️

라이브이슈KR 취재팀은 향후 RCA 보고서 공개 시 추가 분석으로 돌아올 것을 약속드립니다.