AWS US-EAST-1 리전 서비스 장애 복구 완료 안내
업데이트 시각
2025년 10월 21일 08:00 (KST)
장애 해결 완료
안녕하세요 베스핀글로벌 클라우드 기술지원팀입니다.
2025년 10월 20일 15:49(KST)부터 발생한 AWS US-EAST-1 리전의 서비스 장애가 2025년 10월 21일 07:01(KST)에 완전히 해결되었음을 안내드립니다.
발생 기간
- 시작: 2025년 10월 20일 15:49 (KST)
- 종료: 2025년 10월 21일 07:01 (KST)
- 총 소요 시간: 약 15시간 12분
현재 상태
모든 AWS 서비스가 정상 운영으로 복구 완료되었습니다. 일부 서비스(AWS Config, Redshift, Connect)는 메시지 백로그를 처리 중이며, 향후 몇 시간 내에 완료될 예정입니다.
근본 원인 (AWS 공식 발표)
AWS는 이번 장애의 근본 원인을 다음과 같이 발표했습니다.
1단계: DNS 해석 문제
- 발생 시각: 10월 20일 16:26 (KST)
- 원인: US-EAST-1 리전의 DynamoDB 서비스 엔드포인트에 대한 DNS 해석 실패
- 해결: 10월 20일 18:24 (KST)
2단계: EC2 및 네트워크 장애
DynamoDB DNS 문제 해결 이후, DynamoDB에 의존하는 EC2 내부 서브시스템에서 후속 장애가 발생했습니다.
- 원인: EC2 인스턴스 시작을 담당하는 내부 서브시스템의 DynamoDB 의존성 문제
- 확대: Network Load Balancer 헬스체크 장애로 확대되어 Lambda, DynamoDB, CloudWatch 등 다수 서비스에 네트워크 연결 문제 발생
- 해결: 10월 21일 01:38 (KST)에 Network Load Balancer 헬스체크 복구
복구 조치
AWS는 복구 과정에서 서비스 안정화를 위해 다음 작업을 일시적으로 제한했습니다:
- EC2 인스턴스 시작
- Lambda Event Source Mappings를 통한 SQS 큐 처리
- 비동기 Lambda 호출
이후 단계적으로 제한을 해제하고 네트워크 연결 문제를 병렬로 해결하여 정상화했습니다.
영향받은 서비스
총 142개의 AWS 서비스가 영향을 받았습니다
주요 카테고리별 영향 서비스:
컴퓨팅
- EC2, Lambda, ECS, EKS, Elastic Beanstalk, Batch
데이터베이스
- DynamoDB, RDS, Aurora, ElastiCache, Redshift, Neptune, DocumentDB
네트워킹
- VPC, Elastic Load Balancing, CloudFront, Direct Connect, NAT Gateway, Global Accelerator, VPN
스토리지
- S3, EBS, EFS, FSx, Storage Gateway
보안 및 자격증명
- IAM, IAM Identity Center, Cognito, Secrets Manager, GuardDuty, Security Token Service
모니터링 및 관리
- CloudWatch, CloudTrail, Config, Systems Manager, CloudFormation
메시징 및 통합
- SQS, SNS, EventBridge, Step Functions, API Gateway
기타 주요 서비스
- Glue, Athena, EMR, SageMaker, Connect, Kinesis, AppSync, Amplify
영향받은 리전
US-EAST-1 (버지니아) 리전 및 US-EAST-1에 의존하는 글로벌 서비스
전체 영향받은 서비스 목록은 첨부된 AWS Service Health Dashboard 정보를 참조하시기 바랍니다.
복구 타임라인
시각 (KST) | 상태 |
---|---|
10/20 15:49 | 장애 발생 시작 |
10/20 16:11 | AWS 조사 시작 |
10/20 16:26 | DNS 해석 문제 근본 원인 파악 |
10/20 18:24 | DNS 문제 완전 해결 |
10/20 18:27 | 대부분의 요청 정상 처리 시작 |
10/21 01:38 | Network Load Balancer 헬스체크 복구 |
10/21 06:48 | EC2 인스턴스 시작 제한 사전 수준 복구 |
10/21 07:01 | 모든 AWS 서비스 정상 운영 복구 |
고객 권장사항
DNS 캐시 플러시
US-EAST-1의 DynamoDB 서비스 엔드포인트 해석 문제가 지속되는 경우, DNS 캐시를 플러시하시기 바랍니다.
Windows
ipconfig /flushdns
Linux (systemd)
sudo systemd-resolve --flush-caches
macOS
sudo dscacheutil -flushcache
백로그 처리
일부 서비스는 장애 기간 동안 축적된 백로그를 처리 중입니다. 다음 서비스를 사용 중이시라면 처리 완료까지 추가 시간이 소요될 수 있습니다:
- AWS Config
- Amazon Redshift
- Amazon Connect (분석 및 보고 데이터)
AWS 후속 조치
AWS는 이번 장애에 대한 상세한 사후 분석 보고서(Post-Event Summary)를 공유할 예정입니다. 보고서가 공개되는 즉시 추가 안내드리겠습니다.
참고 링크
- AWS Service Health Dashboard: https://health.aws.amazon.com/health/status
- AWS 공식 장애 상세 정보: https://health.aws.amazon.com/health/status (US-EAST-1 리전 선택)
맺음말
약 15시간에 걸친 장애로 인해 서비스 이용에 불편을 겪으신 고객 여러분께 깊이 사과드립니다.
AWS는 DNS 해석 문제로 시작된 장애가 EC2 및 네트워크 인프라로 확대되는 복합적인 상황을 단계적으로 해결하여 모든 서비스를 정상화했습니다. AWS는 향후 동일한 문제가 재발하지 않도록 사후 분석을 통해 개선 조치를 마련할 것으로 예상됩니다.
추가 문의사항이 있으시거나 서비스 이용에 지속적인 문제가 있으신 경우 언제든지 연락 주시기 바랍니다.
감사합니다.
베스핀글로벌 기술지원팀
본 공지는 AWS 공식 Service Health Dashboard의 장애 정보를 기반으로 작성되었습니다.
# 이전 이력
장애 발생 현황
발생 시각
- 시작: 2025년 10월 20일 16:11 (KST) (12:51 AM PDT)
- 상태: 복구 진행 중
최신 업데이트 (시간 역순)
✅ [18:27 KST] 상당한 복구 징후 확인
중요한 회복 신호가 관찰되고 있습니다. 대부분의 요청이 현재 정상적으로 처리되고 있습니다. 현재 대기 중인 요청 백로그를 처리하고 있으며, 추가 정보는 계속 제공될 예정입니다.
[18:22 KST] 초기 완화 조치 적용 완료
초기 완화 조치를 적용했으며, 일부 영향받은 AWS 서비스에서 초기 복구 징후가 관찰되고 있습니다. 완전한 해결을 위해 작업하는 동안 요청이 계속 실패할 수 있습니다.
고객 권장사항: 실패한 요청을 재시도해 주시기 바랍니다.
요청이 성공하기 시작하더라도 추가적인 지연이 발생할 수 있으며, 일부 서비스에는 처리해야 할 작업 백로그가 있어 완전히 처리되는 데 추가 시간이 소요될 수 있습니다.
[18:01 KST] 근본 원인 파악
US-EAST-1 리전의 DynamoDB API 오류율에 대한 잠재적 근본 원인을 파악했습니다.
근본 원인: US-EAST-1의 DynamoDB API 엔드포인트에 대한 DNS 해석(resolution) 문제로 확인되었습니다.
복구를 가속화하기 위해 여러 병렬 경로로 작업 중입니다.
영향 범위:
- US-EAST-1 리전의 기타 AWS 서비스들도 영향을 받고 있습니다
- US-EAST-1 엔드포인트에 의존하는 글로벌 서비스 또는 기능(IAM 업데이트, DynamoDB Global Tables 등)도 문제를 겪을 수 있습니다
- 고객이 Support Cases를 생성하거나 업데이트하지 못할 수 있습니다
고객 권장사항: 실패한 요청을 계속 재시도해 주시기 바랍니다.
⚠️ [17:26 KST] 심각한 오류율 확인
US-EAST-1 리전의 DynamoDB 엔드포인트에 대한 요청에서 상당한 오류율을 확인했습니다.
영향:
- US-EAST-1 리전의 기타 AWS 서비스들도 영향을 받고 있습니다
- 고객이 Support Cases를 생성하거나 업데이트하지 못할 수 있습니다
엔지니어들이 즉시 투입되어 문제 완화 및 근본 원인 파악을 위해 적극적으로 작업 중입니다.
[16:51 KST] 초기 장애 확인
US-EAST-1 리전의 여러 AWS 서비스에서 오류율 증가 및 지연 현상을 확인했습니다.
영향:
- AWS Support Center 또는 Support API를 통한 케이스 생성에도 영향을 미칠 수 있습니다
업데이트 시각
2025년 10월 20일 16:50 (KST)
안녕하세요 베스핀글로벌 클라우드 기술지원팀입니다.
AWS 버지니아 리전의 서비스 지연 현상으로 인한 현황 공유를 위해 아래와 같이 안내 드립니다.
장애 발생 현황
발생 시각
- 시작: 2025년 10월 20일 16:11 (KST)
- 상태: 현재 진행 중
주요 내용
버지니아 리전(us-east-1)을 포함한 AWS 멀티 리전에서 다수의 서비스 지연 현상이 발생하고 있습니다. 현재 AWS를 통해 원인을 파악 중이며, AWS Management Console도 영향을 받고 있는 상황입니다.
*타 리전의 경우 Console 영향으로파악 되며, 실제 서비스에 영향이 있진 않은 것으로 보입니다.
영향 범위
영향 받는 리전 (33개)
AKL, ARN, BAH, BKK, BOM, CDG, CGK, CMH, CPT, DUB, DXB, FRA, GRU, HKG, HYD, IAD (버지니아), ICN, KIX, KUL, LHR, MEL, MXP, NRT, PDX, QRO, SFO, SIN, SYD, TLV, TPE, YUL, YYC, ZAZ, ZRH
영향 받는 서비스
- 컴퓨팅 & 네트워킹: Client VPN, Direct Connect, Global Accelerator, Internet Connectivity, Traffic Mirroring
- 데이터베이스 & 스토리지: DynamoDB, EBS, Redshift
- 모니터링 & 관리: CloudWatch, IAM, IAM Identity Center, Inspector, Notifications, Trusted Advisor, Amazon Q
- 애플리케이션 통합: API Gateway, EventBridge Scheduler, Step Functions
- 보안: AWS Network Firewall, AWS Support
- IoT: AWS IoT FleetWise, IoT Device Management, IoT SiteWise
- 기타: AWS Resource Groups, AWS SSM Incident Manager, Amazon Lookout for Vision, Connect, Data Exchange, GameLift, Kinesis Analytics, Lightsail, Machine Learning, Managed Blockchain, Migration Hub Refactor Spaces, Network Insights Reachability Analyzer, Proton, Route 53 Private DNS, Support-API
진행 사항
현재 AWS에서 해당 장애에 대한 조사를 진행 중이며, 추가적인 업데이트 사항은 확인되는 즉시 공지하겠습니다.
AWS Service Health Dashboard: https://health.aws.amazon.com/health/status
다음 업데이트 예정
상황 변화 시 즉시 업데이트 예정
본 공지는 AWS 공식 장애 정보를 바탕으로 작성되었습니다. 최신 정보는 AWS Service Health Dashboard를 참고하시기 바랍니다.
아티클이 유용했나요?
훌륭합니다!
피드백을 제공해 주셔서 감사합니다.
도움이 되지 못해 죄송합니다!
피드백을 제공해 주셔서 감사합니다.
피드백 전송
소중한 의견을 수렴하여 아티클을 개선하도록 노력하겠습니다.