알림 수신 시 대응 절차
| 순서 | 단계 | 설명 |
|---|
| 1 | 알림 수신 | 이메일에서 executionArn 확인 |
| 2 | 실패 실행 확인 | AWS 콘솔 → Step Functions → 해당 실행 클릭 |
| 3 | 실패 단계 식별 | 아래 증상별 대응 참고 |
증상별 대응
ScanRole AssumeRole 오류
증상: Lambda 로그에 AccessDenied 또는 is not authorized to perform: sts:AssumeRole
| 원인 | 확인 방법 | 조치 |
|---|
| 대상 계정에 ScanRole 없음 | 대상 계정 IAM 콘솔 확인 | isms-p target auth <계정 ID>로 자격 증명을 다시 입력하고 스캔 재실행 |
| 신뢰 관계 오류 | ScanRole Trust Policy 확인 | BSG Partners에 문의 |
| ExternalId 불일치 | Trust Policy Condition 확인 | BSG Partners에 문의 |
스캔 타임아웃
증상: 컴플라이언스 스캔이 시간 초과 (제한: 900초)
컴플라이언스 스캔은 계정당 리소스 수가 많을수록 시간이 오래 걸립니다. 메모리 증가(기본 3008MB) 시 CPU도 비례 증가하여 속도가 향상됩니다. 변경이 필요한 경우 BSG Partners에 문의하세요.
Security Hub 미활성
증상: Security Hub Findings 수집에서 SecurityHub is not enabled
조치:
- 대상 계정 AWS 콘솔 → Security Hub → 활성화
- GuardDuty, Inspector 통합 서비스도 활성화 권고
- 활성화 직후 Findings가 없을 수 있음 (24시간 후부터 수집 시작)
Glue ETL 실패
| 원인 | 확인 방법 | 조치 |
|---|
| 스키마 변경 | Glue 작업 로그 (CloudWatch) | 원본 데이터 확인 후 BSG Partners에 문의 |
| 메모리 부족 | Glue 작업 메트릭 | BSG Partners에 문의하여 리소스 조정 |
| S3 접근 오류 | 로그의 Permission 오류 | Glue 실행 역할의 S3 권한 확인 |
대시보드 데이터 미반영
증상: 스캔은 성공했으나 대시보드에 최신 데이터 미표시
확인 순서:
- S3에 데이터 존재 확인 → 데이터가 없으면 Glue ETL 실패가 원인
- Athena에서 쿼리 실행 → 결과가 0건이면 데이터 처리 단계 문제, Glue ETL 재실행 필요
- QuickSight 연결 확인 → 연결 실패 시 권한 설정 확인
- 브라우저 새로고침 → 대시보드는 실시간 쿼리 방식이므로 새로고침만으로 최신 데이터 표시
전체 실행 타임아웃
증상: Step Functions 실행이 2시간 초과
어느 단계에서 시간을 소요했는지 Step Functions 실행 이력에서 확인하세요. 특정 계정의 스캔이 느리면 해당 계정의 리소스 수를 확인하고, 메모리 증가를 검토합니다.
긴급 연락
위 조치로 해결되지 않거나 시스템 장애가 지속되는 경우, BSG Partners 기술 지원에 연락하세요. 장애 상황을 전달할 때 다음 정보를 함께 공유하면 신속한 대응이 가능합니다:
- Step Functions 실행 ARN
- 실패한 단계와 오류 메시지
- 장애 발생 시각