26 AWS Macie
개요
Macie는 데이터 보호 서비스입니다.
- 머신러닝(ML)과 패턴 매칭을 활용해
AWS S3에 저장된 데이터 중 개인정보(PII)나 기밀 데이터를 자동으로 식별·분류하고, 접근 위험이나 노출 가능성을 분석하는 데이터 보안/규제 준수 서비스 - 개인식별정보 = Personally Identifiable Information =
PII - 개인을 직접적 또는 간접적으로 식별할 수 있는 모든 데이터를 의미.이름, 주민
등록번호, 주소, 전화번호, 이메일 주소 등은 **직접 식별 가능한
PII**에 해당
관련 규제 및 용어
개인정보보호와 밀접하게 관련된다고 합니다. (GDPR / PCI-DSS)
DLP가 필요한 관련 규제가 이번 강의에서 많이 나와 간략히 정리합니다.
PII: 개인 식별 정보(Personally Identifiable Information)GDPR: 유럽 개인정보보호법, 유럽 연합(EU) 시민의 개인정보 보호를 강화하기 위한 법률PCI-DSS: **결제 카드 산업 데이터 보안 표준(Payment Card Industry Data Security Standard)**의 약자로, 신용카드 정보를 안전하게 처리, 저장, 전송하기 위한 보안 표준PCI: Payment Card Industry
HIPAA: 민감한 의료 정보를 보호하기 위한 미국의 연방법DLP: *DLP는 **데이터 손실 방지(Data Loss Prevention)*의 약자로, 조직의 민감한 정보가 권한 없이 외부로 유출되는 것을 막는 보안 솔루션입니다. DLP는 데이터의 생성, 사용, 전송, 저장 등 모든 단계에서 데이터를 감시하고 유출 시도를 차단하는 역할을 합니다.- 관련 글 - Cloudflare DLP
기능별 설명
| 기능 | 설명 |
|---|---|
| 데이터 분류(Classification) | S3 내 데이터를 분석해 이름, 이메일, 주민등록번호, 신용카드 번호, 키 등 민감 정보 탐지 |
| 데이터 인벤토리(Inventory) | AWS 계정 내 모든 S3 버킷의 보안 상태, 암호화 여부, 공개 설정 등을 자동 수집 |
| 자동 탐지(Automated Discovery) | 주기적으로 S3 객체를 샘플링해 민감 데이터가 존재하는지 자동 검 사 |
| 수동 스캔(Job-Based Discovery) | 특정 버킷/몰더/객체를 지정해 직접 스캔 (보안 점검 or 규제 감사용) |
| 보안 알림(Security Findings) | 위험한 버킷(퍼블릭 접근, 암호화 미적용 등)을 발견하면 AWS |
| Security Hub나 SNS 알림으로 전달 | |
| 규제 준수 지원(Compliance) | GDPR, HIPAA, PCI-DSS 등 개인정보 보호 법규에 필요한 데이터 관리 프로세스 지원 |
동작 구조
- S3 버킷 연결
- 가 계정 내 모든 S3 버킷을 자동 탐색
- 버킷의 공개 여부, 암호화 상태, 정책 설정 수집
- 데이터 샘플링 / 스캔
- ML 기반으로 일부 객체를 샘플링
- 민감 데이터 존재 여부 분석
- 결과 분석 및 리포트 생성
- 어떤 버킷에 어떤 유형의 데이터가 포함되어 있는지 시각화
- Ex)
[bucket-aasx]에 신용카드 정보 120건, 이메일 주소, 250건
- 보안 대시보드 제공
- 위험 버킷 수, 스캔된 데이터 양, 최근 발견된 민감 데이터 통계 표시
Macie 탐지 가능 데이터 예시
macie가 탐지하는 데이터는 모두 DLP가 필요한 민감 데이터로 파악됩니다.
- 이름, 주민등록번호, 이메일, 주소, 전화번호
- 신용카드 번호(
PCI-DSS), 은행 계좌번호 - API 키, SSH 키, 비밀번호
- 자격 증명과 연관된 정보들입니다.
credentials,private-key,testing 계정,github 계정
- 자격 증명과 연관된 정보들입니다.
- 보험번호, 의료기록 등
- 사용자가 직접 정의한 패턴(예: 정규식, 고객사 내부 ID 규칙 등)
사용 사례
| 분야 | 활용 예 |
|---|---|
| 보안 관리 | 조직 내 데이터 유출 방지(DLP) 강화 |
규제 준수(GDPR, HIPAA 등) | 개인정보 저장 위치 파악 및 보호 대책 수립 |
| 데이터 거버넌스 | 어떤 데이터가 어디에 있고, 누가 접근 가능한지 식별 |
| 위험 모니터링 | 외부에 노출된 퍼블릭 S3 버킷 자동 탐지 |
HIPAA를 건강 관련 개인 정보로만 알고 있어서 조금 더 찾아봤습니다. (구글 ai 개요를 참조했습니다.)
HIPAA: 미국 의회에서 제정된 건강보험 이동성 및 책임에 관한 법률, 환자의 민감한 의료 정보를 보호하기 위한 미국의 연방법입니다.
- 개인 정보 보호 규칙: 환자의 개인 건강 정보(
PHI)를 열람하거나 공개할 수 있는 경우와, 해당 정보를 보호하기 위해 마련해야 할 보호 조치를 규정합니다. - 보안 규칙: 전자적으로 저장되거나 전송되는 개인 건강 정보(
PHI)에 대해 의료기관 등이 준수해야 하는 기술적, 물리적, 관리적 보안 통제를 명시합니다.
이어지는 수업 내용에서 AWS Macie를 특정 S3 버켓에 적용하는 방법 등을 배웠습니다.
실제로 해보는 것이 익히는 데에 가장 빠를 것 같아, 강의 앞부분의 주요 내용들만 정리했습니다.