728x90
반응형
1. 기본 개념
- 버킷(bucket): Splunk나 보안 로그 수집 환경에서 데이터를 저장하는 단위(예: S3 버킷, HDFS 디렉토리).
- 매니페스트(manifest): 해당 버킷에 포함된 로그 파일들의 목록과 메타데이터를 정리해둔 인덱스 문서.
즉, 매니페스트는 “이 시간대/이 경로에는 이런 로그 파일들이 있으며, 파일 크기와 체크섬은 이렇다” 같은 정보
2. 왜 필요한가?
보안 로그 파이프라인은 보통 수백 GB~수 TB 단위로 데이터가 쌓입니다.
이때 버킷 매니페스트가 없으면 Splunk나 ETL(Job)에서 매번 전체 스토리지를 스캔해야 해서 성능이 크게 떨어집니다.
따라서 매니페스트는 다음과 같은 이점을 줍니다:
- 빠른 인덱싱: 어떤 파일을 수집해야 할지 즉시 알 수 있음.
- 데이터 무결성 확인: 체크섬(SHA256, MD5 등)으로 손상 여부 검증.
- 재처리/증분 처리: 이미 처리된 파일과 신규 파일을 구분.
- 시간대별 관리: “2025-08-21 10시 로그는 이 파일에 있음”처럼 정리.
3. 실제 예시
보안 로그를 AWS S3에 저장한다고 가정해봅시다.
로그는 /bucket/firewall_logs/YYYY/MM/DD/HH/ 경로로 쌓이고,
각 시간대에 대한 매니페스트(manifest.json)가 같이 생성됩니다.
{
"bucket": "security-logs",
"path": "firewall_logs/2025/08/21/10/",
"files": [
{
"name": "fwlog-20250821-1000.gz",
"size": 5242880,
"checksum": "a3b2c7d..."
},
{
"name": "fwlog-20250821-1010.gz",
"size": 4181200,
"checksum": "bb92fa1..."
}
],
"generated_at": "2025-08-21T10:59:00Z"
}
Splunk HEC/UF/Addon 쪽에서는 이 매니페스트를 읽고 → 해당 파일만 가져와 인덱싱합니다.
4. Splunk/보안 환경 활용 포인트
- ES(Enterprise Security) 운영에서는, 대규모 로그 수집 시 데이터 누락·중복 여부 확인을 위해 매니페스트를 검증하는 로직을 씁니다.
- 데이터 레이크 연계에서는 Spark/EMR 같은 Job이 매니페스트 기준으로만 실행되어 효율적인 처리 가능.
- 재처리(Backfill) 시에도 매니페스트를 참조하여 “어느 시간대 로그부터 다시 가져와야 하는지” 추적합니다.
🔄 버킷 매니페스트 활용 흐름 (예시)
1. 로그 생성 & 저장
- 방화벽, IDS/IPS, EDR 등 보안 장비에서 로그 발생
- 포워더(로그 수집기)가 로그를 스토리지 버킷(S3/HDFS, 인덱스 등) 에 저장
- 저장할 때, 해당 시간대별로 manifest.json (또는 .csv) 도 함께 생성
/bucket/firewall_logs/2025/08/21/10/
├─ fwlog-20250821-1000.gz
├─ fwlog-20250821-1010.gz
├─ fwlog-20250821-1020.gz
└─ manifest.json
2. 버킷 매니페스트 생성 내용
매니페스트에는 파일 목록과 메타데이터가 포함됨:
{
"files": [
{"name": "fwlog-20250821-1000.gz", "size": 5242880, "checksum": "a3b2..."},
{"name": "fwlog-20250821-1010.gz", "size": 4181200, "checksum": "bb92..."}
],
"generated_at": "2025-08-21T10:59:00Z"
}
3. 무결성 검증
- 파일 크기(size), 체크섬(checksum) 비교
- 손상/누락 여부 확인
- 재처리(Backfill) 필요 여부 판단
4. Splunk에서 활용
- ES/검색 쿼리에서 시간대별 로그 누락 탐지 가능
- “어느 시간대까지 인덱싱 완료되었는가?”를 매니페스트 기준으로 검증
- 대용량 환경에서도 전체 버킷을 뒤지지 않고 필요한 데이터만 정확히 로드
📊 정리
👉 버킷 매니페스트는 대용량 로그 파이프라인의 효율화 & 신뢰성 확보 도구
- 색인표 역할: 수집 대상 명확화 (AWS에서)
- 품질 보증: 무결성/중복 검증
- 운영 효율: 재처리 및 증분 처리 간소화
- 검색 성능, 무결성 검증, 클러스터 동기화에 활용
728x90
반응형
'Splunk' 카테고리의 다른 글
| [ Splunk ] Indexing Internals (1) | 2025.08.25 |
|---|---|
| [ Splunk ] Event Processing (2) | 2025.08.24 |
| [Splunk] LDAP 연동 이해하기 (0) | 2025.08.21 |
| [Splunk] 기본 제공 소스타입과 INDEXED_EXTRACTIONS 활용법 (0) | 2025.08.20 |
| [Splunk] 네트워크 입력 (Network Inputs) 완벽 가이드 (0) | 2025.08.20 |