[ Splunk ] 버킷 매니페스트(manifest)
본문 바로가기

Splunk

[ Splunk ] 버킷 매니페스트(manifest)

728x90
반응형

1. 기본 개념

  • 버킷(bucket): Splunk나 보안 로그 수집 환경에서 데이터를 저장하는 단위(예: S3 버킷, HDFS 디렉토리).
  • 매니페스트(manifest): 해당 버킷에 포함된 로그 파일들의 목록과 메타데이터를 정리해둔 인덱스 문서.

즉, 매니페스트는 “이 시간대/이 경로에는 이런 로그 파일들이 있으며, 파일 크기와 체크섬은 이렇다” 같은 정보


2. 왜 필요한가?

보안 로그 파이프라인은 보통 수백 GB~수 TB 단위로 데이터가 쌓입니다.
이때 버킷 매니페스트가 없으면 Splunk나 ETL(Job)에서 매번 전체 스토리지를 스캔해야 해서 성능이 크게 떨어집니다.

따라서 매니페스트는 다음과 같은 이점을 줍니다:

  • 빠른 인덱싱: 어떤 파일을 수집해야 할지 즉시 알 수 있음.
  • 데이터 무결성 확인: 체크섬(SHA256, MD5 등)으로 손상 여부 검증.
  • 재처리/증분 처리: 이미 처리된 파일과 신규 파일을 구분.
  • 시간대별 관리: “2025-08-21 10시 로그는 이 파일에 있음”처럼 정리.

3. 실제 예시

보안 로그를 AWS S3에 저장한다고 가정해봅시다.
로그는 /bucket/firewall_logs/YYYY/MM/DD/HH/ 경로로 쌓이고,
각 시간대에 대한 매니페스트(manifest.json)가 같이 생성됩니다.

 
{
  "bucket": "security-logs",
  "path": "firewall_logs/2025/08/21/10/",
  "files": [
    {
      "name": "fwlog-20250821-1000.gz",
      "size": 5242880,
      "checksum": "a3b2c7d..."
    },
    {
      "name": "fwlog-20250821-1010.gz",
      "size": 4181200,
      "checksum": "bb92fa1..."
    }
  ],
  "generated_at": "2025-08-21T10:59:00Z"
}
 

Splunk HEC/UF/Addon 쪽에서는 이 매니페스트를 읽고 → 해당 파일만 가져와 인덱싱합니다.


4. Splunk/보안 환경 활용 포인트

  • ES(Enterprise Security) 운영에서는, 대규모 로그 수집 시 데이터 누락·중복 여부 확인을 위해 매니페스트를 검증하는 로직을 씁니다.
  • 데이터 레이크 연계에서는 Spark/EMR 같은 Job이 매니페스트 기준으로만 실행되어 효율적인 처리 가능.
  • 재처리(Backfill) 시에도 매니페스트를 참조하여 “어느 시간대 로그부터 다시 가져와야 하는지” 추적합니다.

 

🔄 버킷 매니페스트 활용 흐름 (예시)

1. 로그 생성 & 저장

  • 방화벽, IDS/IPS, EDR 등 보안 장비에서 로그 발생
  • 포워더(로그 수집기)가 로그를 스토리지 버킷(S3/HDFS, 인덱스 등) 에 저장
  • 저장할 때, 해당 시간대별로 manifest.json (또는 .csv) 도 함께 생성
/bucket/firewall_logs/2025/08/21/10/
 ├─ fwlog-20250821-1000.gz
 ├─ fwlog-20250821-1010.gz
 ├─ fwlog-20250821-1020.gz
 └─ manifest.json

 


2. 버킷 매니페스트 생성 내용

매니페스트에는 파일 목록과 메타데이터가 포함됨:

 
{
  "files": [
    {"name": "fwlog-20250821-1000.gz", "size": 5242880, "checksum": "a3b2..."},
    {"name": "fwlog-20250821-1010.gz", "size": 4181200, "checksum": "bb92..."}
  ],
  "generated_at": "2025-08-21T10:59:00Z"
}

 

3. 무결성 검증

  • 파일 크기(size), 체크섬(checksum) 비교
  • 손상/누락 여부 확인
  • 재처리(Backfill) 필요 여부 판단

4. Splunk에서 활용

  • ES/검색 쿼리에서 시간대별 로그 누락 탐지 가능
  • “어느 시간대까지 인덱싱 완료되었는가?”를 매니페스트 기준으로 검증
  • 대용량 환경에서도 전체 버킷을 뒤지지 않고 필요한 데이터만 정확히 로드

📊 정리

👉 버킷 매니페스트는 대용량 로그 파이프라인의 효율화 & 신뢰성 확보 도구

  • 색인표 역할: 수집 대상 명확화 (AWS에서)
  • 품질 보증: 무결성/중복 검증
  • 운영 효율: 재처리 및 증분 처리 간소화
  • 검색 성능, 무결성 검증, 클러스터 동기화에 활용
728x90
반응형