'Splunk' 카테고리의 글 목록

본문 바로가기

728x90

Splunk

(101)

DISK 설계 | IOPS를 고려한 DISK 설계 오늘 디스크 구성 검토를 하면서 가장 크게 배운 점은 하나였다.디스크는 “몇 TB냐”보다 “얼마나 빠르게 읽고 쓸 수 있느냐”가 먼저다. 처음에는 디스크 용량, RAID 구성, 보관 기간을 중심으로 생각하기 쉬웠다.하지만 Splunk처럼 로그를 계속 수집하고, 동시에 검색까지 수행하는 시스템에서는단순 저장공간보다 IOPS, RAID write penalty, 디스크 확장성, Hot/Warm/Cold 데이터 배치가 훨씬 중요하다. Splunk 공식 문서에서도 인덱싱은 I/O 집약적인 작업이며,인덱서가 데이터를 효율적으로 수집·파싱하고 검색 요청에 응답하려면 충분한 디스크 I/O가 필요하다고 설명한다.또한 Splunk Enterprise 참고 하드웨어 문서에서는 HDD 기반 스토리지의 sustained IO..

데이터 보존 | Splunk Indexer Cluster에서 coldToFrozenScript로 S3 아카이빙 구성하기 (2/2) 1. 개요Splunk 인덱서 클러스터 환경에서 일정 기간이 지난 cold bucket을 S3로 아카이빙하는 구성을 테스트했다.이번 구성의 목적은 다음과 같다.Splunk bucket이 frozen으로 전환될 때 S3로 자동 아카이빙Indexer Cluster 환경에서 db_, rb_ bucket 중복 업로드 방지S3 lock / done marker 기반 dedupe 처리lock을 획득한 peer가 장애 나더라도 fallback 경로로 데이터 유실 방지Splunk 실행 환경에서 AWS CLI가 정상 동작하도록 환경변수 충돌 제거테스트 환경은 다음과 같다.Splunk Enterprise Indexer ClusterRF = 2SF = 2S3 Bucket = archive-splunk-data-12345678..

데이터 수집 | Splunk Add-on for Google Cloud Platform 수집 가능 데이터 정리 1. 개요Splunk Add-on for Google Cloud Platform은 GCP 환경의 로그, 메트릭, 과금 데이터, Cloud Storage 파일, 리소스 메타데이터를 Splunk로 수집하기 위한 Add-on이다.수집 대상은 크게 아래와 같이 구분할 수 있다.구분사용 Input주요 수집 대상로그 수집Cloud Pub/SubGCP Audit Log, Platform Log, Workspace 관련 로그메트릭 수집Cloud MonitoringCPU, Disk, Network, Pub/Sub, Cloud SQL 등 성능 지표비용 수집BigQuery BillingGCP 과금/비용 데이터파일 수집Cloud Storage BucketGCS에 저장된 JSON, CSV, XML, 일반 로그 파일자산정보 수집..

데이터 보존 | Splunk Indexer Cluster에서 coldToFrozenScript로 S3 아카이빙 구성하기 (1/2) Splunk를 운영하다 보면 indexed data의 보관 기간과 디스크 용량을 함께 고려해야 한다. 최근 데이터는 Splunk local disk에 유지하는 것이 적절하지만, 장기 보관 목적의 오래된 로그까지 계속 local disk에 두면 storage 비용과 운영 부담이 커진다.이 글에서는 Splunk Indexer Cluster 환경에서 cold bucket이 frozen으로 전환되는 시점에 AWS S3로 아카이빙하는 구성을 정리한다.Splunk Enterprise Indexer ClusterReplication Factor = 2Search Factor = 2Archive Storage = AWS S3Archive Method = coldToFrozenScript1. Spl..

데이터 수집 | 최종 Python 수집기 코드 정리 (raw socket + dedup + buffering) 이전 글(https://authentic-information.tistory.com/214)에서 확인한 것처럼,현재 수집 환경은 일반적인 syslog 수신 서버 구조가 아니라 TAP(미러링) 기반 패킷 수집 구조이다. 즉, 내 서버가 syslog를 직접 수신하는 대상이 아니라,다른 목적지로 향하는 syslog 패킷을 복제해서 관찰하는 구조이기 때문에 일반 UDP socket 방식으로는 수집이 불가능하다. 따라서 최종 수집 구조는 아래와 같이 정리했다.TAP 미러링 트래픽 → raw socket(AF_PACKET) → IPv4/UDP/syslog 패킷 파싱 → 동일 메시지 dedup → 버퍼링 후 파일 저장 → Splunk file monitor 수집 이번 글에서는 실제 운영 가능한 형태의 Python 수..

데이터 수집 | TAP 미러링 환경에서 Python raw socket으로 syslog 수집 시 중복 발생 원인 분석 및 해결 지난 게시글(https://authentic-information.tistory.com/213)에서 TAP(미러링) 환경에서 Python을 이용해 syslog 데이터를 수집하는 구조를 구현했다.당시에는 raw socket(AF_PACKET)을 사용해 미러링된 트래픽을 직접 수집하고, 이를 파일로 저장한 뒤 Splunk에서 모니터링하는 방식으로 구성했다. 초기 테스트에서는 정상적으로 데이터가 수집되는 것처럼 보였지만, 실제 운영 데이터를 확인하는 과정에서 예상치 못한 문제가 발생했다. 바로 동일한 syslog 이벤트가 여러 번 중복 저장되는 현상이었다.처음에는 Splunk 파싱 문제나 sourcetype 분기 로직에서의 오류를 의심했지만, 확인을 거듭할수록 문제는 Splunk가 아니라 Python 수집 단..

데이터 수집 | TAP(미러링) 환경에서 syslog 수집 안될 때 해결 방법 (tcpdump → Python RAW Socket까지) 이번 작업은 TAP 방식으로 미러링된 트래픽을 받아서,그 안에 포함된 UDP 514 syslog 메시지를 추출하고, 원본 장비 IP 기준으로 파일에 저장하는 구조를 만드는 과정이었다. 처음에는 단순히 syslog-ng가 받아줄 것이라고 생각했지만,실제로는 미러링된 패킷은 애플리케이션 소켓 레벨로 자연스럽게 올라오지 않기 때문에 syslog-ng가 반응하지 않았다. 이후 tcpdump 기반 접근, Python 파싱, RAW socket 방식까지 단계적으로 시도했고,최종적으로는 Python에서 AF_PACKET RAW socket으로 직접 패킷을 읽어 UDP payload를 복원하는 방식으로 해결했다.1. 작업 환경수집 서버: Linux 서버 (Splunk POC 서버)인터페이스: eno2트래픽 입력 방식:..

Splunk Project | Ollama / AITK 모델 연동 시 발생하는 원인 박멸하기 이전 글에서는 아래 이슈를 해결했다.Splunk Project | Ollama / AITK 모델 연결 문제 해결 과정 정리해당 글에서는 Ollama 모델 사용 시 답변 속도가 비정상적으로 느렸고,모니터링 결과 GPU 사용률이 전혀 오르지 않던 문제를 다뤘다.단순히 “느리다” 수준의 현상이 아니라, 실제로는 모델이 GPU가 아니라 CPU에서 추론되고 있었고,그 결과 Splunk의 | ai 명령 실행 시 응답 지연과 실패가 발생하고 있었다. 당시에는 hf.co 모델 호출 방식, Ollama 내부 저장 구조, systemd 환경, GPU 미사용 이슈까지 하나씩 점검하면서 결국 문제를 해결했다. 그리고 실제로 수정 후에는 GPU 메모리 사용량과 GPU Util이 즉시 상승하는 것도 확인했다.그런데 여기서 한 가..

이전 1 2 3 4 ··· 13 다음

728x90

티스토리툴바