728x90
반응형
Ollama 모델 사용 시, 답변이 느려 모니터링 해보니 GPU 사용률이 전혀 상승하지 않음
특히 hf.co 모델 호출 방식, Ollama 내부 저장 구조, systemd 환경, GPU 미사용 이슈까지 포함한 실제 트러블슈팅 내용을 정리한다.
1. 문제 상황
- Ollama 모델 실행 시 hf.co 경로 오류 발생
- AITK / Splunk에서는 연결되지만 일부 ai command 실패
- 응답 속도가 비정상적으로 느림 (200초 이상)
- GPU를 사용하는 것 같지 않음
Error: No model found under service 'hf.co'
# SPL
index=_internal sourcetype=mlspl source=/opt/splunk/var/log/splunk/mlspl.log command=ai
# 결과
1776133736.409864 PID 3890656 2026-04-14 11:28:56,409 ERROR [mlspl.processors.AiCommanderProcessor] [process] command=ai, request_id=3db7d1d6-dd69-42f1-b6ac-0947fc96c245, provider=Ollama, model=sec8b:latest, llm_completion_time=200.72666811943054, is_success=0,error_message=Request to the LLM has failed. Please check the provided Connection Management configuration settings.
1776133534.948335 PID 3890656 2026-04-14 11:25:34,948 DEBUG [mlspl.processors.AiCommanderProcessor] [process] command=ai, provider=Ollama, model=sec8b:latest, remaining=10, total_processed_rows=0
1776133533.398335 PID 3890656 2026-04-14 11:25:33,398 DEBUG [mlspl.ai] [handler] command=ai, chunked_df_rows_count=1, total_df_rows_count=1
1776133533.398109 PID 3890656 2026-04-14 11:25:33,398 DEBUG [mlspl.ai] [handler] command=ai, spl_load_data_time=0.017576217651367188
Request to the LLM has failed.
llm_completion_time=200초
2. 원인 분석
2.1 Ollama는 GGUF 파일을 직접 사용하지 않음
Ollama는 GGUF 파일을 그대로 사용하는 구조가 아니라 blobs 기반 저장 구조로 변환하여 관리한다.
/usr/share/ollama/.ollama/models/blobs
2.2 실행 유저와 저장 경로 불일치
Ollama 서비스는 ollama 유저로 실행되며 실제 홈 디렉토리는 다음과 같다.
ollama:x:995:994::/usr/share/ollama:/bin/false
→ 일반적인 /home 경로와 달라 모델이 없는 것처럼 보임
2.3 hf.co 직접 호출 문제
ollama run hf.co/...는 원격 호출이므로 폐쇄망에서는 실패
2.4 성능 문제의 핵심 원인
- Ollama는 정상 동작
- Splunk 연결도 정상
- 하지만 GPU를 사용하지 않고 CPU로만 추론
3. 해결 과정
3.1 실제 모델 위치 확인
find / -type d -name "blobs"
→ /usr/share/ollama/.ollama/models/blobs
3.2 Ollama 모델 확인
ollama list
→ 모델은 이미 존재 (경로 인식 문제)
3.3 Modelfile 생성
vi /root/Modelfile
FROM hf.co/fdtn-ai/Foundation-Sec-8B-Q4_K_M-GGUF:Q4_K_M
3.4 모델 생성
ollama create sec8b -f /root/Modelfile
3.5 모델 실행
ollama run sec8b
→ AITK 및 Splunk에서도 동일 이름으로 사용 가능
4. Splunk에서 AI Connection 설정
3️⃣ Splunk AI 연결 생성
아래 링크 참조
https://authentic-information.tistory.com/209
테스트:
| makeresults count=1
| ai prompt="hello" provider=Ollama model=sec8b:latest
⚠️ 문제 발생: LLM 요청 실패 및 속도 지연
Request to the LLM has failed.
llm_completion_time=200초
# SPL
index=_internal sourcetype=mlspl source=/opt/splunk/var/log/splunk/mlspl.log command=ai
# 결과
1776133736.409864 PID 3890656 2026-04-14 11:28:56,409 ERROR [mlspl.processors.AiCommanderProcessor] [process] command=ai, request_id=3db7d1d6-dd69-42f1-b6ac-0947fc96c245, provider=Ollama, model=sec8b:latest, llm_completion_time=200.72666811943054, is_success=0,error_message=Request to the LLM has failed. Please check the provided Connection Management configuration settings.
1776133534.948335 PID 3890656 2026-04-14 11:25:34,948 DEBUG [mlspl.processors.AiCommanderProcessor] [process] command=ai, provider=Ollama, model=sec8b:latest, remaining=10, total_processed_rows=0
1776133533.398335 PID 3890656 2026-04-14 11:25:33,398 DEBUG [mlspl.ai] [handler] command=ai, chunked_df_rows_count=1, total_df_rows_count=1
1776133533.398109 PID 3890656 2026-04-14 11:25:33,398 DEBUG [mlspl.ai] [handler] command=ai, spl_load_data_time=0.017576217651367188

🔍 추가 원인 분석
- Ollama 정상 실행
- Splunk 연결 정상
- 응답 속도 비정상적으로 느림
→ GPU 미사용 상태
5. GPU 사용 여부 확인
watch -n 1 nvidia-smi

문제 상태:
GPU-Util: 0%
Memory-Usage: 0MiB
6. 원인: systemd 환경에서 CUDA 미인식
Ollama가 systemd 서비스로 실행되면서 CUDA 환경 변수를 인식하지 못함
7. 해결 방법
✔️ Ollama 서비스 환경 변수 설정
sudo systemctl edit ollama
[Service]
Environment="CUDA_VISIBLE_DEVICES=0"
#Environment="PATH=/usr/local/cuda/bin:/usr/bin:/bin"
Environment="LD_LIBRARY_PATH=/usr/local/cuda/lib64"
## 적용된 전체 코드
[Service]
#ExecStart=/usr/local/bin/ollama serve
ExecStart=/usr/bin/env OLLAMA_HOST=0.0.0.0 /usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=/root/.local/bin:/root/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin"
Environment="CUDA_VISIBLE_DEVICES=0"
Environment="LD_LIBRARY_PATH=/usr/local/cuda/lib64"
✔️ 서비스 재시작
sudo systemctl daemon-reexec
sudo systemctl daemon-reload
sudo systemctl restart ollama
8. 해결 확인
ollama run sec8b
동시에:
watch -n 1 nvidia-smi
정상 상태:
Memory-Usage: 3000~7000 MiB
GPU-Util: 30~80%
9. 결과
- 응답 시간: 200초 → 수 초
- Splunk AI Command 정상 동작
- Timeout 문제 해결
10. 핵심 정리
- Ollama는 GGUF 파일을 직접 사용하지 않는다
- 모델은 blobs 형태로 내부 저장된다
- hf.co 직접 호출은 폐쇄망에서 실패한다
- Modelfile alias 방식이 안정적이다
- Splunk는 Ollama API 기반으로 동작한다
- GPU 미사용 시 성능이 치명적으로 저하된다
- systemd 환경에서는 CUDA 경로를 반드시 지정해야 한다
11. 결론
이번 문제의 핵심은 모델 부재가 아니라
모델 호출 방식 + 실행 환경(systemd) + GPU 미사용 문제였다.
구조를 정확히 이해하면 Ollama + Splunk AI 환경은 매우 안정적으로 운영 가능하다.
🔥 한 줄 요약
“문제는 Splunk가 아니라 Ollama가 GPU를 안 쓰고 있었던 것”
728x90
반응형
'Splunk > Splunk Project' 카테고리의 다른 글
| 데이터 수집 | TAP(미러링) 환경에서 syslog 수집 안될 때 해결 방법 (tcpdump → Python RAW Socket까지) (0) | 2026.04.15 |
|---|---|
| Splunk Project | Ollama / AITK 모델 연동 시 발생하는 원인 박멸하기 (0) | 2026.04.14 |
| Splunk Project | Splunk + Ollama + LLM 연동 구축 가이드 (실전 PoC 기준) (0) | 2026.04.01 |
| Splunk Project | Splunk 서버에 Ollama 연동 시, 아키텍처 선택 이유 (0) | 2026.04.01 |
| Splunk | Foundation-Sec-8B 모델 구조와 선택 가이드 (Ollama 기반) (0) | 2026.04.01 |