728x90

Ollama 모델 사용 시, 답변이 느려 모니터링 해보니 GPU 사용률이 전혀 상승하지 않음
특히 hf.co 모델 호출 방식, Ollama 내부 저장 구조, systemd 환경, GPU 미사용 이슈까지 포함한 실제 트러블슈팅 내용을 정리한다.

1. 문제 상황

Ollama 모델 실행 시 hf.co 경로 오류 발생
AITK / Splunk에서는 연결되지만 일부 ai command 실패
응답 속도가 비정상적으로 느림 (200초 이상)
GPU를 사용하는 것 같지 않음

Error: No model found under service 'hf.co'

# SPL
index=_internal sourcetype=mlspl source=/opt/splunk/var/log/splunk/mlspl.log command=ai

# 결과
1776133736.409864 PID 3890656 2026-04-14 11:28:56,409 ERROR [mlspl.processors.AiCommanderProcessor] [process] command=ai, request_id=3db7d1d6-dd69-42f1-b6ac-0947fc96c245, provider=Ollama, model=sec8b:latest, llm_completion_time=200.72666811943054, is_success=0,error_message=Request to the LLM has failed. Please check the provided Connection Management configuration settings.
1776133534.948335 PID 3890656 2026-04-14 11:25:34,948 DEBUG [mlspl.processors.AiCommanderProcessor] [process] command=ai, provider=Ollama, model=sec8b:latest, remaining=10, total_processed_rows=0
1776133533.398335 PID 3890656 2026-04-14 11:25:33,398 DEBUG [mlspl.ai] [handler] command=ai, chunked_df_rows_count=1, total_df_rows_count=1
1776133533.398109 PID 3890656 2026-04-14 11:25:33,398 DEBUG [mlspl.ai] [handler] command=ai, spl_load_data_time=0.017576217651367188

Request to the LLM has failed.
llm_completion_time=200초

2. 원인 분석

2.1 Ollama는 GGUF 파일을 직접 사용하지 않음

Ollama는 GGUF 파일을 그대로 사용하는 구조가 아니라 blobs 기반 저장 구조로 변환하여 관리한다.

/usr/share/ollama/.ollama/models/blobs

2.2 실행 유저와 저장 경로 불일치

Ollama 서비스는 ollama 유저로 실행되며 실제 홈 디렉토리는 다음과 같다.

ollama:x:995:994::/usr/share/ollama:/bin/false

→ 일반적인 /home 경로와 달라 모델이 없는 것처럼 보임

2.3 hf.co 직접 호출 문제

ollama run hf.co/...는 원격 호출이므로 폐쇄망에서는 실패

2.4 성능 문제의 핵심 원인

Ollama는 정상 동작
Splunk 연결도 정상
하지만 GPU를 사용하지 않고 CPU로만 추론

3. 해결 과정

3.1 실제 모델 위치 확인

find / -type d -name "blobs"
→ /usr/share/ollama/.ollama/models/blobs

3.2 Ollama 모델 확인

ollama list

→ 모델은 이미 존재 (경로 인식 문제)

3.3 Modelfile 생성

vi /root/Modelfile
FROM hf.co/fdtn-ai/Foundation-Sec-8B-Q4_K_M-GGUF:Q4_K_M

3.4 모델 생성

ollama create sec8b -f /root/Modelfile

3.5 모델 실행

ollama run sec8b

→ AITK 및 Splunk에서도 동일 이름으로 사용 가능

4. Splunk에서 AI Connection 설정

3️⃣ Splunk AI 연결 생성

아래 링크 참조

https://authentic-information.tistory.com/209

테스트:

| makeresults count=1
| ai prompt="hello" provider=Ollama model=sec8b:latest

⚠️ 문제 발생: LLM 요청 실패 및 속도 지연

Request to the LLM has failed.
llm_completion_time=200초

# SPL
index=_internal sourcetype=mlspl source=/opt/splunk/var/log/splunk/mlspl.log command=ai

# 결과
1776133736.409864 PID 3890656 2026-04-14 11:28:56,409 ERROR [mlspl.processors.AiCommanderProcessor] [process] command=ai, request_id=3db7d1d6-dd69-42f1-b6ac-0947fc96c245, provider=Ollama, model=sec8b:latest, llm_completion_time=200.72666811943054, is_success=0,error_message=Request to the LLM has failed. Please check the provided Connection Management configuration settings.
1776133534.948335 PID 3890656 2026-04-14 11:25:34,948 DEBUG [mlspl.processors.AiCommanderProcessor] [process] command=ai, provider=Ollama, model=sec8b:latest, remaining=10, total_processed_rows=0
1776133533.398335 PID 3890656 2026-04-14 11:25:33,398 DEBUG [mlspl.ai] [handler] command=ai, chunked_df_rows_count=1, total_df_rows_count=1
1776133533.398109 PID 3890656 2026-04-14 11:25:33,398 DEBUG [mlspl.ai] [handler] command=ai, spl_load_data_time=0.017576217651367188

Ollama 모델 사용 시, 답변이 느려 모니터링 해보니 GPU 사용률이 전혀 상승하지 않음

🔍 추가 원인 분석

Ollama 정상 실행
Splunk 연결 정상
응답 속도 비정상적으로 느림

→ GPU 미사용 상태

5. GPU 사용 여부 확인

watch -n 1 nvidia-smi

문제 상태:

GPU-Util: 0%
Memory-Usage: 0MiB

6. 원인: systemd 환경에서 CUDA 미인식

Ollama가 systemd 서비스로 실행되면서 CUDA 환경 변수를 인식하지 못함

7. 해결 방법

✔️ Ollama 서비스 환경 변수 설정

sudo systemctl edit ollama

[Service]
Environment="CUDA_VISIBLE_DEVICES=0"
#Environment="PATH=/usr/local/cuda/bin:/usr/bin:/bin"
Environment="LD_LIBRARY_PATH=/usr/local/cuda/lib64"


## 적용된 전체 코드
[Service]
#ExecStart=/usr/local/bin/ollama serve
ExecStart=/usr/bin/env OLLAMA_HOST=0.0.0.0 /usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=/root/.local/bin:/root/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin"
Environment="CUDA_VISIBLE_DEVICES=0"
Environment="LD_LIBRARY_PATH=/usr/local/cuda/lib64"

✔️ 서비스 재시작

sudo systemctl daemon-reexec
sudo systemctl daemon-reload
sudo systemctl restart ollama

8. 해결 확인

ollama run sec8b

동시에:

watch -n 1 nvidia-smi

정상 상태:

Memory-Usage: 3000~7000 MiB
GPU-Util: 30~80%

9. 결과

응답 시간: 200초 → 수 초
Splunk AI Command 정상 동작
Timeout 문제 해결

10. 핵심 정리

Ollama는 GGUF 파일을 직접 사용하지 않는다
모델은 blobs 형태로 내부 저장된다
hf.co 직접 호출은 폐쇄망에서 실패한다
Modelfile alias 방식이 안정적이다
Splunk는 Ollama API 기반으로 동작한다
GPU 미사용 시 성능이 치명적으로 저하된다
systemd 환경에서는 CUDA 경로를 반드시 지정해야 한다

11. 결론

이번 문제의 핵심은 모델 부재가 아니라
모델 호출 방식 + 실행 환경(systemd) + GPU 미사용 문제였다.

구조를 정확히 이해하면 Ollama + Splunk AI 환경은 매우 안정적으로 운영 가능하다.

🔥 한 줄 요약

“문제는 Splunk가 아니라 Ollama가 GPU를 안 쓰고 있었던 것”

728x90

'Splunk > Splunk Project' 카테고리의 다른 글

데이터 수집 \| TAP(미러링) 환경에서 syslog 수집 안될 때 해결 방법 (tcpdump → Python RAW Socket까지) (0)	2026.04.15
Splunk Project \| Ollama / AITK 모델 연동 시 발생하는 원인 박멸하기 (0)	2026.04.14
Splunk Project \| Splunk + Ollama + LLM 연동 구축 가이드 (실전 PoC 기준) (0)	2026.04.01
Splunk Project \| Splunk 서버에 Ollama 연동 시, 아키텍처 선택 이유 (0)	2026.04.01
Splunk \| Foundation-Sec-8B 모델 구조와 선택 가이드 (Ollama 기반) (0)	2026.04.01

Studying ITs

Splunk Project | Ollama / AITK 모델 연결 문제 해결 과정 정리

Ollama 모델 사용 시, 답변이 느려 모니터링 해보니 GPU 사용률이 전혀 상승하지 않음
특히 hf.co 모델 호출 방식, Ollama 내부 저장 구조, systemd 환경, GPU 미사용 이슈까지 포함한 실제 트러블슈팅 내용을 정리한다.

1. 문제 상황

2. 원인 분석

2.1 Ollama는 GGUF 파일을 직접 사용하지 않음

2.2 실행 유저와 저장 경로 불일치

2.3 hf.co 직접 호출 문제

2.4 성능 문제의 핵심 원인

3. 해결 과정

3.1 실제 모델 위치 확인

3.2 Ollama 모델 확인

3.3 Modelfile 생성

3.4 모델 생성

3.5 모델 실행

4. Splunk에서 AI Connection 설정

3️⃣ Splunk AI 연결 생성

⚠️ 문제 발생: LLM 요청 실패 및 속도 지연

🔍 추가 원인 분석

5. GPU 사용 여부 확인

6. 원인: systemd 환경에서 CUDA 미인식

7. 해결 방법

✔️ Ollama 서비스 환경 변수 설정

✔️ 서비스 재시작

8. 해결 확인

9. 결과

10. 핵심 정리

11. 결론

🔥 한 줄 요약

'Splunk > Splunk Project' 카테고리의 다른 글

티스토리툴바

Splunk Project | Ollama / AITK 모델 연결 문제 해결 과정 정리

Ollama 모델 사용 시, 답변이 느려 모니터링 해보니 GPU 사용률이 전혀 상승하지 않음특히 hf.co 모델 호출 방식, Ollama 내부 저장 구조, systemd 환경, GPU 미사용 이슈까지 포함한 실제 트러블슈팅 내용을 정리한다.

1. 문제 상황

2. 원인 분석

2.1 Ollama는 GGUF 파일을 직접 사용하지 않음

2.2 실행 유저와 저장 경로 불일치

2.3 hf.co 직접 호출 문제

2.4 성능 문제의 핵심 원인

3. 해결 과정

3.1 실제 모델 위치 확인

3.2 Ollama 모델 확인

3.3 Modelfile 생성

3.4 모델 생성

3.5 모델 실행

4. Splunk에서 AI Connection 설정

3️⃣ Splunk AI 연결 생성

⚠️ 문제 발생: LLM 요청 실패 및 속도 지연

🔍 추가 원인 분석

5. GPU 사용 여부 확인

6. 원인: systemd 환경에서 CUDA 미인식

7. 해결 방법

✔️ Ollama 서비스 환경 변수 설정

✔️ 서비스 재시작

8. 해결 확인

9. 결과

10. 핵심 정리

11. 결론

🔥 한 줄 요약

'Splunk > Splunk Project' 카테고리의 다른 글

'Splunk/Splunk Project' Related Articles

티스토리툴바

Ollama 모델 사용 시, 답변이 느려 모니터링 해보니 GPU 사용률이 전혀 상승하지 않음
특히 hf.co 모델 호출 방식, Ollama 내부 저장 구조, systemd 환경, GPU 미사용 이슈까지 포함한 실제 트러블슈팅 내용을 정리한다.