728x90
반응형
우리 회사 서버에는 NVIDIA GPU가 장착되어 있다.
하지만 기본 상태에서는 GPU 성능을 제대로 활용할 수 없다.
👉 이유: 기본적으로 nouveau(오픈소스 드라이버)가 붙어 있기 때문
이 글에서는 실제 삽질 경험을 기반으로
👉 실패 사례 → 원인 → 해결 방법까지 전부 정리한다.
1. GPU 확인
lspci | grep -i "3d\|vga"
0a:00.0 VGA compatible controller: Matrox G200eR2
82:00.0 VGA compatible controller: NVIDIA GTX 1080
👉 Matrox = 서버 기본 GPU (관리용)
👉 GTX1080 = 실제 연산용 GPU
⚠️ 2. 현재 상태 문제 (nouveau 드라이버)
lshw -C display
👉 중요한 부분:
configuration: driver=nouveau
👉 이 상태에서는:
- CUDA 사용 불가
- GPU 성능 거의 못 씀
- AI / Ollama / 연산 불가능
🔥 3. nouveau 제거 (필수)
✔ Step 1: blacklist
cat < /etc/modprobe.d/blacklist-nouveau.conf
blacklist nouveau
options nouveau modeset=0
EOF
✔ Step 2: initramfs 재생성
dracut --force
✔ Step 3: 재부팅
reboot
✔ Step 4: 확인
lsmod | grep nouveau
👉 아무것도 안 나오면 성공
❌ 4. 기존 방식 (.run 설치) - 실패 사례
wget NVIDIA-Linux-*.run
chmod +x NVIDIA-Linux-*.run
./NVIDIA-Linux-*.run
👉 실제 발생 오류:
error: implicit declaration of function 'follow_pfn'
error: struct drm_driver has no member named 'date'
💥 실패 원인
- Rocky 9 커널 = backport 커널
- NVIDIA .run = 표준 커널 기준
- 👉 API mismatch 발생
👉 결과:
- 커널 모듈 빌드 실패
- GPU attach 실패
- nvidia-smi 실행 불가
🔥 5. 실무 정답 (패키지 방식)
✔ Step 1: 기존 제거
dnf remove -y "*nvidia*" --allowerasing
dnf clean all
✔ Step 2: Repository 설정
dnf install -y epel-release
dnf config-manager --add-repo \
https://developer.download.nvidia.com/compute/cuda/repos/rhel9/x86_64/cuda-rhel9.repo
✔ Step 3: Driver Stream 설정 (핵심)
dnf module reset nvidia-driver -y
dnf module enable nvidia-driver:535-dkms -y
👉 GTX1080 = Pascal 아키텍처
👉 최신 드라이버(595) 사용 시 "No NVIDIA GPU found" 발생
👉 535 버전이 안정
✔ Step 4: 드라이버 설치
dnf install -y nvidia-driver
✔ Step 5: 재부팅
reboot
✔ Step 6: 모듈 확인
lsmod | grep nvidia
✔ Step 7: nvidia-smi 설치
dnf install -y nvidia-driver-cuda
✔ Step 8: 최종 확인
nvidia-smi
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 535.xx Driver Version: 535.xx CUDA Version: 12.x |
| GPU: GeForce GTX 1080 |
+-----------------------------------------------------------------------------+

🚨 실무 핵심 정리
- .run 설치 ❌
- open-dkms ❌
- 최신 드라이버 ❌
- nouveau 제거 필수
- nvidia-driver-cuda 필수
---
🎯 결론
👉 Rocky 9 + GTX1080 환경에서는
👉 nouveau 제거 + 535-dkms + cuda 패키지 조합이 정답
728x90
반응형
'Linux' 카테고리의 다른 글
| Linux 개념 | AWS Linux 2023에서 THP Disable 방법 (0) | 2026.01.25 |
|---|---|
| Linux 개념 | ulimit의 역사 : nproc 값을 왜 제한했었고, 왜 이제는 unlimited인가? (0) | 2026.01.25 |
| Linux 개념 | Amazon Linux 2023과 유사한 OS는 무엇인가? — 운영 모델 관점에서 비교해보기 (1) | 2026.01.25 |
| Linux 개념 | ulimit 사용 가이드: soft/hard, nofile, nproc 쉽게 정리 (0) | 2026.01.25 |
| Linux 개념 | 파일 디스크립터(File Descriptor, FD) 확인 법 (0) | 2026.01.25 |