본문 바로가기

컴퓨터/머신러닝 (Machine Learning)

(27)
하드 디스크 병목으로 인한 CPU 사용량 저하 확인 환경CPU: Intel i9 11900GPU: NVIDIA 3090 24GBMemory: 64GBOS: Ubuntu 22.04Python: Python 3.9  Pytorch Dataloader를 사용하여 batch 로 inference 결과별 이미지 저장을 하던 중 CPU 사용률이 하락하는 현상Jupyter, Nvidia 세팅 등을 확인한 결과 하드디스크 병목(쓰기)으로 인한 CPU 강제 휴무 상태로 확인  하드 디스크를 iostat으로 확인한 결과,하드 디스크(가장 하단) 의 %util (가장 우측 칼럼)의 수치가 100에 근접하거나 초과하는 것을 확인또한, 가장 상단의 %iowait 수치와 %idle 수치를 통해서도 확인 iostat 설치 및 모니터링 command1. iostat 설치 sudo a..
Yolov9 Jupyter에서 돌려보기 환경CPU: AMD 5900xGPU: AMD RX 7900xtx 24GBMemory: 128GBOS: Ubuntu 20.04GPU Driver: ROCm 6.0.2Python: Python 3.9 공식 문서https://docs.ultralytics.com/models/yolov9/#conclusion YOLOv9Discover YOLOv9, the latest addition to the real-time object detection arsenal, leveraging Programmable Gradient Information and GELAN architecture for unparalleled performance.docs.ultralytics.com  1. Install Ultralytics ..
Ubuntu, ROCm, AMD GPU, Docker, Tensorflow, 환경에서 JAX 세팅 정리 Ubuntu 22.04 Radeon RX 6800 google-research에서 공개한 maxim 모델을 구동하려니 Tensorflow 기반의 JAX라는 GPU에 dependent한 연산 라이브러리 환경이 필요했다. Docker 기반 ROCm에 동작하는 JAX 환경 구축 정리 도커와 ROCm이 설치된 것을 가정 ROCm 개발자들이 도커에서 JAX를 build를 업데이트 하고 command을 안내하였지만 그대로 돌리면 build가 완료되지 않는다.(https://github.com/ROCmSoftwarePlatform/jax/tree/main/build/rocm) 디버깅 내용을 정리 1. git clone git clone https://github.com/ROCmSoftwarePlatform/jax.g..
Pytorch distributed launch watchdog timeout 에러 해결 [E ProcessGroupNCCL.cpp:587] [Rank 3] Watchdog caught collective operation timeout: WorkNCCL(OpType=ALLREDUCE, Timeout(ms)=1800000) ran for 1803170 milliseconds before timing out Ubuntu 20.04 BSRGAN, HAT 모델 학습 중 확인 https://github.com/cszn/BSRGAN GitHub - cszn/BSRGAN: Designing a Practical Degradation Model for Deep Blind Image Super-Resolution (ICCV, 2021) (PyTorch) - We Designing a Practical De..
Super resolution 모델, HAT train 정리 Ubuntu 20.04 공식 github https://github.com/XPixelGroup/HAT GitHub - XPixelGroup/HAT: Arxiv2022 - Activating More Pixels in Image Super-Resolution Transformer Arxiv2022 - Activating More Pixels in Image Super-Resolution Transformer - GitHub - XPixelGroup/HAT: Arxiv2022 - Activating More Pixels in Image Super-Resolution Transformer github.com 앞선 글에서 (https://honbul.tistory.com/59) 4번, setup.py까지 진행..
AMD GPU MIGraphX docker 사용 정리 Ubuntu 20.04 ROCm 5.4 Radeon VII Nvidia의 TensorRT와 같은 포지션에 있는 AMD의 MIGraphX 정리 apt install, build from source, docker 를 통한 설치를 모두 해본 결과 docker가 가장 문제없이 잘 돌아간다. 참고 글 GitHub - ROCmSoftwarePlatform/AMDMIGraphX: AMD's graph optimization engine. GitHub - ROCmSoftwarePlatform/AMDMIGraphX: AMD's graph optimization engine. AMD's graph optimization engine. Contribute to ROCmSoftwarePlatform/AMDMIGraphX d..
Super resolution 모델, HAT, inference 사용 정리 Ubuntu 20.04 ROCm AMD GPU Radeon VII 공식 github GitHub - XPixelGroup/HAT: Arxiv2022 - Activating More Pixels in Image Super-Resolution Transformer GitHub - XPixelGroup/HAT: Arxiv2022 - Activating More Pixels in Image Super-Resolution Transformer Arxiv2022 - Activating More Pixels in Image Super-Resolution Transformer - GitHub - XPixelGroup/HAT: Arxiv2022 - Activating More Pixels in Image Super-Re..
TensorRT Docker 사용 정리 Nvidia driver: 515.86 CUDA: 11.6 Docker: 20.10.21 1. Nvidia container toolkit 설치(Installation Guide — NVIDIA Cloud Native Technologies documentation) 1-1. package repository 추가 distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \ && curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \ && curl -s -L ht..