본문 바로가기

컴퓨터/머신러닝 (Machine Learning)

(25)
Ubuntu, ROCm, AMD GPU, Docker, Tensorflow, 환경에서 JAX 세팅 정리 Ubuntu 22.04 Radeon RX 6800 google-research에서 공개한 maxim 모델을 구동하려니 Tensorflow 기반의 JAX라는 GPU에 dependent한 연산 라이브러리 환경이 필요했다. Docker 기반 ROCm에 동작하는 JAX 환경 구축 정리 도커와 ROCm이 설치된 것을 가정 ROCm 개발자들이 도커에서 JAX를 build를 업데이트 하고 command을 안내하였지만 그대로 돌리면 build가 완료되지 않는다.(https://github.com/ROCmSoftwarePlatform/jax/tree/main/build/rocm) 디버깅 내용을 정리 1. git clone git clone https://github.com/ROCmSoftwarePlatform/jax.g..
Pytorch distributed launch watchdog timeout 에러 해결 [E ProcessGroupNCCL.cpp:587] [Rank 3] Watchdog caught collective operation timeout: WorkNCCL(OpType=ALLREDUCE, Timeout(ms)=1800000) ran for 1803170 milliseconds before timing out Ubuntu 20.04 BSRGAN, HAT 모델 학습 중 확인 https://github.com/cszn/BSRGAN GitHub - cszn/BSRGAN: Designing a Practical Degradation Model for Deep Blind Image Super-Resolution (ICCV, 2021) (PyTorch) - We Designing a Practical De..
Super resolution 모델, HAT train 정리 Ubuntu 20.04 공식 github https://github.com/XPixelGroup/HAT GitHub - XPixelGroup/HAT: Arxiv2022 - Activating More Pixels in Image Super-Resolution Transformer Arxiv2022 - Activating More Pixels in Image Super-Resolution Transformer - GitHub - XPixelGroup/HAT: Arxiv2022 - Activating More Pixels in Image Super-Resolution Transformer github.com 앞선 글에서 (https://honbul.tistory.com/59) 4번, setup.py까지 진행..
AMD GPU MIGraphX docker 사용 정리 Ubuntu 20.04 ROCm 5.4 Radeon VII Nvidia의 TensorRT와 같은 포지션에 있는 AMD의 MIGraphX 정리 apt install, build from source, docker 를 통한 설치를 모두 해본 결과 docker가 가장 문제없이 잘 돌아간다. 참고 글 GitHub - ROCmSoftwarePlatform/AMDMIGraphX: AMD's graph optimization engine. GitHub - ROCmSoftwarePlatform/AMDMIGraphX: AMD's graph optimization engine. AMD's graph optimization engine. Contribute to ROCmSoftwarePlatform/AMDMIGraphX d..
Super resolution 모델, HAT, inference 사용 정리 Ubuntu 20.04 ROCm AMD GPU Radeon VII 공식 github GitHub - XPixelGroup/HAT: Arxiv2022 - Activating More Pixels in Image Super-Resolution Transformer GitHub - XPixelGroup/HAT: Arxiv2022 - Activating More Pixels in Image Super-Resolution Transformer Arxiv2022 - Activating More Pixels in Image Super-Resolution Transformer - GitHub - XPixelGroup/HAT: Arxiv2022 - Activating More Pixels in Image Super-Re..
TensorRT Docker 사용 정리 Nvidia driver: 515.86 CUDA: 11.6 Docker: 20.10.21 1. Nvidia container toolkit 설치(Installation Guide — NVIDIA Cloud Native Technologies documentation) 1-1. package repository 추가 distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \ && curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \ && curl -s -L ht..
3080, Radeon vii, 6900xt, 딥러닝 (image classification) 학습 성능 비교 완벽하게 동일한 세팅(CPU/RAM/storage)에서 비교한 것이 아니므로 오로지 GPU의 성능을 비교했다고 하긴 어려움 적당한 비교(just curious)로 받아들이면 좋을듯 동일한 학습 모델, 데이터 셋에서의 학습 성능 비교 - 첫 2 epoch에 걸린 시간을 비교 Framework: Pytorch Model: efficientnet lite0 Batch size: 20 Image size: 384x384 데이터 수: 약 3만장 시스템: 결과: 결론 1. 역시 Nvidia가 좋다. 2. 학습속도는 조금 느릴지라도 AMD의 높은 GPU RAM은 무거운 모델 학습/구동에 좋을 수도 있겠다.
Ubuntu, ROCm, AMD GPU, Docker, Pytorch 환경에서 딥러닝 정리 ROCm이 설치된 Ubuntu 환경에서 Docker-Pytorch 활용 딥러닝에 대해 정리 Radeon VII 사용 Ubuntu 환경에 ROCm과 Docker가 설치된 것을 가정 (ROCm 설치 글 Ubuntu, ROCm 설치 및 제거 (tistory.com)) (Docker 설치 글 Ubuntu, docker 설치 및 제거 정리 (tistory.com)) 공식 Docker image rocm/pytorch - Docker Image | Docker Hub Docker Hub hub.docker.com 1. rocm/pytorch 이미지 run size가 꽤나 크므로 시간이 조금 걸릴 수 있다 sudo docker run -it --network=host --device=/dev/kfd --device=..