인공지능57 [kubernetes] 쿠버네티스 GPU 설정 쿠버네티스에서 GPU를 사용하기 위해서는 다음을 수행해야 함. 아래 내용을 구분선 아래에서 자세히 작성함. 1. nvidia driver 설치 2. nvidia container toolkit 설치 (재부팅 필요) 4. nvidia-device-plugin 기동 환경 참고 - gpu: 4개 - docker version - client: 1.19.21 - server: 1.19.17 - k3s 기반 싱글 노드 클러스터 1. nvidia-driver 설치 그래픽 카드 정보 확인 $ sudo lshw -C display $ ubuntu-drivers devices 설치 (470을 선택하여 설치함, 다른 버전으로 설치해도 됨) 레포지토리 추가 $ sudo add-apt-repository ppa:graphic.. 2022. 12. 18. [kubernetes] 쿠버네티스 pv, pvc 바로 삭제하기 쿠버네티스에서 생성한 퍼시스턴트 볼륨이나 볼륨 클레임을 삭제하고 싶은데, 삭제 중이라고만 하면서 삭제되지 않는 경우가 있음. 아래 명령어를 통해서 삭제할 수 있음. 이 때 없다는 메세지가 나오면 namespace 때문이므로, -n 를 추가로 입력해주어야 함. # pv 삭제 $ kubectl patch pv -p '{"metadata": {"finalizers": null}}' $ kubectl delete pv --grace-period=0 --force # pvc 삭제 $ kubectl patch pvc -p '{"metadata": {"finalizers": null}}' $ kubectl delete pvc --grace-period=0 --force 2022. 12. 18. [kubectl] kubernetes namespace owner 변경하기 kubeflow 멀티 유저 시스템을 사용하기 위해 계정명을 변경/추가하던 중 namespace가 배정되지 않는 오류를 마주함. 확인해보니, 계정만 변경한다고 해서 namespace의 owner가 새로운 계정으로 변경되지는 않음. 이는 describe를 통해 확인할 수 있음 $ kubectl describe ns Name: Labels: app.kubernetes.io/part-of=kubeflow-profile istio-injection=enabled katib-metricscollector-injection=enabled pipelines.kubeflow.org/enabled=true serving.kubeflow.org/inferenceservice=enabled Annotations: owner:.. 2022. 12. 18. [docker] docker 종료된 컨테이너 한 번에 삭제하기 (Exited) Permission 이슈가 있을 때에는 docker 앞에 sudo 를 붙여 해결 가능 docker ps -a | grep Exit | cut -d ' ' -f 1 | xargs docker rm 1. docker ps -a: 모든 컨테이너 확인 명령어 2. grep Exit: 종료된 컨테이너 레코드만 추출 3. cut -d ' ' -f 1: line 마다 공백으로 split한 뒤, 1번째 데이터(컨테이너ID)만 추출 4. xargs docker rm: 앞서 추출한 컨테이너 ID 표준 입력을 docker rm 의 인수로 넘겨줌 2022. 12. 13. [tensorflow] tensorflow 2.9 (2.9.1) 버전에서 CPU만 사용하기 (GPU 사용 안함) tensorflow 2.3.1 이후 버전부터는 GPU가 자동으로 연동된다. 이 때문에 GPU를 사용하지 않는 연산에서도 GPU 메모리를 점유하여 OOM 에러가 나거나 학습이 느려지는 현상이 발생한다. 아래와 같은 문장을 모델 컴파일/ 학습/예측/ 평가 이전에 추가해주면 GPU를 사용하지 않고 CPU만을 활용하여 연산한다. os.environ["CUDA_VISIBLE_DEVICES"] = "-1" 2022. 11. 23. [kubeflow, kubernetes] 디플로이먼트 재시작하는 방법 (restart deployment) 다음 명령어를 통해 디플로이먼트를 재시작할 수 있다. kubectl rollout restart deployment [deployment_name] 2022. 10. 28. 이전 1 ··· 5 6 7 8 9 10 다음