Cluster Reset 방법 및 순서

728x90

정석 재설치 순서 (황금 레시피)

네가 생각한 순서를 가장 안전하고 완벽한 순서로 다시 정리해 줄게. 이 순서대로만 하면 절대 실패 안 해.

1단계: 인프라 기초 공사 (k3s 설치)

가장 먼저 도로를 깔아야지.

  1. Master (NX): k3s 서버 설치
  2. Worker (AGX들): k3s 에이전트 설치 & 연결 확인 (kubectl get nodes)

2단계: 입주 청소 및 방 배정 (스크립트 실행) ⭐

여기가 핵심! 건물을 지었으면 방부터 만들고 문을 열어놔야(권한 777) 해.

  • 각 호기(101~104)에 들어가서 아까 만든 docker_sync_XXX.sh 스크립트 실행!
    • 이러면 /mnt/ssd/share/ai_data/... 폴더들이 싹 생기고 권한도 777로 딱 잡힘.

3단계: 가구 들여놓기 (Docker Image Restore)

방이 준비됐으니 가구(도커 이미지)를 각 방에 넣어줘.

  • 각 호기별로 필요한 .tar 이미지 파일들을 docker load -i ... 로 리스토어.
  • (팁: 만약 기존 SSD 데이터를 그대로 쓴다면 이 과정은 생략 가능하지만, 포맷했다면 필수!)

4단계: (선택) 이사짐 풀기 (Data Restore)

만약 백업해둔 데이터(학습된 모델 파일, DB 파일 등)가 따로 있다면, 2단계에서 만든 폴더 안에 이때 촥촥 넣어주는 거야.

5단계: 입주 신고 (YAML 배포)

모든 준비가 끝났으니 이제 사람(Pod)을 들여보내자.

  • **NX(Master)**에서 kubectl apply -f ... 실행.
  • 그러면 Pod가 뜨면서 이미 만들어진 폴더(777 권한)에 안전하게 착륙! 🛬

📝 한 눈에 보는 요약

  1. k3s 설치 (NX → AGX)
  2. 📂 폴더 만들기 스크립트 실행 (먼저!!)
  3. 🐳 Docker 이미지 리스토어
  4. 🚀 YAML 배포

댓글

Designed by JB FACTORY