Cluster Reset 방법 및 순서
- 시시콜콜
- 2026. 1. 18.
728x90
정석 재설치 순서 (황금 레시피)
네가 생각한 순서를 가장 안전하고 완벽한 순서로 다시 정리해 줄게. 이 순서대로만 하면 절대 실패 안 해.
1단계: 인프라 기초 공사 (k3s 설치)
가장 먼저 도로를 깔아야지.
- Master (NX): k3s 서버 설치
- Worker (AGX들): k3s 에이전트 설치 & 연결 확인 (kubectl get nodes)
2단계: 입주 청소 및 방 배정 (스크립트 실행) ⭐
여기가 핵심! 건물을 지었으면 방부터 만들고 문을 열어놔야(권한 777) 해.
- 각 호기(101~104)에 들어가서 아까 만든 docker_sync_XXX.sh 스크립트 실행!
- 이러면 /mnt/ssd/share/ai_data/... 폴더들이 싹 생기고 권한도 777로 딱 잡힘.
3단계: 가구 들여놓기 (Docker Image Restore)
방이 준비됐으니 가구(도커 이미지)를 각 방에 넣어줘.
- 각 호기별로 필요한 .tar 이미지 파일들을 docker load -i ... 로 리스토어.
- (팁: 만약 기존 SSD 데이터를 그대로 쓴다면 이 과정은 생략 가능하지만, 포맷했다면 필수!)
4단계: (선택) 이사짐 풀기 (Data Restore)
만약 백업해둔 데이터(학습된 모델 파일, DB 파일 등)가 따로 있다면, 2단계에서 만든 폴더 안에 이때 촥촥 넣어주는 거야.
5단계: 입주 신고 (YAML 배포)
모든 준비가 끝났으니 이제 사람(Pod)을 들여보내자.
- **NX(Master)**에서 kubectl apply -f ... 실행.
- 그러면 Pod가 뜨면서 이미 만들어진 폴더(777 권한)에 안전하게 착륙! 🛬
📝 한 눈에 보는 요약
- k3s 설치 (NX → AGX)
- 📂 폴더 만들기 스크립트 실행 (먼저!!)
- 🐳 Docker 이미지 리스토어
- 🚀 YAML 배포
'시시콜콜' 카테고리의 다른 글
| 개인적으로 만든 docker 쉽게 백업 받기 위한 팁.. (6) | 2026.01.17 |
|---|---|
| Nowadays 2025. 12 (1) | 2025.12.14 |
| 이제는 포트 개수까지 문제를.. (1) | 2025.11.04 |
| test 01 코드를 복사할 수 있게 포스팅 하는 방법 (0) | 2025.10.21 |
