데이터센터¶
서버 물리적 위치¶
| 호스트 | 위치 | 네트워크 | 물리 접근 |
|---|---|---|---|
| rho | 랩 내부 | 10.80.169.39 (NAT) | 직접 가능 |
| tau | 랩 내부 | 10.80.169.40 (NAT) | 직접 가능 |
| psi | INU IDC (별도 서버실) | 117.16.251.37 (공인 IP) | 사전 연락 필요 |
| eta | Vultr VPS | 141.164.53.203 (공인 IP) | 물리 접근 불가 |
유지보수 책임¶
| 작업 | 담당 | 비고 |
|---|---|---|
| 하드웨어 점검 (디스크, 네트워크, 전원) | 관리자 | root 권한 필요 |
서버 전원 관리 (inv wake/shutdown/reboot) |
관리자 | 관리 워크스테이션에서 실행 |
| WireGuard/네트워크 진단 | 관리자 | sudo 필요 (관리자만 wheel 그룹) |
| NixOS 배포 | 관리자 | inv deploy |
| 물리 서버 확인/케이블 점검 | 관리자 | rho/tau는 랩 내, psi는 IDC |
| 소프트웨어 문제 보고 | 개발자 | 관리자에게 보고 |
연구원/학생은 sudo 권한이 없습니다 (
wheel그룹 미포함). 하드웨어 진단, 네트워크 설정, 전원 관리는 관리자만 수행할 수 있습니다.
전원 관리¶
Wake-on-LAN¶
inv wake --host rho
inv wake --host tau
inv wake는 WoL 매직 패킷을 전송하며, **같은 L2 네트워크(랩 내부)**에서만 동작합니다.
| 호스트 | inv wake 가능 여부 |
비고 |
|---|---|---|
| rho | O (랩 내부에서만) | 랩 네트워크 브로드캐스트 |
| tau | O (랩 내부에서만) | 랩 네트워크 브로드캐스트 |
| psi | X | IDC IPMI 또는 현장 수동 기동 |
| eta | X | Vultr 콘솔에서 수동 기동 |
종료/재부팅¶
inv shutdown --host <host>
inv reboot --host <host>
하드웨어 점검¶
아래 명령은 모두 root 권한(
sudo)이 필요합니다.
디스크 상태¶
ssh -p 10022 root@<host> smartctl -a /dev/sda
ssh -p 10022 root@<host> df -h
ssh -p 10022 root@<host> cat /proc/mdstat # RAID 상태
네트워크¶
# WireGuard 피어 상태 (sudo 필요)
ssh -p 10022 root@<host> wg show wg-admin
# Tailscale 연결 상태 (sudo 필요)
ssh -p 10022 root@<host> tailscale status
psi GPU 냉각수 점검¶
psi 서버는 분기별 1회 (연 4회) GPU 냉각수 점검을 받습니다. IDC 업체에서 사전에 연락이 오며, 서버를 꺼야 하는 경우에만 별도 요청이 옵니다. 연락이 없으면 서버를 끄지 않아도 됩니다.
정리 절차 (서버 종료가 필요한 경우)¶
flowchart TD
A["1. 사전 공지"] --> B["2. 실행 중인 작업 확인<br/>(nvidia-smi, docker ps)"]
B --> C["3. Buildbot 워커 중지"]
C --> D["4. 서버 종료<br/>(inv shutdown)"]
D --> E["5. 점검 완료 후 복구<br/>(IPMI 원격 기동)"]
E --> F["6. 서비스 상태 확인<br/>(systemctl --failed, nvidia-smi)"]
1단계 — 사전 공지: 사용자에게 점검 일정과 종료 시간을 안내합니다.
2단계 — 실행 중인 작업 확인:
ssh -p 10022 root@psi nvidia-smi # GPU 사용 상태
ssh -p 10022 root@psi docker ps # 실행 중인 컨테이너
3단계 — Buildbot 워커 중지 (빌드 중단 방지):
ssh -p 10022 root@psi systemctl stop buildbot-worker-*
4단계 — 서버 종료:
inv shutdown --host psi
5단계 — 점검 완료 후 복구: IDC 업체에서 전원을 켜거나, IPMI로 원격 기동합니다.
6단계 — 서비스 상태 확인:
ssh -p 10022 root@psi systemctl --failed
ssh -p 10022 root@psi nvidia-smi
비상 시 대처¶
전원 차단¶
- 서버가 응답하지 않으면 물리적으로 전원 버튼을 눌러 종료합니다
- 전원 복구 후:
- rho/tau: 랩 내부에서
inv wake --host <host> - psi: IDC IPMI 또는 현장 수동 기동
- eta: Vultr 콘솔에서 기동
- 기동 후 서비스 상태를 확인합니다:
systemctl --failed
네트워크 장애¶
- WireGuard 연결이 끊어지면 공인 IP로 직접 접근을 시도합니다 (eta, psi만 가능)
- NAT 뒤 호스트(rho, tau)는 같은 네트워크의 물리 접근이 필요합니다
wg-admin복구 후wg show wg-admin으로 피어 상태를 확인합니다
물리 접근 시 주의사항¶
- 서버 전원 케이블을 분리하기 전에 반드시
inv shutdown으로 정상 종료합니다 - 디스크 교체 시 RAID 구성(disko 설정)을 확인합니다
- 네트워크 케이블 변경 시 IP/게이트웨이 설정을
modules/hosts.nix와 대조합니다