트러블슈팅
SSH 접속 문제
| 증상 |
원인 |
해결 |
Connection refused |
계정 미생성 또는 포트 오류 |
관리자에게 확인. ~/.ssh/config에서 포트가 10022인지 확인 |
Permission denied (publickey) |
SSH 키 불일치 |
cat ~/.ssh/id_ed25519.pub으로 공개키 확인 후 관리자에게 재전달 |
Connection timed out |
네트워크 문제 |
인터넷 연결 확인. ssh eta로 점프 호스트 먼저 테스트 |
Host key verification failed |
서버 키 변경됨 |
ssh-keygen -R jump.sjanglab.org으로 기존 키 제거 후 재접속 |
단계별 디버깅
점프 호스트부터 순서대로 테스트합니다:
# 1단계: 점프 호스트 접속 테스트
ssh eta
# 2단계: GPU 서버 접속 테스트
ssh psi
1단계에서 실패하면 네트워크 또는 계정 문제, 2단계에서 실패하면 ProxyJump 설정 문제입니다.
Python / conda 문제
| 증상 |
해결 |
conda: command not found |
source /opt/conda/etc/profile.d/conda.sh 실행 |
ModuleNotFoundError |
올바른 환경인지 확인: conda activate evolvepro 또는 conda activate plm |
| 어떤 환경이 활성화되었는지 모름 |
conda env list로 현재 환경 확인 (별표 표시) |
GPU 문제
| 증상 |
해결 |
CUDA out of memory |
--toks_per_batch 줄이기: 512 → 256 → 128 |
CUDA: False |
nvidia-smi로 GPU 상태 확인. 드라이버 문제면 관리자 문의 |
RuntimeError: CUDA error |
다른 사용자가 GPU를 점유 중일 수 있음. nvidia-smi로 확인 |
유용한 명령어
# GPU 상태 확인
nvidia-smi
# conda 환경 목록
conda env list
# 환경 전환
conda activate evolvepro
conda activate plm
# CPU/메모리 모니터링
htop
# 디스크 사용량
du -sh /workspace/$USER/*
추가 리소스
- EvolvePro GitHub — 이슈/버그 리포트
- Google Colab 튜토리얼 — 설치 없이 브라우저에서 실습
- 논문: Jiang et al., "Rapid in silico directed evolution by a protein language model with EVOLVEpro", Science (2024)