콘텐츠로 이동

PLM 임베딩 추출

ESM-2 모델로 각 변이체의 임베딩 벡터를 생성합니다. 이 단계에서는 plm conda 환경을 사용합니다.

실행

conda activate plm
cd /workspace/$USER/EvolvePro

python evolvepro/plm/esm/extract.py \
  esm2_t48_15B_UR50D \
  data/dms/brenan/brenan.fasta \
  output/plm/esm/brenan \
  --toks_per_batch 512 \
  --include mean \
  --concatenate_dir output/plm/esm/

파라미터 설명

파라미터 설명
esm2_t48_15B_UR50D ESM-2 15B 파라미터 모델
data/dms/brenan/brenan.fasta 입력 FASTA 파일
output/plm/esm/brenan 출력 디렉토리
--toks_per_batch 512 배치당 토큰 수 (GPU 메모리에 맞게 조절)
--include mean 평균 풀링 임베딩 사용
--concatenate_dir output/plm/esm/ 결합된 결과 저장 디렉토리

첫 실행 시 모델 다운로드

첫 실행 시 ESM-2 모델을 자동으로 다운로드합니다. 15B 모델은 크기가 크므로 시간이 걸릴 수 있습니다.

GPU 메모리 부족 시

CUDA out of memory 에러가 나면 --toks_per_batch 값을 줄이세요:

# 512 → 256 → 128 순서로 줄여봅니다
--toks_per_batch 256

출력 확인

ls output/plm/esm/

brenan.csv 파일이 생성되었는지 확인합니다.

다음 단계

EVOLVEpro 실행 →