EVOLVEpro 실행¶

DMS(Deep Mutational Scanning) 워크플로우로 모델을 학습하고 최적 변이체를 예측합니다. 이 단계에서는 evolvepro conda 환경을 사용합니다.

실행¶

conda activate evolvepro
cd /workspace/$USER/EvolvePro

python scripts/dms/dms_main.py \
  --dataset_name brenan \
  --experiment_name workshop_test \
  --model_name esm2_t48_15B_UR50D \
  --embeddings_path output/plm/esm/brenan.csv \
  --labels_path data/dms/brenan/brenan.csv \
  --num_simulations 3 \
  --num_iterations 5 \
  --measured_var activity \
  --learning_strategies topn \
  --num_mutants_per_round 10 \
  --num_final_round_mutants 50 \
  --regression_types randomforest \
  --output_dir output/dms/workshop_test

주요 파라미터¶

파라미터	값	설명
`--num_simulations`	3	반복 실험 횟수 (통계적 안정성)
`--num_iterations`	5	Active learning 라운드 수
`--num_mutants_per_round`	10	라운드당 선택할 변이체 수
`--num_final_round_mutants`	50	마지막 라운드에서 예측할 변이체 수
`--learning_strategies`	topn	변이체 선택 전략
`--regression_types`	randomforest	회귀 모델 종류

학습 전략 옵션¶

어떤 변이체를 다음 라운드에 선택할 것인가?

전략	설명	특성
`random`	무작위 선택	기준선 비교용
`topn`	예측 상위 N개 선택	활용(exploitation) 중심
`topn2bottomn2`	상위/하위 각 N/2개 선택	탐색+활용 균형
`dist`	다양성 기반 선택	탐색(exploration) 중심

회귀 모델 옵션¶

모델	설명
`randomforest`	Random Forest (기본, 권장)
`ridge`	Ridge 회귀
`lasso`	Lasso 회귀
`gradientboosting`	Gradient Boosting
`knn`	K-Nearest Neighbors
`gp`	Gaussian Process

출력 확인¶

ls output/dms/workshop_test/

다음 단계¶

결과 시각화 →