EvolvePro Workshop¶
AI 기반 단백질 진화 최적화 도구 EvolvePro를 사용하기 위한 핸즈온 가이드입니다.
EvolvePro란?¶
EvolvePro는 Protein Language Model(PLM) 임베딩과 Active Learning을 결합하여 단백질을 최적화하는 도구입니다.
- 단백질 서열에서 PLM 임베딩을 추출
- Random Forest 회귀 모델로 활성을 예측
- 라운드당 10개 데이터포인트로 반복 학습
- 다목적 최적화 가능 (활성, 안정성 등)
기존 방법이 수천 개의 변이체를 스크리닝해야 했다면, EvolvePro는 수십 개로 최적 변이체에 도달합니다.
Jiang et al., "Rapid in silico directed evolution by a protein language model with EVOLVEpro", Science (2024)
워크플로우¶
| 단계 | 설명 |
|---|---|
| Process | 변이체 서열과 활성 데이터를 FASTA/CSV로 정리 |
| PLM | ESM-2 등 언어 모델로 임베딩 벡터 추출 (GPU 필요) |
| EVOLVEpro | Random Forest로 활성 예측 → 다음 라운드 변이체 선택 |
| Plot | 결과 시각화 및 최적 변이체 분석 |
사전 준비물¶
| 항목 | 설명 |
|---|---|
| 컴퓨터 | Windows, macOS, 또는 Linux |
| 인터넷 | 서버 접속에 필요 |
| 관리자 연락처 | SSH 계정 발급 요청용 |
진행 순서¶
- WSL2 설치 (Windows 사용자만)
- SSH 설정
- 서버 환경 확인
- EvolvePro 설치
- 데이터 준비
- PLM 임베딩 추출
- EVOLVEpro 실행
- 결과 시각화
문제가 생기면 트러블슈팅을 참고하세요.