Home

1E 군집 찾기 문제

개요 이전 장의 결과로부터 우리가 찾은 frequent pattern ATGATCAAG는 그 위치가 군집을 이룬다는 발견 을 했다. 이 결과에 이어, 이번 장에서는 pattern이 정말 군집을 이루는지 정량적으로 분석하도록 하였다. 군집을 이룬다는 것을 어떻게 정의할 수 있을까? 직관적으로, 특정 문자열 pattern이 전체 유전체에서 등장하는 “밀도”가 높을 때 군집을 형성한다고 생각할 수 있다. 일반적으로 밀도는 단위 부피 당 질량을 의미하며, 다음과 같이 정의된다. $\rho = w / V$ $(where\,\rho:\,density,\,w:\,weight,\,V:\,volume ...

Read more

1D 패턴 일치 문제

개요 이전 1C 역상보 문제의 결과에서 우리는 Vibrio cholerae 의 가장 빈번한 상위 4 종류의 서열 중 ATGATCAAG와 CTTGATCAT가 서로 상보적 관계에 있음을 알 수 있었다. 이 결과는 DnaA box를 찾았다는 결론을 뒷받침하는 근거로 여겨질 수 있을까? 이전 장에서 찾은 위의 결과는 유전체의 처음부터 끝까지 전체 영역에서 등장하는 Pattern이었다. 즉, 우리가 찾은 결과는 분포에 대한 정보를 포함하지 않는다. 따라서 결과 pattern들은 유전체 상에서 고르게 분포 되어있을 수 있다. 이것이 왜 중요할까? 다음의 그림을 통해, 유전체의 복제가 어떻게 진행되는지 그 양상을 확인할 ...

Read more

1C 역상보 문제

개요 핵산의 방향성 핵산(nucleic acid) 는 인산-당-염기 라는 하나의 단위가 뉴클레오타이드(nucleotide) 를 이루며, 이러한 뉴클레오타이드가 여러 개 모여서 형성된 것이다. Fig 1. The Structure of the Nucleotide 즉, nucleotide는 당 분자에 의해 인산과 염기가 연결된다. 이러한 당의 종류로 Ribose 또는 Deoxyribose가 있는데, 이들은 각각 RNA 또는 DNA의 nucleotide를 구성한다. 이 두 종류의 당은 5개의 탄소 원자로 구성되어 5탄당이라 하는데, 다음과 같이 각각의 탄소에 1번부터 5번까지의 번호를...

Read more

1B 빈번한 단어 문제

개요 앞선 문제에서는 입력된 pattern이 얼마나 등장하는지, 즉, Pattern → count 였다면, 이번에는 pattern에 대한 조건을 다루어 볼 수 있다. 즉, 원하는 길이의 Pattern 중 가장 많이 등장하는 k-mer를 찾을 수 있다. 앞선 목표: Pattern → count 이번 목표: k → Pattern Brute-Force를 통해 알고리즘을 수행하면, 이전에 구현한 PatternCount를 이용해, 다음과 같은 아이디어를 이용할 수 있다. 문자열의 모든 문자 하나하나를 시작점으로 하는 k-mer pattern 에 대해 주어진 입력 문자 text를 PatternCoun...

Read more

1A 단어 세기

개요 앞서 단백질의 특이성(specificity)에 대해 이야기하였다. 세포 내에서 일어나는 이러한 단백질의 특이성은 마치 단백질에 눈이 달린 것 처럼 작동한다고 생각하기 쉽지만, 단백질의 특이성 또한 결국 물리화학적 법칙을 따르는 분자의 운동에 불과하다. 즉, 단백질 분자가 외부 계의 물리적 힘 - 특히 열 - 에 의해 진동하거나 부유하는 brownian motion을 통해 돌아다니다가, 적절한 DNA 서열과 유효충돌이 일어나야 상호작용이 일어나는 것이다. 따라서, 우리는 다음과 같은 가설을 세울 수 있다. 1. DnaA box가 많을수록 DnaA protein과의 유효충돌 횟수가 커진다. 2....

Read more

Bioinformatics Algorithm - Table of Contents

목차 Chapter 1. DNA 복제는 유전체의 어디서부터 시작되는가? 서론 Introduction 본문 단어 세기 빈번한 단어 문제 역상보 문제 패턴 일치 문제 군집 찾기 문제 최소 비대칭 문제 해밍 거리 문제 대략적인 패턴 일치 문제 미스매치가 있는 빈번한 단어 문제 미스매치와 역상보의 빈번한 단어 문제 에필로그 도전문제: Salmonella enterica의 DnaA box 고세균에서 복제 기점 찾기 충전소 빈도 배열 패턴과 숫자를 서로 변환하기 정렬을 사용해 빈번한 단어 찾기 군집 찾기 문제 해결 미스매치를 포함한 자주 나오는...

Read more

Chapter 1. Introduction

“DNA 복제는 유전체의 어디서부터 시작되는가?” 개요 이 장에서는 유전체의 복제 과정이 시작되는 ori (Origin of Replication)을 간단한 예시를 통해 찾는 방법과 알고리즘을 학습한다. 이러한 단순한 경우로서 ori 를 찾기 위한 다음의 몇가지 단서들을 이용해 유전체에서 해당 조건을 만족하는 motif 서열(책에서는 pattern, k-mer)을 탐색하였다. 유전체에서 얼마나 자주 등장하는가? 자주 등장한다면, 그 pattern의 reverse complement 등장 횟수도 높은 빈도로 등장하는가? 유전체의 일정 영역에서 빈도수가 높은가?(즉, 밀도있게 등장하는가?; loca...

Read more