Machine Learning for Bioinformatics 1 Topics in Bioinformatics Sequence analysis Sequence alignment Structure and function prediction Gene finding Structure analysis Protein structure comparison Protein structure prediction RNA structure modeling Expression analysis Gene expression analysis Gene clustering Pathway analysis Metabolic pathway Regulatory networks 2 Sequence Alignment Bio-sequence의 유사성을 측정 Sequence alignment는 bioinformatics의 여러 분 야에서 널리 사용되는 개념 3 Sequence Alignment의 응용 Database 검색 Sequence가 유사한 gene은 기능도 유사할 확률이 높음 새로 밝혀낸 gene이 어떤 기능을 하는지 알아내기 위해서 이미 기능이 밝혀진 gene들이 저장되어 있는 database에서 유사한 sequence를 갖는 gene을 검색할 필요가 있음 Genome sequencing Overlap이 있는 sequence 조각들로부터 긴 sequence를 재조합 할 때 sequence alignment를 이용함 Comparative genomics 실험이 용이한 하등 동물의 정보를 이용하여 고등 동물의 gene 을 밝혀냄 예: 인간과 쥐의 gene은 매우 유사함 실험을 통해 쥐의 gene 들의 기능을 밝힘 기능이 밝혀진 쥐의 gene의 서열과 유사 한 인간의 서열을 찾으면 이 부분이 같은 기능을 하는 인간의 gene일 가능성이 높음 4 Sequence Alignment의 응용 Gene finding 인간과 쥐의 exon 부분의 유사도는 평균 85%이지만 intron 부 분의 평균 35% 정도임 인간과 쥐의 genome sequence에서 유사도가 높은 부분을 찾으 면, 이 부분은 exon일 확률이 크다. 단백질의 기능, 구조 예측 아미노산 sequence가 유사하면 단백질의 기능, 3차원 구조도 유사할 가능성이 높음 단백질 아미노산 sequence를 새로 밝혀냈을 때, 유사한 아미노 산 sequence를 갖는 단백질을 찾아 단백질의 기능, 3차원 구조 를 예측할 수 있음. 5 Global Alignment Global distance alignment problem: 두 sequence 사이의 distance의 최소값을 찾는 문제 Global similarity alignment problem: 두 sequence 사이의 similarity의 최대값을 찾는 문제 참고: edit distance 하나의 string을 다른 string으로 바꾸는데 필요한 insertion, deletion, substitution 연산의 수 str1: G C T G A T A T A G C T Edit distance = 3 str2: G G G T G A T T A G C T 6 Local Alignment Local alignment 두 sequence 사이에 similarity가 가장 높은 부분을 찾는 문제 Multiple alignment Sequence alignment algorithms Smith-Waterman algorithm FASTA BLAST 7 Genetic Algorithms: Representation For sequence assembly The sorted order representation 1 Individual 2 3 4 5 1110 | 0010 | 1001 | 1011 | 0011 | 0011 Decimal Number 14 2 9 6 11 Sort Order 5 1 3 2 4 Intermedia te Layout 2 4 3 5 1 Final Layout 3 5 1 2 4 3 starting position Operators A simple swap operation as the mutation operator Permutation crossover Transposition operator Inversion operator 8 Structure and Function Prediction Protein structure prediction Protein modeling 9 Hidden Markov Models for Protein Modeling 10 Gene Finding Prokaryotes One continuous stretch Eukaryotes Exon, intron 11 Coding and Non-coding Regions DNA RNA Protein DNA Non-coding region AUG TAA Regulatory region Non-coding region Protein coding region DNA GENE promoter, start(stop) codon, splice site(donor site, acceptor site) 12 Multilayer Perceptrons for Internal Exon Prediction: GRAIL Coding potential value GC Composition bases Length Donor Discrete exon score Acceptor Intron vocabulary 1 score 0 sequence 13 Decision Trees for Gene Finding MORGAN: A decision tree system for gene finding. Coding and non-coding regions finding/exon finding donor: donor site score by Markov Chains yes no d+a: donor and acceptor d+a<1.3? d+a<5.3? site score (6,560) hex<16.3? hex<0.1? hex<-5.6? hex: in-frame hexamer freq. (9,49) (18,160) (142,73) asym<4.6? (737,50) asym: Fickett’s donor<0.0? position assy(24,13) (1,5) metry statistic (5,21) (23,16) d+a<3.4? 14 Gene Expression Analysis (Section 1-2) Gene expression Transcription과 translation 과정을 통하여 gene이 protein으로 발 현되는 것 Gene expression level은 gene의 기능에 대한 단서를 제공 DNA chip을 통해 세포의 gene expression level을 효율적 으로 알아낼 수 있음 Gene expression analysis 과정 알려진 gene sequence를 이용하여 DNA chip을 제작 Target 세포에서 mRNA를 추출하여 cDNA를 만들고 DNA chip 에 가하면 hybridization이 일어남 Hybridization이 일어난 정도를 분석하면 gene expression 정도를 알 수 있음 15 Gene Expression Analysis cDNA Microarray 16 17 18 Disease Diagnosis: Bayesian Networks Based on Gene Expression Levels Learning Gene C Processed data Data Learning algorithm Gene B Gene D Gene A Preprocessing Target Inference Gene C Gene D Gene B Gene A Target The values of Gene C and Gene B are given. Gene C Gene D Gene B Gene A Target Belief propagation Gene C Gene D Gene B Gene A Target Probability for the target is computed. 19 Disease Diagnosis: Cancer Classification with DNA Microarray 20
© Copyright 2026 Paperzz