Microarray gene expression data를 이용한 disease classifier 연구는 microarray 연구 초창기 부터 많은 연구자들이 연구해왔던 topic이다. 최근에는 기존의 gene based classifier 에서 탈피, pathway based classifier 로 진화하여 gene based 방법에 비해 좀 더 견고하고 정확도 높은 classifier 구축이 가능해졌다.
이 분야 선도 그룹은 UCSD의 Trey Ideker 그룹으로 KAIST의 이도헌 교수 연구실과 공동 연구를 통해 최근 2편의 pathway based classifier 논문을 출판하였다. ( Mole. Syst. Biol. , 3, 140 , Plos Comput. Biol. , 4, e1000217 )
기본적으로 이러한 Pathway 기반 disease classifier 연구의 정확도가 상대적으로 높은 이유는 single gene 레벨의 높은 발현 variation 이 pathway level 의 발현도로 summarize 되면서 상대적으로 발현의 variation이 낮아지기 때문인 것으로 판단된다.
예를 들어 Pathway A의 유전자 5개에서의 발현도가 각각
a1=10,a2=15,a3=30,a4=20,a5=50
이라 한다면 이 Pathway A의 평균 발현도는 25가 된다.
다른 실험에서 이 pathway A의 유전자 5개의 발현도가
a1=20,a2=30,a3=50,a4=30,a5=10
이라 한다면 이 실험 환경에서 pathway A의 평균 발현도는 28로 이전의 실험환경에서 얻어진 pathway 평균 발현도와 유사한 값을 나타내지만, 각각의 유전자 발현의 차이를 계산하면,
발현도 95( Euclidian distance )의 차이를 나타낸다.
오늘 Plos ONE 에 Pathway 기반 classifier 의 정확도를 향상시킨 논문이 출판되었다. ( Plos ONE, 4, e8161 ) 이 논문이 개선한 기존의 Pathway 기반 모델의 문제점은 Pathway 레벨의 발현도를 계산할 때, 하나의 Pathway에 속한 모든 유전자들의 발현도를 평균을 내어, Pathway에 속한 특정 유전자와 특정 phenotype 과의 관계를 정확히 반영하지 못한다는 점이다.
어떤 유전자는 특정 phenotype과 positive correlation 관계를, 어떤 유전자는 negative correlation 관계를 가질 수 있는데 Pathway 레벨로 모든 유전자들의 발현도가 평균되면
이러한 개개의 유전자와 phenotype의 관계가 사라져버리고, 전체 pathway 발현과
phenotype과의 관계만이 존재하게 된다. 물론 이렇게 되면서 개개의 유전자들의 발현 variation이 낮아져 상대적으로 안정적이고 재현도 높은 pathway 레벨의 feature가 생성되어 유전자 기반 모델보다 우수한 classification 정확도를 높이게 된 결정적인 원인이기도 하지만 말이다.
논문에서는 이런 문제점을 해결하고자 Pathway level의 발현도로 개개의 유전자 발현도를 summarize 할 때, 각 phenotype 그룹의 유전자 분포를 이용하여 특정 유전자의 서로 다른 두 phenotype 간의 PDF ( Probability Density Function ) 의 차이를 Log ratio 로 계산하여 각 유전자의 두 phenotype 간 발현도의 상대적 분포의 차를 구하여, 전체 pathway 의 phenotype discrimination score 를 구한다. Phenotype discrimination score 의 순위로 top feature 를 선정하고, 이를 바탕으로 phenotype classification 을 수행하게 되는데, 이 과정은 여타의 방법과 큰 차이가 없다.
여타의 Pathway classifier 와 비교하면 새로운 pathway scoring 방법이 우수한 성능을 보이는데, 정확도의 향상은 모든 test에서 5% 이하로 미미하긴 하나, 모든 test 에서 기존의 모든 방법론보다 우수한 결과를 나타내었다는 것은 유전자 context 기반 pathway scoring 이 기존의 pathway averaging 에 비해 pathway 기반 classifier 의 feature selection 방법으로 우수하다는 것을 보여준다 할 수 있다.
Mainly on Personal Genome Industry, Preventable Medicine, Mobile healthcare tech, and Bioinformatics.
Monday, December 7, 2009
Sunday, December 6, 2009
Cross-ID mapping 문제 해결? BioGSP
Web address : http://biogps.gnf.org/
Bioinformatics 연구에서 다양한 소스의 데이터를 통합해야 하는 경우가
빈번하다. 유전자 이름만 해도 NCBI 내에서만 Gene ID, Entrez ID, Genbank ID
등등 다양하고, 기관 마다 차이가 존재하기 때문에, 이러한 다양한 기관의
ID 들 간의 cross-mapping 은 필수적이다.
그러나 매번 같은 소소의 정보를 이용하지 않는 경우가 많다보니, 매번 서로다른
기관들의 ID 매핑이 어려운 과정은 아니지만 반복되어 짜증을 유발하는 경우가
많다.
이번에 Genome Biology 에 소개된 ( http://genomebiology.com/2009/10/11/R130 )
BioGPS 는 이러한 cross-mapping 문제 해결을 위한 web-server 다.
BioGPS 에서 커버하는 ID 소스는
* Gene symbol ( from various institution )
* GO
* Interpro
* Affymetrix ID
등이고, primary ID mapping 파일을 다운로드 받을 수 있게 제공하고 있다.
Bioinformatics 연구에서 다양한 소스의 데이터를 통합해야 하는 경우가
빈번하다. 유전자 이름만 해도 NCBI 내에서만 Gene ID, Entrez ID, Genbank ID
등등 다양하고, 기관 마다 차이가 존재하기 때문에, 이러한 다양한 기관의
ID 들 간의 cross-mapping 은 필수적이다.
그러나 매번 같은 소소의 정보를 이용하지 않는 경우가 많다보니, 매번 서로다른
기관들의 ID 매핑이 어려운 과정은 아니지만 반복되어 짜증을 유발하는 경우가
많다.
이번에 Genome Biology 에 소개된 ( http://genomebiology.com/2009/10/11/R130 )
BioGPS 는 이러한 cross-mapping 문제 해결을 위한 web-server 다.
BioGPS 에서 커버하는 ID 소스는
* Gene symbol ( from various institution )
* GO
* Interpro
* Affymetrix ID
등이고, primary ID mapping 파일을 다운로드 받을 수 있게 제공하고 있다.
Subscribe to:
Posts (Atom)