Wednesday, January 9, 2008

Integrating gene expression data with other biological data

Microarray data 를 이용한 연구가 많이 이뤄져왔고, 이루어지고 있지만, 기술적인 한계 or 생물학적 시스템의 불안정성으로 인해 각 데이터 간의 재연성이 높지 않고, 따라서 신뢰도가 떨어지는 실정이다. 생물학 시스템이 정확히 하나의 expression pattern 그대로 있는 시간은 얼마나 될까? Microarray 실험을 하기 위한 sample을 얻는 시간을 컨트롤하여 정확하게 같은 expression pattern을 재연할 수 있을까?

똑같은 Pancreatic cancer cell에 대한 expression pattern도 cell을 둘러싼 환경에 따라, 시간에 따라 달라진다. 서로 다른 환자에게서 추출된 cancer cell 간의 pattern 이라면 영향을 끼치는 factor들은 더욱 많아지게 된다. Gene expression pattern의 재연성이 떨어지는 것은 이러한 정황을 고려해 볼 때 당연한 결과인지 모른다.

Expression pattern을 통해 목적하는 일 중 대부분이 Biomarker selection 이다. Lung cancer를 일으키는 gene은? Diabetis를 일으키는 gene은? 이런 식으로 찾아낸 gene을 가지고 drug target을 삼고, drug discovery에 돌입하는 traditional research paradigm 이 궁극적인 목적이 된다.

그러나 아이러니하게 gene expression data는 오히려 이런 old paradigm 보다는, 전체적인 expression 양상, 단일한 gene이 아닌 전체적인 gene들의 발현 양상이 서로 어떻게 연관되어 있는지를 연구할 수 있는 new paradigm에 적합하다.

Protein interaction, gene interaction, coexpression analysis 등과의 접목을 통해 expression data를 1차원에서 2차원, 3차원으로 높여 분석할 때, 이런 Global, Local gene expression pattern 뒤에 감춰진 의미를 더욱 잘 이해할 수 있을 것이다.