Sunday, April 7, 2013

지금 BT에 필요한 IT 기술이란?

아래 내용은 GMIG( Genomic Medicine Interest Group ) 2회 모임 후 관련 내용을 멤버들과 share한 내용으로, 내용의 변경 없이 그대로 여기에 남깁니다.
-------------------------------------------------------------------------------------

2회 모임의 내용 중에 제(금창원)가 지적하고 싶었던 내용이 하나더 있는데, 그것은 바로 IT에 대한 '환상'의 경계 입니다. 박재범 대표님의 발표를 보면서 그런 생각이 들었는데, 재범 대표님의 발표에서 중요하게 받아들여야 할 것은 IT의 영역 중 '소비자 중심의 UX / UI 와 관련한 부분'들로 BT에 적용되지 않았던 '일반 대중'을 대상으로 접근성이 높고, 지속가능한 유용성을 꾸준히 제공하는 IT application이 필요하다는 점 이라고 봅니다.

이런 부분은 인류 역사상 BT에 거의 접목이 된 적이 없는 부분에 가깝다 봅니다. 근접하는 성공으로 한국인 정세주 대표가 뉴욕에서 창업한 Noom의 다이어트앱 정도를 들 수 있을 것 같습니다. ( 최초엔 running trajectory tracing과 칼로리 소모량 기록용 개인 data log 앱이었으나, 발전하여 지금은 식습관 등이 포함되어 살빼는 목적을 실현시켜주는 앱이 되었고 전세계 user가 1500만명이 넘습니다. )

이런 식의 접근이 Genetics에도 시도가 되어 나가면 엄청난 혁신이 있을거라는 것을 GMIG 참여자 분들이라면 충분히 이해하시리라 생각 합니다.

하지만, Genomics의 연구 관점에서 보자면 이미 최첨단의 IT 기술들이 충분히 적용되고 있고, 경우에 따라서는 BT inspired IT 기술이 IT의 최첨단 기술이 되고 있습니다.

당장 현재 IT 최대 화도 cloud 컴퓨팅만 해도 유전체 데이터 분석이 major application domain으로 활발하게 연구 개발이 되고 있죠( KT에서 GenomeCloud를 베타 테스트 중입니다)

재범 대표님의 발표에서 구글의 Pagerank 알고리즘이 적용된 Gene priotization 연구를 언급하셨는데, 이런 연구는 gene expression 연구 초창기인 2000년대 초반 부터 minor 저널에 심심하면 한번씩 출판되던 내용입니다. 그냥 구글 서치해보면 2005년 논문이 상위에 뜨네요. 왜 이런 논문이 minor 저널에 출판되냐 하면, 당연히 value가 낮기 때문입니다.

즉, 이런 알고리즘을 적용하는 것은 fancy한 접근일 수는 있지만, '문제 해결'은 되지 않기 때문입니다. 기존의 방법론 보다 더 나은 해결책을 제시해 주지도 못하는데 그 이유는 간략하게 생물체의 variation은 엄청나기 때문이라는 것 정도만 여기에 언급해 둡니다. Gene expression과 관련해선 FDA의 MAQC( Microarray Quality Control ) 컨소시움의 연구를 통해 이런 점들이 이미 충분히 지적이 되었습니다.

(MAQC 내용을 정리한 제 블로그 글http://goldbio.blogspot.kr/2011/03/20.html )

MAQC는 당시 가능한 모든 통계적 분석법과 machine learning 알고리즘을 gene expression 분석에 적용해 보고, 가장 consistent하고 재현성 높은 분석 기준을 찾는 것을 목적으로 미국의 51개 major 유전체 연구기관이 참여한 대규모 study 였습니다.

기대는 뭔가 첨단의 hign-end 방법론이 best 일거라 기대했지만, 그 예상은 처참히 무너집니다. 최고는 초창기 부터 일반적으로 써왔던 fold change ( 그냥 단순히 case-control의 비율) 과 가장 간단한 t-test를 적절히 혼용하는 것이었죠.

재범 대표 님이 발표한 내용 중 network analysis 와 관련된 내용도 있었는데, network analysis 는 네트웍 분석이 바라바시에 의해 중요하게 부각된 초창기 부터 BT가 major application domain 으로 2000년대 초반부터 BT 특히나 bioinformatics에서는 일상적으로 다루어져 오고 있습니다. 바라바시가 쓴 그 유명한 저서 'Linked'에도 현재 테라젠의 박종화 연구소장님의 단백질 구조 도메인의 네트웍 연구가 소개되어 있을 정도 입니다.

심지어 network visualization 소프트웨어 중 최고로 인정되는 것이 바로 요즘 생물학 연구실에서 한명 쯤은 쓰고 있는 cytoscape라는 오픈 소스 소프트웨어 입니다. ( 이는 리로이 후드가 이끄는 ISB 에서 개발한 소프트웨어 )

사실 BT의 연구 측면에서만 보자면 IT 적 시각을 가진 사람들( bioinformatician )이 해야하는 역할은 새로운 시각으로 문제 해결의 새로운 가능성을 여는 일이라 봅니다. ( 이에 대해서도 일전에 정리해 둔 글을 참고로 링크 합니다http://goldbio.blogspot.kr/2011/02/blog-post.html )

Broad나 Sanger 연구소가 유전체 연구의 최고로 인정받는 이면에는 바로 이런 역할을 하는 사람들이 directing board로 참여하면서 연구의 혁신을 이끌기 때문입니다. ( sanger의 리차드 더빈, 팀 허바드 broad의 토드 골럽 등) 국외 뿐만 아니라, 국내에서도 유전체 연구를 선도하는 테라젠이나 서정선 교수님이 이끄는 서울대유전체연소(GMI) 등도 훌륭한 bioinformatician( 혹은 cross-functional researcher ) 들의 존재 때문에 선구적인 연구들을 진행할 수 있다고 봅니다.

글이 길어졌는데, 정리해 보면, IT의 UX/UI 기술들이 접목이 되어야 결국 진정한 personal genomics로 갈 수 있고, 대중화될 수 있다는 점. 하지만 연구자의 입장에서는 이미 충분히 첨단의 IT 기술이 적용되고 있고, 필요한 내용들은 대부분 쉽게 사용할 수 있는 application들이 존재하니, 활용을 하고, IT 기술에 대한 환상을 가질 필요는 없다는 점, 그리고 fancy한 기술 보다는 어떤 문제를 해결하는데 새로운, 참신한 idea를 간단한 IT 기법들로, crude한 상태라도 적용해보는 것이 중요할 수 있다는 아이디어들을 나누고 싶었습니다