Saturday, August 2, 2014

Genome 정보 산업에 필요한 인프라 :: Reference, Cloud, Translate, API and GUI

에디슨이 전구를 발명하고, 사업화 하려고 했을 때 가장 우선적으로 해야할 일이 무엇이었을까?  전구를 시장에 내놓고 판매하기 위해선, 전구를 사용할 전기를 가정에 공급할 수 있는 발전소와 송전 시설 가설이 우선시 되어야 했었다.


Genome을 $1000에 읽을 수 있는 시대가 되었지만, 지금 당장 자신의 Genome 서열을 $1000 주고 읽어 data file 로 받는다고 해도 일반 소비자 입장에서 당장 이를 가지고 할 수 있는 일은 거의 없다. 

Genome 산업도 Genome을 제대로 활용하게 만들어주는 인프라가 필요하다. 

1. Reference genome data house 
전구가 발전소( Power house)의 전기를 빌려 빛을 발하듯, 개인의 Genome을 제대로 활용하기 위해선 개인의 Genome을 타인의 reference Genome set과 비교 분석할 수 있는 Reference genome data house 가 필요하다.  

전구는 발전소 전력의 극미량만 있어도 제역할을 할 수 있지만, 하나의 Genome이 제 역할을 하기 위해선 Data house 전체의 규모의 역량을 필요로 한다. 1000개 genome을 쌓아둔 data house 보단 10,000개 genome을 쌓아둔 data house에 기반한 경우가 월등히 우세한 Genome 분석 역량을 가져다 준다. 

현재 1000 genome project 등을 통해 Public reference genome이 꾸준히 축적되어 무료로 공개되고 있지만, 이 정도의 규모와 속도는 Genome 산업을 획기적으로 진작 시켜주기엔 턱없이 부족하다. 
CEO of Human Longevity, Craig Venter 


Celera genomics를 설립해 HGP를 최초로 완성했던 Craig Venter 는 최근에 Human Longevity 라는 회사를 설립해 Private 영역에서 reference genome 을 쌓는 규모와 속도를 획기적으로 끌어올리는 시도를 하고 있다.  연간 10만명 이상의 genome을 가능한한 모든 측정 가능한 생체 지표들과 함께 DB화 하는 시도를 해 나갈 예정인데, 최종적으로 2020년 이전에 100만명의 genome을 쌓는 것을 목표로 한다. 
23andme의 계획을 방송에서 설명 중인 Ann Wojcicki 

23andme는 2014년 7월 현재까지 70만 고객들의 Genome 정보를 DB화 했다. Venter의 시도가 전체 Genome  정보를 읽는데 반해, 23andme는 30억 개 중 100만개의 SNP 만 SNP chip으로 읽어 고객에 서비스 한다. 전체 Genome을 읽는데 비해 추후 이 data house의 파워는 미약하겠지만, 23andme CEO Ann Wojcicki 가 이야기 하듯 100만명의 상징적인 숫자의 genome은 genome 정보 산업의 tipping point 가 되어 다양한 산업화를 이끌어 낼 수 있는 가능성을 열어 줄 수 있다고 본다. 23andme의 100만 genome 확보는 추세상 내년(2015년) 중후반이 될 공산이 큰데, 이는 Venter의 계획 보다 5년 앞선다. 



2. Cloud computing backup   
두번째 필요한 인프라는 large scale genome을 저장하고, 비교, 분석을 수행할 수 있는 cloud computing 시스템. 사실 Cloud 인프라는 large scale 고객 data를 활용하는 Big IT player들이 이미 잘 구축하고 활용하고 있다. 대표적으로 Google, Amazon ,Facebook 등인데, 수억명의 고객의 data를 저장하고 이를 분석해 personalized target Ads, target suggestion 등으로 연결해 성공적인 사업을 해 나가고 있다. 

이미 이렇게 성공적인 Big data 운용을 하고 있다면, 자연히 이미 구축된 인프라가 필요한 또다른 영역에 눈독을 들이는 것이 정상. 이들 Big player들 중 Google은 십수개의 Genome 관련 startup 들을 인수 합병하고 최근에는 Google genomics라는 Genome 저장과 분석을 위한 API를 prototype으로 개발하며, Genome cloud service 시장에 발을 들여 놓고 있다. 

국내에서도 KT가 활발히, 소비자용 Genome cloud 서비스를 꾸준히 개선해 나가며 서비스 하고 있다. (  삼성 SDS는 서비스 종료. ) 


3. Genome analysis software  
Cloud computing environment가 Genome 인프라의 하드웨어라면, 이 하드웨어 위에서 효율적으로 필요한 정보를 분석해 내어 사용자들에게 가치있는 정보를 제공해주는 소프트웨어  역시 Genome 산업에 필요한 인프라로 꼽을 수 있다. 

위에서 언급한 Venter의 Human Longevity 는 최근 Google Translate(  구글 번역 ) 팀의 리더 였던 Franz Och 를 Top data scientist로 영입했다. 구글 번역 시스템은 잘 알다시피 구글이 crawling 해 축적한 엄청난 양의 웹문서들을 머신러닝으로 학습해 다른 언어와 mapping 해 번역하는 방식으로 기존의 번역 알고리즘들을 압도하는 성과를 확보했다. 즉, 주어진 번역 대상 text 가 query로 주어지면, 이미 방대하게 쌓인 text DB 를 학습한 결과를 바탕으로 다양한 언어로 번역을 해주는 방식이다.  
전 Google 번역 팀 리딩 개발자 Franz Och ,
현재 Craig Venter의 Human Longevity 의 Lead data scientist 
이는 주어진 분석 대상 Genome이 query로 주어졌을 때, 방대한 Genome reference DB를 활용해  Genome의 '의미'로 번역하려는 작금의 Genome 분석 문제와 매우 유사하다. Human longevity는 Franz Och가 구글 번역에서 개발한 '번역' 기법을 도입해 방대한 Genome refrence DB를 학습시키고, 이를 바탕으로 주어진 고객의 Genome을 분석( 번역 )해 내는 효율적인 시스템의 개발을 준비하고 있다. 

SolveBio라는 뉴욕의 스타트업은 Genome 분석에 필요한 다양한 Public reference DB들을 REST API로 간편하게 접근해 사용할 수 있는 리소스를 개발해 제공할 계획이다. 실제 Genome 분석을 담당하는 과학자, 엔지니어 입장에서는 시시 때때로 업데이트 되고, 포맷이 변경되는 수십가지의 Public DB들을 일일이 Localize 하는 작업에 엄청난 시간과 노력을 소모하게 되는데, 이를 간편히 REST API로 접근해 사용할 수 있다면 개발자는 실제 중요한 로직에 집중해 문제를 해결해 나가는데 더 자원을 할당할 수 있게 되기에, Genome 산업화에 필요한 좋은 인프라가 될 수 있을거라 본다.

다양한 Domain에 Genome이 통합되고 활용될 수 있도록 하는 다양한 API library들의 속속 개발되어 나올 것이고, Genome 보급이 tipping point를 넘어서는 시점이 되면 이런 소프트웨어 역량을 갖춘 기업들이 Genome 산업의 중심으로 성장해 나갈 수 있을거라 본다. 

지금 당장 Genome 소프트웨어 개발은 시장성을 담보할 수 없기 때문에, Genome software  제품으로 startup 창업은 쉽지 않은 시간을 견뎌 나가야 할 공산이 크다. 이런 상황에선 오픈소스 프로젝트로 다양한 Genome appliation library들을 개발해 나가며 미래를 준비해 나가는 것도 좋은 시도가 되지 않을까 생각해 본다. 

소프트웨어 인프라에 한가지 덧붙여 보면, 흔히 간과되는  'Genome  GUI' 를 꼽고 싶다. (주)Geference를 시작하고, 소비자용 제품을 개발해 보며 느낀 부분은 연구자에겐 너무나 당연한 Genome 정보를 기반 지식이 없는 일반 소비자에게 전달하기 매우 어렵다는 점이다.  Genome을 어떤 형태의 text, graphic 으로 전달하면 누구나 쉽게 한눈에 알아볼 수 있을까?  내 30억개 전체 Genome이 내 친구의 Genome과 얼마나 비슷하고, 어떤 부분이 다른지 한눈에 쉽게 알아볼 수 있는 멋진 Graphics, 전체 Genome을 필요한 장기들과 mapping을 해 질병 위험도를 쉽게 알아볼 수 있게 할 수 있는 Graphics ,  내 Genome이 얼마나 unique 한지를 멋지게 표현해 주는 Graphics, 내가 강조하고 싶은 Genome 영역을 멋지게 Graphics로 변환해 주는 엔진 등등등, Genome GUI 또한 Genome 산업이  소비자와 부닥치는 접점에선 매우 중요한 역할을 할 기반 소프트웨어 인프라가 되리라 생각한다. 

이상 정리한 내용 외에도 Genome 산업을 위한 인프라들이 많겠지만, 생각나는 것들을 간략히 정리하고 마무리!