Friday, March 6, 2015

From $1000 genome to 1 million genomes :: 장비 전쟁에서 Data 전쟁으로

$1,000 genome 경쟁은 끝났다

Human Genome Project 의 draft 버전 완성, 그 후로 15년. Genome의 대중화/일상화를 상징적으로 대변하던 $1,000 genome 을 향한, 불가능할 것 같았던 경쟁은 누구도 예상하지 못한, 인류 역사상 가장 빠른 속도의 기술 혁신을 거듭하던 끝에, 최초의 NGS sequencer 인 454 life science의 GS20 sequencer 가 2005년 출시된지 9년만에 Illumina HiSeqX10 의 출시와 함께 현실이 되었다.






최초의 Next generation sequencer 인 454 life science의  GS20 sequencer
$1000 genome을 현실화한 Illumina의 HiSeqX sequencer 


$1000 genome 이란 목표가 달성 되었지만, Genome sequencer 혁명이 끝난 것은 아니다. Short read sequencer 는 여전히 Genome 분석을 위해 필요충분한 sequencing 정보를 제공하는 것이 아니고, 다양한 용도의 Genome 활용/보급의 일반화를 위해서는 $100 genome 을 기치로 내걸고 Sequencer 의 혁신을 이뤄내야 한다. 이와 관련해 Human longevity Inc. 의 크레이그 벤터는 지금까지의 Sequencer 혁신의 속도를 고려하면 3-4년 안에 $30 genome이 가능할거라고 예측하고 있다.

Genome sequencer 혁명이 앞으로도 꾸준히 진행되겠지만, 한 사람의 Whole genome reading 비용이 $1000로 낮아졌다는 사실은 Genome industry 가 장비 경쟁 보다 훨~씬 더 중요한 새로운 경쟁 체제로 본격적으로 돌입하게 만들었다.



Big Genome Research 가 필요한 시점

Genome sequencing 비용이 혁명적으로 낮아지면서, 수많은 Genome 이 분석되고, Genome과 질병의 상관관계에 대해 수많은 정보와 지식이 축적되어왔다. 이런 정보/지식을 바탕으로 Genome sequencing 이 Diagnostics, Cancer genomics 를 중심으로 다양한 질병의 진단과 치료에 도입되기 시작했고, 동시에 이런 서비스를 제공하는 회사들의 창업이 활발하게 일어나고, 몇몇 회사들은 크게 성장하기 시작했다.

그러나, 지금까지와 같은 식의 Genome 연구로는 Genome 과 인간의 건강에 관한 종합적 이해를 하는데는 한계가 있고, 특히 Genome 과 개인의 식/생활습관의 조합이 빚어내는 복잡한 질병의 발병에 대한 정보/지식을 얻어낼 수가 없다.

이를 위해서는 수많은 개인의 Genome을 분석한 후, 이 개인들의 식/생활습관 그리고 다양한 medical exam 을 통해 얻어진 종합적 생체 정보들이 포괄된 cohort에 대한  다년간의 추적조사연구 ( Prospective study) 가 필요하다.

이런 연구가 완료된 후엔 어떤 일들이 가능할까?

- 특정 Genome을 가진 사람의 life pattern 에 따른 질병 발병 확률을 계산해 낼 수 있다.
 계산된 질병 발병 확률을 통해 개인은 자신의  life pattern을 안전한 방향으로 바꿀 수 있고, 개인은 실시간으로 이렇게 자신의 life pattern을 건강한 방향으로 움직여 생활하면서 질병의 발병을 막을 수 있다.

- 특정 질병에 걸린 사람들의 Genome 을 고려해 그 사람에게 특이적인 치료/처방이 가능하다.
 약국에 가서 약을 구매하면, 그 안에 동봉된 설명서에는 약의 복용으로 일어날 수 있는 '부작용'을 경고하는 내용을 확인할 수 있다. 왜 '부작용'이 일어날까? 개인의 특성을 고려하지 않고,  모든 사람이 동일한 약을 처방받기 때문이다. Genome 정보와 life pattern 이 고려되면, 특정한 환자에게  가장 안전한 처방/치료가 가능해 지고, 그 이후의 예후도 높은 확률로 예측할 수 있게 된다.

즉, 개인의 자발적(Participatory) Genome 정보와 life pattern 정보 축적으로 개인화( Personalized)된 치료/처방/질병예측이 가능해지고, 정밀하고 정확하게(Precision) 예측된 질병을 예방( Preventable)할 수 있게 된다. ( P4 medicine comes true!! )

Genome 을 통해 현재 전세계 인류가 필요로 하는 의료 혁명을 이루어 내기 위해 필요한 정보와 지식은 바로 이와 같은 Big genome prospective study 를 통해서만 얻어낼 수 있다.



1 million genome 경쟁 

노령화가 가속화되며 의료비가 기하급수적으로 증가하고 있는 전세계 모든 국가가 Genome을 통한 Preventable medicine의 현실화를 필요로 하고 있다. 이를 위해 선구적인 몇몇 국가의 정부들이 이를 위한 연구를 계획하고 투자를 시작했다.

그럼 대체 얼마나 많은 사람의 Genome이 필요할까? 100명? 1000명? 10,000명?
영국 정부는 2013년 10만명으로, (http://goldbio.blogspot.kr/2013/04/blog-post.html ) 미국의 오바마 정부는 2015년 새해 Precision medicine initiative를 통해 100만명 Genome 기반 prospective 연구로 이런 목표에 한걸음 다가가기로 결정했음을 발표했다.  ( http://www.forbes.com/sites/matthewherper/2015/01/30/obamas-precision-medicine-initiative-is-a-great-idea/ )
Precision medicine initiative 에서 Obama 대통령


각국 정부들만 이런 노력을 하고 있는게 아니다. DTC genomics 회사 23andme, Human longevity , ISB  ( Institute of System Biology ) 가 현재 같은 목표를 내걸고 박차를 가하는 중인데, 공교롭게 모두가 '100만명'이란 숫자를 선택했다.

 개인의 유전적 다양성 그리고 life pattern의 다양성 등을 포괄하기 위해서 10만명은 충분한 숫자라고 느껴지진 않는다. 100만명도 물론 필요충분한 숫자가 아닐 수 있지만, 100만명은 유병률 100만분의 1의 확률에 달하는 매우 희귀한 질병 까지도 커버가 가능한 큰 숫자다. 100만명 Genome + PHR ( Personal Health Records : life pattern data ) 의 prospective study 는 그래서 모두의 1차적 목표 숫자로서 타당성을 갖춘 숫자라 할만 하다.


Human longevity Inc. 의 공동창업자들. 좌로 부터 Peter Diamandis , J. Craig Venter, and Robert Hariri


국민의 세금으로 운영되고, 연구의 과실이 공익의 목적이 되는 정부 주도의 사업들과 다르게 23andme는 직접 소비자들에게 genome 분석을 판매함으로써, Human longevity, ISB 는 벤처펀딩을 받아 진행을 하고, 연구 결과는 온전히 각 회사들의 소유가 되어 사업화에 이용할 목적으로 진행되고 있다.

영국/미국 정부를 위시해 앞으로 다른 국가들에서도 공공의 목적으로 같은 방식의 연구들이 진행이 될 것이고, 이 결과들은 공공 의료 보험 등을 통해 의료혁신/효율화를 위해 활용될 것이고, 기업들은 자신들이 쌓은 데이터를 바탕으로 다양한 의료 정보 platform 사업을 진행하게 될 것이라 기대된다.

개인적으로는 기업에서 이런 프로젝트를 진행한다고 해서 괜한 걱정을 할 필요는 없다고 본다. 우리가 구글/페이스북에 엄청난 개인정보를 자발적으로 저장하고 구글/페이스북이 이 정보를 활용해 개인화 광고를 쏘아 막대한 돈을 벌고 있지만, 이는 이 정보를 활용해 정확한 검색, 네트워킹을 공짜로 활용하는데 대한 반대급부로 충분히 이해할 만 하듯, 개인 Genome platform  사업자도 미래에 마찬가지로 이 platform 을 활용해 엄청나게 싼 비용( 아마도 공짜)으로 사용자들에게 양질의 의료정보서비스를 제공하고, 그들은 개인의 genome/life log 정보를 적절히 수익모델화 해 이익을 취하는 윈윈 형태의 모습이 될 것이라 예상한다.



Device to Data , 장비 전쟁에서 Data 전쟁으로 

Genome은 개인 정보의 최정점,  당연히 Data 전쟁이고 platform 선점 경쟁이 될 수밖에 없다. 하지만 지금 까지 Data 의 양적/질적 우위를 바탕으로 시장을 석권한 곳은 고사하고, 변변한 비즈니스 모델 조차 나온 적도 거의 없었다.

이유는 간단하다. Data가 Platform 으로 꾸려질 정도의 규모가 갖춰지지 않았었기 때문이다. 헌데, 2015년에 들어오면서 상황이 바뀌고 있다.  Data platform을 바탕으로 비즈니스 모델을 만들 만큼 Data 의 양과 질을 잘 갖춘 곳이 나타났기 때문이다.

그곳은 바로 23andme. 이전의 Post 에 정리했듯, 23andme 는 현재까지 80만명 이상의 고객 genome 정보( 엄밀히는 genome 이 아닌, 100만개 SNP 정보)를 쌓았고, 고객들의 자발적인 Quiz 형태의 설문으로 수백만개의 Phenotype 정보까지 함께 쌓아 양질의 genome DB를 구축했다. 이를 바탕으로 올초 Genentech 에 $60m , 우리돈 600억 가량을 받고, 12,000명의 파킨슨병 고객에 대한 data access 및 관련 drug 개발을 위한 marker genotype 을 찾아내는데 대한 협력 연구 계약을 맺었다. 고무적인건 이와 비슷한 big pharma/biotech와의 deal 10여개가 진행중이라는 점.

23andme 의 미국 서비스 가격은 1인당 $99, 우리돈 10만원 가량. 100,000개를 팔아야 매출 100억 임을 감안하면, Genentech와 deal로 한번에 600억 가량을 벌어들인 data business 의 가치를 가히 짐작해 볼 수 있다.

양산이 되고 대중화 될 수록 개당 가치가 하락하는 공산품들과 달리, data 기반의 비즈니스는 data 의 사이즈가 커질 수록 data의 가치가 올라가는 특성이 있음을 감안하면( 10명이 사용하는 Facebook 과 10억명이 사용하는 Facebook의 가치를 비교해 보라 ), 앞으로 23andme 의 가치도 DB 의 효용성이 인정된 후, 덩달아 급격히 올라갈 수 있을거라 예상해 볼 수 있다.

이제 2015년을 기점으로,  less than $1000 genome 시대가 도래하면서, genome data 를 쌓으려는 회사들 간 경쟁이 탄력을 받기 시작할 것이고, 유전체를 기반으로 사업을 운용하는 회사들은 '첨단 sequencer'를 경쟁적으로 갖추려던 장비 전쟁에서, 고객의 data 를 내부적으로 잘 꾸려 DB화 해나가고, ML/Data mining 으로 DB에서 정보/지식을 생산해 내는 체계를 갖추어 나가려는 data science 의 전쟁에 힘을 쏟아야 할 것이라 본다.

2015년은  유전체 산업 관련 회사들에겐 $1000 genome 의 현실화로 좀 더 넓은 고객을 타겟으로 삼을 수 있게된 '기회'의 시기 임과 동시에, data 전쟁에서 뒤쳐지지 않기 위한 자기 혁신을 해야만 하는 '위기'의 한해 이기도 하다.