Sunday, April 24, 2011

Kindle Singles::아마존의 서적판 '앱스토어'

킨들을 이용해 아마존에 접속을 하면, 'Kindle singles' 라 적혀있는 큼지막한 카테고리가 보인다. 들어가보면 기존의 아마존에서 책 검색 하는 화면과 같이 책 목록이 페이지를 채우고 있는데, 특이한 건 가격이 대게 $0.99, $1.99 등으로 상당히 저렴하다는 점과, 종이책 버전은 없이 킨들 버전으로만 책이 존재한다는 점.

킨들에서 아마존 접속한 화면. 'Kindle singles' 항목이 오른쪽 위에서 두번째 메뉴로 위치해 있다 .
처음엔 여기 속하는 책들이 판매가 저조해서 절판된 책들을 킨들버전으로 싸게 팔려는 책이거나, 혹은 싱글음반 처럼 맛뵈기 용으로 정식 출판 전에 간략 버전으로 출판하는 책이거나 둘중 하나가 아니겠나 생각했다.

그런데, 알고 보니 킨들싱글은 바로 서적판 '앱스토어'. 10,000~30,000 단어 사이의 길이로 쓰인 책을 출판사를 거치지 않고,  직접 킨들버전 책으로 출판을 할 수 있게 만들어 놓은 책 시장이 바로 킨들싱글.  애플 앱스토어와 유사하게, 킨들싱글로 출판된 책들은 0.99~4.99달러 사이로 가격을 책정해 판매할 수 있다.

저작권료는 책판매금액의 70%를 가져가고 책 판매시 매번 delivery fee ( 파일 크기에 따라 결정. 1KB 당 미국은 $0.15 ) 를 내거나, delivery fee 를 안 내고 35%를 가져가는 방식 둘 중 하나를 선택하면 된다고 한다.  ( 킨들버전 책은 물리적 delivery 는 필요없지만, 통신망(wifi or 3G) 을 통해 delivery 가 필요하고, 실제 아마존이 킨들 리더 이용 고객들의 3G 망 통신비를 부담하기 때문에 delivery fee 책정이 필요하다고 볼 수 있다.)

아마존 홈페이지에서 킨들싱글 페이지
킨들싱글 관련 기사들을 읽어보면, 1-3만 단어 길이의 글이 신문,잡지 등의 글보다는 길면서 보통의 단행본 책보다는 짧은 길이로, 사람들이 특정 주제에 관한 글을 편하게 느끼며 읽을 만한 길이라는 연구 결과에 착안해 킨들싱글 버전 책의 분량을 결정했다고 한다.

즉, 킨들싱글 마켓은 신문,잡지 등의 가벼운 글보다는 무겁고, 단행본 보다는 가벼운 읽을거리라는 틈새시장을 염두에 두고 기획된 것.  실제 3만단어면 종이책으로 100페이지 이내의 분량으로 3시간 이내에 읽을 수 있는 정도로, 직장인의 출퇴근 시간을 이용해 하루만에 소화할 수 있는 분량이다. 킨들싱글 버전 책 소비자는 바로 이런 사람들을 주요 타겟으로 했을 가능성이 높다.

이런 Self-publication 기반 책 거래 시장의 존재는 다양한 잠재력을 가지고 있다고 생각하는데, 아래와 같은 가능성들을 상상해 본다.

1. 맞춤형 지식의 활발한 유통
 책을 내는 저자들은 대게 어떤 분야든 그 분야 최고 전문가 급의 사람들이다. 이런 사람이 아니고선 감히 책을 낼 엄두를 내지 못하거나, 책을 출판하고 싶어도 출판해줄 출판사를 만나기가 하늘의 별따기 만큼 어려운 경우가 태반이다.  그러나 기껏 최고 전문가라 책을 출판 하더라도, 그 책이 독자의 갈증을 제대로 풀어주지 못하는 경우가 많다. 또, 최고 전문가가 출판한 책이지만, 기대에 미치지 못하는 범작에 그친 경우가 얼마나 많던가?

 강남 땅부자가 쓴 재테크 서적에서 '부동산에 투자해야 부자된다' 라는 조언은 평범한 월급쟁이의 재태크에 하등 도움되지 않는다. 평범한 월급쟁이로서 재테크에 성공적인 사람이 하는 조언이 평범한 월급쟁이에게 도움이 되는 재태크 지식이 된다.

  이렇듯, '다양한 레벨의 전문가' 들이 쓴 책들이 고객 맞춤형 지식으로 활발하게 유통되어 지식의 '효율적인 유통' 이 가능해질 수 있다.


2. 시기적절한 출판
 출판사를 통해 출판되는 책의 출판 프로세스는 사회적 시류의 변화와 발을 맞출 만큼 빠르기 힘들다. 그래서 대게 특정한 사건이 발생했을 때, 히트를 치는 책은 이미 이 전에 나와 있는 책들 중에 사건과 관련된 상황을 잘 설명하는 책들인 경우가 많다. 대표적으로 9/11 테러 당시 전세계적 베스트셀러가 되었던 사무엘 헌팅턴의 'The clash of civilization and remaking of world order ( 한국판 제목: 문명의 충돌)' 을 들 수 있다. 테러가 발생한 시점은 2001년 이었지만, 1998년에 출판된 이 책이 9/11 테러 관련 책으로 베스트셀러가 되었다.

 킨들싱글과 같은 출판 시장이 존재하는 앞으로는 특정한 사회적 사건이나 시류를 설명하는 책들이 빠르게 출판되어, 사건의 심층적인 이해를 원하는 독자들의 갈증을 풀어주는 상황을 기대할 수 있다.

3. 전자 리더 계의 통합 플랫폼
 킨들싱글 마켓은 아마존에서 기획한 시장이지만,  킨들 버전의 책은 킨들 리더를 통해서만 읽을 수 있는 것이 아니다. 다양한 스마트폰(아이폰과 안드로이드 등)과 타블렛PC( iPad, 갤럭시탭 등) 에서도 킨들 앱을 설치하고 책을 구입해서 읽을 수 있다. 즉, 어떤 전자 리더 기기를 가지고 있더라도 아마존 킨들싱글 마켓을 이용해 책을 출판하고, 구매하여 읽는데 문제가 없다.

 애플과 같이, 아마존이라는 일개 회사가 운용하는 북마켓이지만, 애플과 달리, 이 모델은 이미 개방형 모델로, 전자책 리더의 플랫폼에 독립적인 상당히 경쟁력 있는 모델이라, 향후 킨들싱글의 성공 이후에 이를 벤치마킹하여 유사한 북마켓을 오픈한다고 해도, 아마존이 구축해 놓은 플랫폼 독립적인 시장을 위협하긴 힘들지 않을까 하는 예상을 해본다.

4. 신데렐라 작가 등용문
유명인이 아닌 이상, 출판사를 통해 책을 출판하기란 쉽지 않다. 출판사를 통하지 않고 스타 작가가 된 '귀여니' 같은 사례가 있긴 하지만, 이건 정말 로또 당첨 보다 낮은 확률이다. ( 로또는 매주 당첨자가 한명 이상 나오지만, 귀여니 같은 신데렐라 작가는 일년에 한번 나올까 말까할 정도). 앱스토어가 시작되고 평범한 직장인의 대박 사례 등의 많이 나왔듯, 직업 작가가 아닌 평범한 보통사람의 신분으로 대박 작품을 쓰는 신데렐라 같은 이야기도 속속 접하게 되지 않을까

Wednesday, April 13, 2011

Amazon Kindle( 아마존 킨들) :: 사용기

누나의 생일 선물로 들어온(?) 아마존 킨들의 사용 후기를 적어본다. 킨들이 뭔지 모르는 사람을 위해 잠깐 소개해 보면,  아마존에서 개발한 '전자 책 리더' 로 전세계 전자책 리더 시장을 압도하고 있는 제품이다.

지난해 가을에 나온 3차 버전은 Wifi 에 더해 전세계 100여개 국에서 3G 망을 이용해 아마존 킨들 버전 책 구입 및 웹 검색 등을 할 수 있도록 제작 되었다. 여기서 한 가지 놀라운 것은 3G 망 이용비를 아마존이 대신 내준다는 것. 즉 3G 를 공짜로 이용할 수 있다는 것이다. 이는 한국에서도 마찬가지.

아마존 킨들에 대해선 이미 엄청난 리뷰들이 있으니, 소개는 이쯤에서 접고, 개인적으로 킨들을 이용하면서 느낀 점들을 정리해 본다.

1. Kindle vs. iPad ?
킨들과 아이패드를 놓고 어떤 것을 구입할지 고민하는 사람들이 있는데, 이는 TV 와 PC 또는 전자레인지와 가스레인지를 놓고 어떤 것을 살지 고민하는 것과 같다. 그렇다, 두 제품은 완전히 다른 목적을 가진 제품이라고 보는게 맞다.

찰리로즈 쇼에 나와 킨들을 소개했던 아마존 CEO 제프 베조스도 동일한 언급을 하는데 그는 "킨들은 책 읽기에 최적화된 제품으로 아이패드와 비교 불능" 이라고 단정짓는다.

직접 두 제품을 사용해본 내 생각도 동일하다. 킨들은 오리려 종이책과 비교를 하는게 옳은 말 그대로 '전자책' 이다. 킨들의 '전자 잉크 스크린' 화면은 종이책과 차이를 느끼기 힘들고, 나 같은 경우 오히려 종이책보다 더 책 읽기가 용이하게 느껴진다.

2. 킨들의 장점
  • 종이책보다 가볍고 휴대에 용이(최대 3500권 저장)
  • 어떤 자세에서든 책읽기 용이 ( 삐딱하게 누워서든, 쇼파에 묻혀서든 한손으로 간단하게 컨트롤 가능)
  • 한번 충전으로 오래 간다 ( wifi 망을 켜고 10일, 끄고 한달 )
  • 비영어권 국가 사람의 영어책 읽기에 용이 ( Built-in dictionary 시스템으로 책읽다가 모르는 단어 위에 커서를 그냥 놓으면 바로 영영사전 내용이 뜬다)
  • 아마존의 킨들버전 sample 서비스 ( PC를 이용하는 경우, 실제로 샘플 버전 책을 제대로 읽고 구매에 활용하기 어렵지만, 킨들버전으로 샘플 챕터를 제대로 읽고 활용 가능)
  • 인터넷에 공개된 공개 문서 활용도 극대 ( 실제 인터넷에 공개된 책들이나 IT 문서들이 많지만 PC 버전에서 읽기는 어렵고, 문서로 출력하기도 곤란하고, 출력해도 A4 용지에서 책처럼 많은 분량을 읽기란 쉽지 않다. 문서를 PDF 버전으로 바꿔 아마존의 킨들 버전 convert 서비스를 이용해 킨들에 최적화된 버전으로 바꿔 책처럼 편안하게 읽을 수 있다)
  • 한권의 책 구입으로 온 가족이 함께 리딩 ( 킨들 버전 책을 구매하면 여러 기기에서 동시에 책을 읽어나갈 수 있다. 동생은 스마트폰에, 엄마는 아이패드에, 아빠와 나는 킨들에서 베스트셀러 소설 한권을 사서 모두 동시에 책을 읽어 나갈 수 있다. 장기적으로 상당히 경제적일 수도 있다)
  • 킨들 버전 책 구매의 편리성 ( 한번의 클릭으로 1분 안에 책을 받아 읽을 수 있다. 한시가 급하게 필요한 책,  혹은 한국에서 구매로 배송 시간이 오래 걸리는 등의 경우 불편함이 완전히 제거된다)
  • 이사 시 편리 ( 이사할 때 책이 젤 무겁다!! )

3. 킨들의 단점
  • 전자책이지만 밤에는 조명이 필요 ( Light 를 쏘는 형태가 아니라 빛이 없다 )
  • 책을 사서 읽고 나도, 책장에 진열해 놓고 뽐낼 수 없다
  • 책을 읽으며 중요한 부분 표시 하는 경우, 종이 책 처럼 휙휙 넘겨가며 찾는 맛은 없다
  • 생각보다 전자책값이 싸진 않다. ( 종이책 보다 약간 싸다 )
  • 한국인이라면 한국책은 킨들 버전 책이 없다는 것

장단점은 이런 정도가 생각이 난다. 영어책을 많이 읽지 않는 한국 사람이라면 사실 킨들을 살 이유는 전혀 없다. 영어책을 읽어도 IT 기술서만을 보는 사람도 킨들을 살 이유가 없다. 킨들은 IT 기술서 같은 다양한 그래픽, 소스코드 등을 보긴 부적합하다. 말그대로 킨들은 서점에 즐비한 평범한 책들(소설,비소설 난픽션,경제서적 등등) 을 보는 기계다. 
 반대로 영어로 된 책 읽기를 즐기는 사람이라면, 한국에서 아마존 책 구매를 빈번히 하면서 배송료가 아깝고 배송을 기다리기 힘들다고 느끼는 사람이라면,  킨들 구매를 적극 추천한다. 

Monday, April 11, 2011

23andMe 서비스 파격 세일, 그리고 이를 가능케 하는 시스템.

오는 4월 15일 DNA day 를 맞아,  23andMe 가 파격 세일을 단행한다.
(추가 : 4월 11일 하루 만에 이 세일은 끝났고, 현재는 $99+$9*12 로 돌아갔다. 하지만 DNA day 등의 특별한 날 이와 같은 세일이 반복될 가능성이 높다. )


 세일 기간은 오늘(4월 11일) 부터 홈페이지에 세일 안내 문구가 떠 있을 때 까지이며, 세일 내용은 원래 초기 Genotyping 가격 $199 를 완전히 내지 않고, 매월 $9 의 update subscription 을 12개월 유지하는 조건이다.


즉, 원래 가격 $199 + $9/month * 12 = $307 에서 $199불이 할인된 $108에 서비스를 받을 수 있다. 지난해 크리스마스 할인 때는 , $99+$5/month * 12 = $159 이었으니, 이번 할인은 23andMe 역사상 최저가에 서비스를 받을 수 있는 기회이기도 하다.


 23andMe 의 서비스는 Illumina SNP genotyping chip 을 이용해 개인의 SNP genotyping 을 하는데, 한국에선 이 SNP chip 한장 분석 비용이 근 100만원이 든다. 대체 어떻게 23andMe 가 이런 파격 세일을 단행할 수 있는 것일까? 손해보면서라도 DTC genotyping 저변을 넓히려는 것일까? 대답은 No. 절대 이 가격으로도 손해보지는 않는다.  그 비밀은 23andMe 가 사용하는 칩에 있다.


23andMe 가 사용하는 SNP 칩
23andMe 는 Illumina사의  OmniExpress Beadchip 을 사용한다. 이 칩은 하나의 칩으로 12개의 sample 의 SNP 를 읽을 수 있도록 설계되어 있다.  즉, 서로다른 12명의 SNP 를 하나의 칩으로 읽을 수 있다는 말이다.


 Illumina 사에 직접 문의해서 알아본 이 칩의 가격은 미국 유통을 기준으로 개당 $250이다. 하나의 칩으로 12명의 SNP profile 을 읽어낼 수 있으니,  개인 당 $20.8 이면 SNP 칩 가격을 충당할 수 있는 것이다.   나아가 23andMe 는 이 칩을 대량으로 구매할 것이고, 따라서 실제 개인당 부담 칩 가격은  여기서 더욱 낮아진다.


 여기에 SNP 칩 실험 설비 및 인건비 등이 더해지지만, 23andMe 가 자체적으로 이 설비와 인력을 갖추고 있기 때문에, 이 비용은 그리 크지 않을 것으로 본다. 결론적으로 23andMe 서비스에 필요한 '원가'  자체는 상당히 낮은 수준으로 유지가 가능하고, 그렇기 때문에, 이런 식의 파격 세일을 단행할 수 있는 것이다. 절대로 이 세일 가격이 '원가' 보다 낮은, 밑지는 장사가 아니라는 것이다. 


 ( 추가 ) 하지만, 원가보다는 높아도 마진 역시 크지 않기 때문에, 이 역시 구글, 제넨텍 등을 통해 수천만 달러(수백억원) 의 투자금을 등에 업은 23andMe 가 아니고서는 감히 엄두를 내기 힘든 가격일 것이다. 

Wednesday, March 16, 2011

iPad2



iPad2 산건 아니고, Apple store 에 들렀다가
회사 홈페이지와 이 블로그를 각각 띄워서 함 찍어봤다.

iPad 에 비해  iPad2 가,  웹서핑이 뭔가 좀 smooth 하고 간결한 느낌이 난다.
칩 성능 향상으로 인해 속도가 빨라졌다던데, 그 때문이 아닌가 싶다.

만져볼 때 마다 드는 생각이지만, iPad 는 확실히 컴퓨터도 아니고, 스마트폰도 아닌
그 독자적인 위치가 있는 기기다. 전자책이나 논문을 띄워놓고 읽어보면 정말
종이 버전보다 눈에 잘 들어온다. 그리고, 정말 웹서핑을 '손으로 컨트롤' 하는건,
완전히 다른 차원의 일이다. 무지 쉽고, 직관적이다.

이런 새로운 차원의 툴이 있고, 여기에 들어가는 '앱' 을 만들 기회가 누구에게나
주어져 있다는 건 엄청난 축복이다.

현재 미국에선 iPad2 신품 최하 기종이 $499에, iPad 는 iPad2 가 나오던 날 20% 할인되어
$399에 판매되고 있는데, 조만간 iPad2 를 하나 장만하기로 결정했다!!

Saturday, March 12, 2011

통계적 방법론의 함정 :: 20억의 교훈

Nature 최신호에 지난 5년간 Nature 에 출판된 논문들 중 가장 인용이 많이된 논문들, 그 중에서 분야별로 중요하다고 판단되는 논문들의 저자들과의 인터뷰 내용을 정리한 feature article 이 출판되었다.
(  http://www.nature.com/nbt/journal/v29/n3/pdf/nbt.1798.pdf )

이 중에 FDA Leming Shi 박사의 리드 하에 2차에 걸쳐 진행된 MAQC ( MicroArray Quality Control Consortium )  에 관한 내용이 포함되어 있다.  MAQC 1차 연구 결과는 2006년 Nature biotechnology 에 총 6편에 걸쳐 게제되었고, MAQC 2차 결과는 지난해 Nature biotechnology 에 종합판 1편과 Nature 자매지인 Pharmacogenomics journal 에 11편에 걸쳐 게제된 바 있다.

글에서 Leming Shi 박사가 언급한 내용 중엔 생물학 데이터를 다루는 생명정보학자들이 특별히 유의해야할 내용이 포함되어 있다. 데이터 분석 값들이 의미하는 바를 직시하지 못하고, 통계적 방법론을 맹신하는 태도가 바로 그것이다.

마이크로어레이 분석에서 가장 큰 문제는 어레이 플랫폼을 어떤 회사 것을 쓰는지에 따라, 또 매번 연구 마다 결과가 달라지는 '낮은 재현성' 이었다.  마이크로어레이 preprocessing 분석 방법들 중  이 '낮은 재현성' 문제를 피하는데 가장 효과적인 분석법이 무엇인지 알아보기 위해 $200만 달러가 투자되고, 51개 기관 총 137명이 참여해 연구한 MAQC1 결과는 아래와 같았다.


“The only  data that was reproducible was if you looked 
at the magnitude of the difference between the 
two conditions and then ranked all the genes 
on the chip based on the fold-change "


" 오직 Fold-change 값으로 유전자 발현량 변화의 랭킹을 매겨
분석한 결과만이 재현되었습니다. "

이 결과는 예상과 상당히 다른 결과였다. Fold change 란 그저 분석 대상이 되는 두 그룹의 발현량에 대한 비율에 불과한 통계적 관점에서 보자면 상당히 crude 한 값에 불과했기 때문이었다. Fold change 에서 한단계 더 나아가 분석값들의 variation 까지 고려한  t-test 가 통계적 관점에서는 당연히 더 합당한 분석법으로 인정된다.

Leming Shi 는 이 결과를 학자들 앞에서 발표하지만, 데이터를 다시 분석해보라고 결과에 대해 의심을 받기도 하였고, 결과를 정리한 논문이 제 때에 발표되지 못하는 우여곡절을 겪기도 했다고 회상한다. ( 2008년 한국을 방문했던 MAQC 참여그룹 책임자 James Fuscoe 박사를 가이드 하며 들은 바론 그 때 이미 논문을 submit 했다고 했으니, MAQC2 논문은 submit 에서 출판까지 2년 정도가 걸린 것 같다.)


“People were dominated by pure statistical consideration without 
thinking of what the technology was trying to  tell us,”


" 사람들은 데이터가 무엇을 의미하는지에 대한 고민 없이
통계적 방법론에 압도되었죠. "

흔히 통계적 방법론을 적용한 이후, 결과 값들이 무엇을 의미하는지에 대해선 깊이 생각하지 않고 넘어가기 쉽다. T-test 를 적용해 p-value 0.01 이하인 유전자들이 유의한 발현량의 변화를 보였다라고 결과를 보고하지만, p-value 0.01 인 유전자들이 p-value 0.1 인 유전자에 비해 정말 유의한 발현량을 보인다고 할 수 있는지, 이러한 방법으로 얻은 결과가 서로다른 플랫폼에서 수행된 마이크로어레이 실험들 간의 분석 결과의 재현성을 보장해 줄 수 있는지,  t-test 가 마이크로어레이 분석에 fold-change 보다 더 적절한 통계적 방법인지 일일이 고민해 보고 직접 실험해 보기란 쉬운 일은 아니다. 이미 동료 연구자들에게 널리 사용되고 있다면 더욱 더...

또한, 좀 더 '복잡한' 통계적 방법론이 더 그럴듯해 보이고, 설득력 있게 들리는 경향도 있는 듯 하다( 적어도 나는...) . 좀 더 진보되었다고 알려진 , 좀 더 그럴듯한 통계적 방법과 구식의 낡은, 간단한 통계적 방법 사이, 널리 쓰이는 방법론과 그렇지 않은 방법론의 사이... 이들 사이에서 항상 균형 잡힌 시각으로 가능성을 열어두고 연구를 진행 할 수 있다면, 통계적 방법론에 매몰되어 진실을 왜곡하는 일은 피할 수 있을텐데...

Large scale data 분석이 없는 생물학 연구를 상상하기 어려운 세상이 된 시점에서, 연구자들에게 통계적 방법론에 대한 맹신에 대한 경종을 울리는 자체만으로  MAQC 연구 논문이 최근 5년간 가장 중요한 '생명 공학' 연구 중 하나로 뽑힐만한 가치가 있지 않나 생각한다.

Tuesday, March 8, 2011

NCBI SRA 서비스 중단

NGS 기술을 통해 쏟아져 나오는 sequence 데이터 저장소 서비스였던 NCBI의 SRA( Sequence Read Archive ) 와 Trace Archive 가 예산 부족을 이유로 서비스를 중단한다는 소식이다( http://www.ncbi.nlm.nih.gov/sra ). NCBI  의 다른 데이터베이스들과 비교해 리소스는 많이 잡아먹으면서, 활용도(인기) 는 상대적으로 많이 처지는 상황이었기에 이런 결정을 내렸다는 의견이 있다.

그러나 3대 genome 기관 중 NCBI 를 제외한 두곳, EBI 와 DDBJ 는 SRA 서비스를 계속 한다는 방침을 발표했다( http://www.ebi.ac.uk/ena/SRA_announcement_Feb_2011.pdf , http://www.ddbj.nig.ac.jp/whatsnew/2011/DRA20110222.html ).

규모나 연구자금 면에서 가장 여유로운 미국의 NCBI 가 차후 바이오텍을 혁명적으로 바꾸어나갈 NGS raw data 저장소 서비스를 EBI 나 DDBJ 에 앞서 중단한다니 다소 의외다. 차후 새로운 포맷으로 효율적인 새 NGS 저장소 서비스를 준비하려고 하나 싶다가도, 그럴 계획이 있었다면 기존의 SRA 서비스를 살려놓은 채로 smooth 하게 변화를 주었을 거란 생각을 하면, 이번 결정이 SRA 서비스 자체의 효용성에 대해 NCBI 내부에서 '부정적' 으로 결론을 내렸기 때문이 아닌가 하는 생각이 든다.

SRA 서비스가 효용성이 떨어진다고 결론내렸다면 아래 두가지 이유가 아니었을까...

1. NGS raw data 자체의 비효율성
- NGS raw data 는 보통 수십배 중복되어 같은 부위의 DNA 를 읽은 수백 base 단위의 read 들로 구성되어 있다. 이 데이터는 assemble 되어 중복이 제거된 하나의 full sequence ,  목적에 따라 CNV 데이터, RNA-seq 의 경우 expression 데이터로 변환 될 수 있는데, 이 과정에서 불필요하게 중복된 데이터들이 제거될 수 있다.

개인의 whole genome 분석을 수행한 NGS raw 데이터라면, 30배수로 실험을 수행한 경우 3GB*30 = 90GB(완전한 raw data 라면 이 보다도 훨 크겠지) 가 소모되지만 분석 결과는 하나의 whole genome 3GB 다.  효율적이고 간결한 whole genome DB 가 필요하다면, 불필요한 나머지 87GB 의 데이터를 모두 저장하고 있을 필요가 없다.

2. 기존의 다른 NCBI DB들과의 중복성
- SRA 중단을 알리는 글에,
RNA-seq 는 GEO,
varient와 genotype, polymorphism 정보는 dbVar, dbGaP, dbSNP,
genome assemblies 는 Genbank/WGS,
transcript 는 Genbank/TSA,
16s ribosomal RNA 와 기타 genomic data 는 Genbank
를 이용해 저장하라고 안내되어 있다.

NGS raw data 를 processing 하여 얻을 수 있는 정보들은 모두 기존의 NCBI DB들이 담고자 하는 정보와 부합이 되기 때문에, 복잡하고 생명정보학 전문가들이나 컨트롤 할 수 있기에 생물학계 전반의 학자들에 의한 활용도가 낮은 SRA 서비스를 중단하고, 기존의 DB 들에 NGS raw data 분석 결과를 저장해 나가자는 결정을 내렸을 수도 있을 것 같다 ( 정말 예산이 부족했다면...)

NGS 데이터 분석을 해본 적이 없어, NGS raw data 가 얼마나 효용성이 큰 데이터 인지는 사실 잘 모르겠다. 예컨데 1000명 인간의 whole genome sequence 를 분석했다면, 1000개의 whole genome sequence 가 최종 결과다. 중간의 분석 과정에서 어떤 분석 방법을 쓰느냐에 따라 아마 sequence 결과에 조금씩 차이가 생기긴 하겠지. 하지만 NGS 기계 자체의 기술적 진보와, 분석 방법의 발전은 적당한 선에서 consensus 가 이루어 질 것이다( CNV, epigenetic data 등 한 NGS raw data set 에서 나올 수 있는 것들 포함). 그런 상황에서 NGS raw data 를 이용해 새로운 연구를 해볼 만한 여지는 크게 없지 않나 하는 생각이 들기도 한다.

Sunday, February 6, 2011

생명정보학자들은 어떤 역할을 해야 하나?

네이쳐 바이오테크놀로지에 2010년 생명정보학 연구 하일라이트에 관한 글이 실렸다.
http://www.nature.com/nbt/journal/v29/n1/pdf/nbt.1747.pdf

이 글 중 Box2 에는 '분야를 뛰어넘는 연구자( Cross functional individual )' 들이 생명정보학 연구에 어떤 기여를 하고 있는지에 관한 내용이 담겨있다. 여기서 말하는 분야를 뛰어넘는 연구자들은 곧, 생명정보학자, 계산 생물학자로 지칭되는 생물학과 계산과학 두 분야 모두에 전문적인 지식을 가진 연구자들을 이야기 한다.

생명정보학 툴이 생물학계 전반에 퍼지는 양상은 3단계에 거쳐 진행이 된다고 하는데, 이 순서는 아래와 같다.

1. 생명정보학자들이 정보학적 분석을 통해 해결할 수 있는 생물학 문제들을 인식하고 간단한 방법론을 통해 이런 문제들을 해결할 수 있다는 사실을 증명한다.
2. 정통 계산과학자 ( 수학 및 컴퓨터과학자들 ) 들이 좀더 정교한 방법론들을 이용해 생명정보학자들이 만들어 놓은 간단한 방법론을 개선하여 생물학자들이 사용하기 쉬운 '툴'로 만든다.
3. 만들어진 '툴'을 필요로 하는 생물학자들이 사용하여 새로운 발견에 이용된다.

마이크로어레이 '분류( classification )' 연구에서 핵심이 되는 것은 특징 찾기(feature selection) 과정인데, 이 분야 연구를 예로 들어보면,  1999년 Todd golub 에 의해 출판된 네이쳐 논문이 선구적인 논문으로 이와 관련해 가장 인용이 많이 된 논문인 것으로 알고 있다.

그런데, 이 논문의 핵심이 되는 feature selection 알고리즘은 새롭게 개발된 것이 아니라, 흔하게 쓰이는 t-test 다. 즉, 위의 1번 과정 처럼 '기존에 존재하는 단순한 방법론' 을 '새로운 생물학 문제'에 적용을 하여 효과적으로 문제 해결을 할 수 있다는 사실을 증명한 것이다.

이후로 이 보다 훨씬 정교한 방법론들이 수학자, 통계학자, 컴퓨터 공학자들에 의해 엄청나게
만들어 지면서 2번 과정이 진행된다. 이 중에 가장 효과적이라고 검증된 SAM 과 같은 몇몇개의 방법론들은 마이크로어레이 분류 문제 해결을 위해 전세계의 생물학자및 생명정보학 연구자들에 의해 사용되는 3번 과정을 거치며 기술 정착 단계에 이른다.

1,2,3번 과정에서 가장 큰 업적으로 평가받는 것은 1번, 즉 가장 먼저 '문제를 인식' 하고 '간단한 방법으로 해결 가능성' 을 보인 사람이다.  노벨상도 이런 일을 한 사람에게 돌아간다. 즉, 노벨상이나 각광받는 연구 업적들은 대단한 '방법론' 에 의한 경우보다 새로운 '문제 인식(발견)' 인 경우가 많고, 이런 새로운 '문제 인식' 에는 복잡한 방법론이 필요하지 않은 경우가 많다는 얘기다.

똑같은 문제를 조금 더 효과적으로 해결하는 방법론 을 만들기 위해 노력하는 것 보다, '중요한 문제' 발굴에 좀 더 신경을 쓰는 것이 좋은 생명정보학 연구자로 거듭나는 길이 되지 않을까 생각해 본다.