Wednesday, December 21, 2011

Google PageRank 로 뽑아보는 인기 Blog 글

 한해를 정리하며 자신이 일년간 쓴 블로그 글들이 얼마나 impact가 있었는지 체크해보는 것도 의미 있으리라... Google analytics 등 분석 툴을 이용해 각 글들의 클릭수, 읽은 시간 등을 체크해 볼 수도 있지만, 여기서는 각 블로그 글의 Google PageRank 를 이용해 인기순위를 체크해 보는 간단한 Perl script 를 만들어 본다.

준비
WWW::Google::PageRank
Web::Query
두개의 Perl 모듈

1. Blogger 에서 BlogID 얻어내기
Google 에서 제공하는  Blogger API 를 보면, 각 Blogger 블로그에 대한 feed를 얻기 위해, blogID를 알아야 한다. 이를 확인 하는 방법은 아래 두가지를 꼽아 볼 수 있다.

 a) 디폴트 feed 페이지( http://blog-name.blogspot.com/feeds/posts/default )에서 id 태그에 blog-'blogID' 형태로 삽입된 blogID 를 얻어내는 방법

b) feedburner 등으로 디폴트 feed 페이지를 변경하여 a) 방법이 불가능한  경우, 블로그 대문 html 파일 하에 item-action 클래스로 묶인 태그 하의 링크 주소에 blogID='blogID' 형태로 삽입된 blogID를 읽어오는 방법

위 두가지 방법으로 이 블로그의 blogID 를 얻어내는 코드는 아래와 같다.

# Blogger계정의 블로그 feed 주소 ( goldbio 부분에 자신의 블로그 주소 앞부분을 넣으면 된다 )
my $blog_add=qq|http://goldbio.blogspot.com/feeds/posts/default|;
# a 방법 wq($blog_add)->find('id')->text=~/blog-(\d+)/; my $id=$1; # b 방법  wq($blog_add)->find('.item-action')->find('a')->attr('href')=~/blogID=(\d+)/; my $id=$1;




위의 코드에는 Web::Query 를 이용해 html 페이지를 파싱했는데, 이 모듈은 jQuery와 같은 방식으로 태그 이름, 클래스 이름 등을 사용해 간편하게 html 페이지 요소에 접근할 수 있도록 하는데, 같은 기능을 하는 모듈로 pQuery 라는 모듈도 있다.  ( 이 모듈은 올해 진행되는 서울 펄 크리스마스 트리에 언급되어 알게 되었는데, jQuery 를 최근에 많이 쓰다보니 다른 모듈들 보다 훨씬 편한 느낌^^)




2. 각 블로그 글의 PageRank 얻어내기
  
blogID 를 얻어낸 후엔 이를 이용해 해당 블로그의 feed를 아래 주소를 통해 접근할 수 있다.
http://www.blogger.com/feeds/blogID/posts/default ( blogID 부분에 해당 블로그 id를 넣으면 된다 )
이 주소로는 대문 페이지에 보이는 글들만 얻어올 수 있기에, 한해 동안의 블로그 글을 얻어내려면 옵션을 추가해야 한다. 


&published-min=2011-01-01-T00:00:00 을 위의 feed 주소 뒤에 붙이면 2011년 1월 1일 0시 부터 쓴  모든 글들에 접근할 수 있다. 2011년에 쓴 글들이 꾀나 많다면 &max-results=100000 과 같이 적당한 최대 검색값을 덧붙인다.  


www.blogger.com/feeds/$id/posts/default?published-min=2011-01-01T00:00:00&max-results=100000000


위의 주소로 접근하면 이 블로그에 2011년 한 해 동안 업데이트된 글들이 모두 포함된 feed 를 확인할 수 있다.  이제 각 글들의 Pagerank 를 확인하면 된다. 먼저  각 글들의 URL 을 얻어내고, 얻어진 URL 을 WWW::Google::PageRank 를 이용해 확인하면 된다.


글의 URL 은 아래와 같은 형태로 각 블로그 글 마다 삽입되어 있는데, 
<link rel='alternate' type='text/html' href='http://goldbio.blogspot.com/2011/09/jquery.html' title='jQuery::이미지 크기 동적으로 변경'/>

여기서 href 아래 주소만 Web::Query 를 이용해 얻어내는 코드는 
$feed->find('link')->attr('href') 와 같이 쓸 수 있다.  $feed에는 이와 같은 link 가 블로그 글 숫자 만큼 들어 있고, 이를 모두 얻어내야 하므로 코드는

$feed->find('link')->each ( sub {
   my $i=shift;
   my $post_link=$_->attr('href');
});
와 같이 쓸 수 있다. 

WWW::Google::PageRank 사용법은 간단하다.

주어진 URL 에 대해 아래와 같은 코드로 pagerank를 확인할 수 있다.

my $pagerank=WWW::Google::PageRank->new;
my $pagerank= scalar( $pagerank->get( URL ) ) ; 

최종적으로 Feed 페이지를 Web::Query 모듈을 이용해 파싱하여 각 블로그 글들의 URL 을 얻고, 해당 URL 을 이용 Pagerank 를 얻어내는 코드를 종합해 보면 아래와 같이 쓸 수 있다. 




## 2011년 블로그 Feed 주소
my $blogger_API=qq|http://www.blogger.com/feeds/$id/posts/default?published-min=2011-01-01T00:00:00&max-results=100000000|;



## 각 블로그 글에 해당하는 Google Pagerank 출력
my $q=Web::Query->new( $blogger_API );
$q->find('link')->each( sub{
    my $i=shift;
    next if $_->attr('rel')!~/alternate/;
    my $post_link=$_->attr('href');
    my $post_title=$_->attr('title');
    my $post_pagerank=scalar( $pr->get($post_link) );
    print "$post_title\t$post_link\t$post_pagerank\n" ;
});




3. 종합

인기 블로거가 아닌 이상, 각 블로그 글들은 아마 대부분의  글의 Pagerank 가 0 일 것이다. (참고로 이 블로그의 모든 글 108개 중 pagerank 가 1 이상인 글은 2개 뿐이다 -pagerank 는 10점이 최고 점수) 그러니 결론적으로 블로그 글 인기순위 메기기에 pagerank 는 부적합해 보인다. 따라서 다른 용도로 pagerank 수치를 적절하게 결합해서 사용하는 것을 추천!

Monday, November 21, 2011

뭔가 배우고 싶다면 6개월 지속하자!!


3-4년 전 쯤 읽었던 책 'The brain that changes itself' 는 뇌과학의 흥미로운 연구결과들을
대중의 입맛에 맞게 맛나게 풀어써 놓은 책인데, 오늘 책장을 뒤적거리다 이 책을 뽑아들고
휙휙 넘겨보다 기억해 둘 만한 내용이 있어 나눠 본다. 

1. 만시간 법칙

학습 이론에 관해선 수많은 연구결과들이 발표되어 왔는데, 그 중 유명한 것이
에릭슨의 '만시간 법칙' 으로, 현재 전세계에서 가장 잘 팔리는 논픽션 작가
말콤 글래드웰의 책 '아웃라이어' 에 소개되어 널리 알려졌다. 

만시간 법칙은 어떤 분야의 전문가가 되기 위해선 만시간, 10년 정도의 시간을
꾸준히 노력해야 한다는 내용이다. 에릭슨의 이 연구 결과는 다양한 분야의
전문가들을 꼼꼼히 연구한 결과 밝혀진 내용으로 상당히 신뢰할 만 하다. 
단, 여기에 조건이 있는데, '10년 동안 그냥 했던거 반복' 만 하면 안 되고, 
자신의 실력을 향상 시키기 위한 '잘 조직된 연습' ( Deliberated effort ) 로서의
만시간이 필요하다는 것이다. 

2. 'Monday-Friday' 법칙
The brain that changes itself 에 담긴 연구 결과는 의사이자 생리학 박사인 Alvaro Pascual-Leone 이란
사람이 하버드 의대에서 수행한 것으로, '읽기 능력' 의 수행 능력 향상과 학습의 지속 시간 그리고
뇌의 변화를 관찰한 결과로 얻어진 것이다. 

간단하게 결과를 요약하면, 주중에 월요일 부터 금요일 까지 열심히 익히고 배우면 금요일까지
수행 능력이 매일 향상이 된다. 하지만 토요일, 일요일을 쉬고 월요일에 수행 능력은 다시 연습을
시작하지 전과 같은 레벨로 떨어진다. 

하지만, 장기간 이런 수행능력 향상 연습을 반복하면 평균 6개월이 지나면 '월요일 효과' 가 사라진다.
즉, 몇일 쉬어도 수행 능력은 꾸준히 유지가 된다. 이 상태에서 2달 정도가 지나도 수행 능력은 
약간의 '회복 시간' 이 지나고나면 다시 원상태로 회복된다.

6개월 동안의 연습 시간이 지나고 나서, 뇌 fMRI 사진을 찍어보면, 연습한 과업을 수행할 때
뇌가 관여하는 형태가 6개월 전과 확연히 다르다. 즉, 6개월 정도의 '꾸준한 노력' 이 지속되면
뇌 자체가 이 과업을 '빠르고 효과적으로 수행할 수 있을 만큼' 새로운 뇌 세포간 네트워크를
만들어 내게 되고, 한번 이렇게 '뇌 구조가 바뀌고 나면' 이 과업은 이제 쉽게 잊지 못하는
언제든지 익숙하게 수행할 수 있는 일이 된다는 것이다. 


3. 6개월 지속 법칙

이 연구 결과를 따르자면 '평범한 보통사람' 으로서 어떤 일을 제대로 익히기 위해서는 6개월
정도를 꾸준히 지속하는 노력이 필요하다. 생각해 보면, 대게 우리는 몇주 열심히 혹은
한두달 열심히 하고 나서 조금 시간이 지나서 그 동안 열심히 한걸 새까맣게 까먹고
자신의 우둔함을 한탄하는 경우가 아주 빈번하지 않나? 

하지만, 그게 당연한 것이니 그럴 필요가 없다. 뭐든 6개월 정도를 꾸준히 지속하면
그 일 자체가 우리 뇌속에 각인이 되고, 우리 몸의 일부분이 된다. 
'빡세게 짧은 기간 열심히' 보다는 '꾸준한' 노력이 필요하다. 


4. 전문가의 뇌

예전에도 전문가가 일을 처리할 때의 뇌에 관한 글을 많이 썼었는데, 
다시 한번 더 언급해 본다. 전문가는 흔히 생각하듯 '창의적' 인 사람과는
거리가 멀다. 반대로 전문가는 어떤 특정한 일을 수행하는데 보통 사람이
믿지 못할 만큼 빠르고 효율적으로 일을 처리할 수 있다. 

이것이 가능한 것은 앞서 언급했던것 처럼 뇌 자체가 그 일을 빠르고
효율적으로 처리할 수 있는 새로운 뇌구조를 만들어 두었기 때문이다.

대게 여기는 '장기기억' 에 관련한 뇌가 관련한다. 전문가들은 엄청나게
많은 경우의 수, 그리고 필요한 정보를 장기기억에 저장해 놓고 언제든지
빠르게 꺼내 쓰고, 또 효율적으로 조합할 수 있다. 반면에 비전문가들은
어떤 정보가 필요한지 모르는 경우가 많고, 또 안다 하더라도 이런 정보들을
확인해서 확보하고, 또 이들을 어떻게 적절히 조합해서 문제를 해결해야하는지
에 대해 엄청나게 머리를 쓰면서 에너지를 소비해야 한다. 

그래서 실제로 비전문가들이 전문가들에 비해 머리를 훨씬더 많이 쓴다. 
뭔가를 잘 못하는 사람한테 '머리 좀 써라' 라고 전문가가 핀잔을 주는 건
사실 잘못된 말이다. 전문가는 비전문가에 비해 같은 일을 수행할 때
20% 정도 밖에 뇌를 쓰지 않는다. 


5. 마무리
나이탓, 머리탓 하는 사람들 무지 많다. 
뭐든 6개월은 지속해서 노력하고 나서 그런 소리 하자. 


실제로 자기가 '나이가 들어서 이런저런 일들을 할 수 없다' 라고 
생각하면 실제로 그렇게 된다는 최근 연구 결과가 있다. 그런 사람들이
평균적으로 훨씬 건강 상태도 안 좋고, 평균 수명도 짧았다고 한다.  

그딴 핑계는 대지 말고 젊게, 항상 배우고 살자. 

Thursday, September 1, 2011

jQuery::이미지 크기 동적으로 변경

아래와 같이 이미지를 표현하고 난 후,

<img src='yes.jpg'>


상황에 따라 이미지 사이즈를 동적으로 변경해야 하는 경우가 종종 발생한다.
한 예로, 이미지의 가로와 세로의 길이를 비교해서 긴 쪽 이미지를 100px 로 바꾸는 경우를 jQuery 를 이용하면 어떻게 될까.


var img=$('img');
if( img.width()  > img.height() ) {
   img.width('100px');
}else{
  img.height('100px');
}


작동해야 할 것 같은 이 코드는 원하는 대로 작동하지 않는다.
원인은 이미지가 완전히 로딩되지 않은 상태에서 이미지의 가로, 세로 길이를 비교했기 때문이다. alert 를 이용해 img.width() 와 img.height() 를 찍어보면 값은 0으로 나온다.

따라서 위의 코드를 이미지가 완전히 로딩되고 난 이후에 동작하도록 고쳐야 한다.
load 함수를 이용해 이를 고려한, 완전히 동작하는  코드는 아래와 같다.



var img=$('img');

img.load( function() {
   if( img.width()  > img.height() ) {
     img.width('100px');
   }else{
     img.height('100px');
   }
}



PS::
위의 코드를 이용한 이미지 사이즈 변경은 한가지 문제점을 가지고 있는데,
.load 함수의 실행은 이미지가 완전히 로딩된 후에 일어난다는 사실이다.

즉, 큰 이미지가 로딩되어 화면에 표시된 후( 네트웍 속도가 느릴 수록 이 효과는 극대화),
load 함수에 따라 이미지 리사이징이 일어난다.
문제 해결은간단한데, .load 함수 이전에 이미지 표시를 막으면 된다.

1. css 파일에 이미지 표시를 하지 않는 것으로 default 설정을 한다.

img{
  visibility:hidden;
} 


2. .load 함수에서 이미지 표시 제한을 풀어준다.

img.load( function() {
   if( img.width()  > img.height() ) {
     img.width('100px');
   }else{
     img.height('100px');
   }
   img.css('visibility','visible');

}

Saturday, August 6, 2011

GigaScience :: BGI 가 출간하는 저널

BGI 가 BioMedCentral 과 합작하여 GigaScience라는 새로운 저널을 출간한다는 소식이다.  ( http://www.gigasciencejournal.com/ )

'Big Data' 에 기반한 생의학 연구들의 출판을 목표로 하고 있고, 리뷰 과정에서 기존의 '학문적 의미'에 대한 잣대와 동시에 데이터의 유용성과 재연성을 중요한 잣대로 할 계획이라고 한다.

또하나 흥미로운 점은 '데이터셋' 자체에 DOI 를 부여하여, 데이터가 하나의 연구 논문에서 분석되는데서 벗어나 넓리 퍼져나가 다양한 연구에 이용될 수 있도록하여 데이터의 가치를 극대화하겠다는 점을 공언한 점이다.

"데이터의 '저장'과 함께 데이터의 효과적인  '전파' 도 중요한 문제다  "
- GigaScience 저널의 편집장 Scott Edmunds( BGI 소속)

데이터셋 자체에 DOI 를 부여하는 건 정말 '학계' 에서 보기 드문 획기적인 발상이다.  또한 이는 지난 10년 간의 Genomic data 들의 낮은 재사용성을 NGS data에 대해 답습하지 않을 수 있는 가능성을 어느 정도 열어 준다고 평가한다.

Microarray database인 NCBI 의 GEO에는 현재 24,000여개의 독립된 dataset (GSE 단위) 이 존재하지만, 두번 이상 재분석 된 dataset은 손에 꼽을 정도다. 기본적으로 어떤 논문에 어떤 GSE data가 쓰였는지 논문 본문을 검색하거나, 반대로 geo 데이터를 검색하지 않는 이상 알 수 없고, 해당 논문이 인용이 되어도, 논문에 딸린 dataset에 대한 인용인지를 평가하는 것도 어려운 등의 문제가 존재하여, dataset 자체에 대한 평가가 어려웠다는 문제가 있었기 때문이다.

1. Dataset 자체에 DOI 가 붙으면, 이를 분석한 논문과 별개로 dataset 자체에 대한 citation 이 가능해진다. 따라서 어떤 Dataset 이 퀄리티 높고, 재연성이 높은 dataset 인지를 일목요연하게 search하고 분석하는 것이 가능해 진다.

2. 인용이 가능해짐은 곧, dataset 자체로 높은 citation 을 얻을 수 있다는 얘기. 이는 곧, 높은 품질의 dataset 생산과 '전파' 에 대한 연구자들의 '동기'를 유발하게 하는 효과를 불러 일으킬 수 있다.
이는 다시 재연가능하고 유용한 dataset 숫자의 증가라는 긍정적인 결과로 이어진다.

2010년이 넘어가면서 본격적으로 생물학은 data dependent information science 로 넘어왔다. 바야흐로 bioinformatics 의 전성시대가 열리고 있고, dataset 자체가 논문과 상응하는 DOI 를 가질 수 있는 시대가 열렸다는 것은 이런 '시대의 흐름'을 보여주는 한 단면이 아닐까

Monday, July 25, 2011

GWAS catalog 데이터 등록 날짜 통계


2011년 7월 26일자 GWAS catalog DB 에 수록된 데이터들의 등록일 통계( 총 5846건). 심심해서 한번 그려봤다.

1. 2008년 DB 생성 이래로 연도별로 꾸준히 증가하는 추세. 2011년 7월  까지 데이터가 전년도 데이터 총량의 85.7% 로 추세가 이어지면 2011년 데이터는 2010년에 비해 거의 두배 가까이 될 것으로 예상

2. 월별, 일별 데이터 등록일을 보면 월별로 1월과 11월이, 일별로는 매월 25일에 등록된 데이터가 압도적으로 많다. 12월 연휴를 앞두고 11월에 처리하거나, 12월 연휴를 마치고 복귀해 전년도 데이터를 마무리 정리하기 때문에 1월과 11일이 많지 않나 싶고, 월별로는 매월을 마무리하는 월말에 데이터 등록량이 많지 않나 싶은데, 왜 꼭 굳이 25일이 특이하게 많을까? GWAS catalog 데이터 관리 팀의 매월 데이터 등록 마감일이 25일이 아닐까?

Monday, June 27, 2011

iPAD APP:: Bio-IT World

아이패드는 기존의 컨텐츠를 완전히 다른 레벨의 컨텐츠로 진화를 가능케 해주는 매우 뛰어난, 새로운 영역의 기계다. (적어도 내게는)PC에서의 꾸리한 인터페이스에 거의 사용도 안 하던 youtube가 가장 우수한 동영상 컨텐츠 뷰어가 되고, 웹툰이라는 컨텐츠가 '다음 코믹스' 아이패드 앱을 통해 내게는 완전히 새로운 형태의 만화 컨텐츠로 격상되는 경험을 주었다.

BioITWorld 아이패드 앱도 역시 이처럼 기존의 컨텐츠가 완전히 새로운 경험을 담은 우수한 컨텐츠로 새롭게 다가오게 만든 앱이다. BioITWorld 는 생물학과 컴퓨터 공학의 접점, 즉 Bioinformatics 라 명명하는 영역의 다양한 뉴스와 깊이 있는 분석 보고서를 담아 2달에 한번씩 발간되는 잡지다. 무료로 제공되기 때문에 주로 웹을 통해서 볼 수밖에 없는데, 웹을 통해 발간된 잡지는 오랜 시간 컴퓨터 모니터를 통해 읽기가 힘들어 제대로 컨텐츠 소비를 하기 어려운 단점이 있었다.

그러던 것이 이번 BioITWorld 아이패드 앱을 통해, 종이 잡지 보다도 훨씬 읽기 편한, interactiive 한 컨텐츠를 효과적으로 전달하는 잡지로 거듭났다고 개인적으로 평가해본다.

BioIT World 아이패드 앱, 초기 Archive 화면


앱을 실행시키면 위와 같이 Archive 화면이 뜨고, 원하는 달의 잡지를 볼 수 있다.




기사를 클릭하면 왼쪽과 같이 기사를 보여주는데, 이 상태론 글씨가 너무 작아서 제대로 읽을 수가 없다. 이제껏 웹 버전( 및 이를 출력한 프린트 버전 ) 은 이런 화면에서 잡지를 읽어야 했기 때문에, 제대로 내용을 읽기가 힘들고, 설령 읽는다해도 PC 화면을 붙잡고 오래 읽어내기는 힘들었다. 이제 아이패드용 앱에서 오른쪽과 같이 자유자재로 확대해서 편하게 내용을 읽을 수 있다.

동영상이 삽입된 페이지 ( 붉은색 카메라 아이콘)


위 페이지에서 동영상 아이콘을 누르면 연결되는 페이지


웹버전 잡지 답게,  내용에 맞는 동영상이 링크되어 있고, 이를 누르면 바로 Youtube에 등록된 동영상을 볼 수 있다.

BioIT world 아이패드 앱으로 Bioinformatics 뉴스를 실감나게 즐겨보자!

Monday, May 16, 2011

천달러 게놈($1,000 Genome) :: 번역 출간

직접 번역에 참여한 '천달러 게놈( $1,000 Genome )' 이 오는 5월 24일 한국에서 출판될 예정이다. ( 교보문고 , 알라딘 , Yes24 네이버 )


왜 이책을 번역했나?


 이 책은 지난해 미국에서 9월 7일 출간되었다. 저자는 BioIT world 의 에디터이자, 과거 Nature genetics 를 창간하고 책임 편집장을 맡았던 케빈 데이비스(Kevin Davies )로, BioIT world 를 10년이 넘게 이끌어오면서 그동안 $1,000 Genome 으로 대변되는 DNA sequencing 혁명과 이를 바탕으로한 개인유전학 및 개인맞춤의학( Personal genomics , Personalized medicine ) 산업의 출발에서 부터 현재 그리고 미래를 조망하는 내용을 담고 있다.

 BioIT world 를 통해 이 책의 출판 소식을 접한 나는 곧바로 주문해서 책을 읽었고, 동료들에게도 이 책의 출간 소식을 알렸다. 책을 접하고 난 후, 우리는 '빠르게 전개되고 있는  개인유전학 산업을 우리 손으로 직접 한국에 알리고 싶다는 생각' 을 가지게 되었고,  그렇다면 이 책을 직접 번역해서 출판해보자는 생각을 이 책의 공역자 '우정훈'과 누가 먼저랄 것도 없이 떠올리게 되었고, 그렇게 번역 출판 과정을 진행하기 시작했다.

출판 과정은 많은 우여곡절 끝에 많은 분들의 도움을 받아 무사히 출간에 까지 이르게 되었는데, 이에 관한 내용은 우정훈의 블로그 글에 자세히 나와 있으니, 관심 있는 분들은 이 글도 읽어보시길.



어떤 내용이 담겨 있나?


 이 책은 23andMe, Navigenics, deCodeMe, Pathway genetics 등의 개인유전학 정보 회사들, Solexa, Illumina, 454 Life science, Complete genomics , Life Technology ( 전 ABI 사 ) 등의 차세대 유전코드 분석 회사들, 유전 정보를 바탕으로한 제약 산업과 의료계의 변화 등 개인의 DNA 염기 서열 분석이 현실화 되면서 가능해진 유전체 사업과 이를 둘러싼 산업,의료 나아가 사회적 변화가 어떻게 진행되어 왔고, 또 앞으로 어떻게 변화해 나갈 것인지를 가감없이 보여주고 있다.

특히 대표적인 개인유전정보 회사들의 서비스( 23andme, Navigenics, deCodeMe)를 직접 체험하면서 개인유전정보 서비스의 허와 실을 적나라하게 보여주고 있으며, 이들 회사들의 서비스를 통해 실제로 암과 같은 큰 질병을 조기 발견하여 치료가 가능했던 사례 등 실제 일반인들이 현재의 개인유전정보 서비스를 통해 얻을 수 있는 것이 무엇인지를 현실감있게 간접적으로 체험해볼 수 있는 내용이 담겨 있다.

이와 더불어, 한 사람의 DNA 염기 서열 30억 쌍을 10년 전 3조원에서 백만원(1천달러)으로 낮추는 엄청난 혁신을 가능케 했던 2세대 DNA 염기 서열 분석 기술과 2세대 기술을 완전히 압도하며 궁극적으로 DNA 염기 서열 분석을 $0로 까지 낮추는 3세대 DNA 염기 서열 분석 기술을 준비하는 회사들( 퍼시픽 바이오사이언스:PacBio, 옥스포드 나노포어, 아이온토렌트시스템스 등) 로 이어지는 치열한 DNA 염기 서열 분석 기술 경쟁의 흥미진진한 내용들도 포함되어 있다.



DNA 서열 분석 가격이 낮아졌다? 근데 그게 뭐가 그리 중요한데 호들갑?

게놈 산업의 현실화 


2000년 인간 게놈( Human Genome ) 분석 초안이 완성되었을 때부터, Bio 산업이 IT 산업의 뒤를 이어 세상을 엄청나게 변화시킬 주역이 될 것이란 예상과 기대가 넘쳐흘렀다. 하지만, 인간게놈 초안이 완성되고 난 이후에 이런 변화는 전혀 관찰하기 힘들었고, 학계 종사자를 제외한 일반인에게 인간게놈 연구의 파급효과란 제로에 가까웠다.

예상과 다른 현실이 펼쳐진 데에는 인간 게놈 DNA 서열들이 무엇을 의미하는지에 대한 지식이 산업적(제약, 의료 등)으로 이용될만큼 충분히 쌓이지 않은데 그 원인이 있었고, 설령 이런 지식이 쌓여 있다 하더라도,  이를 질병 치료에 이용하기 위해 개개인의 게놈 분석을 하기엔 그 비용이 엄청나게 높아(3조원, 10년이란 시간) 사실상 개인 게놈 정보의 이용이 불가능했었다.

게놈 DNA 서열 분석 기술의 혁명적 발전으로 이제는 1천달러( 서비스 비용은 여전히 1만달러 이상이긴 하지만 ) 와 일주일 정도면 상용 서비스를 이용해 한 사람의 게놈 분석을 할 수 있게 되었다. 즉, 이제 관심있는 사람이라면 누구든 자신의 게놈 DNA 서열을 읽어낼 수 있는 시대가 된 것이다.  그리고 이 비용은 시간이 지나갈 수록 기하급수적으로 떨어지고 있기 때문에, 수년 내에 이 가격은 1천달러가 아니라 1백달러(10만원) 수준으로 떨어질 것으로 예상되고 있다. 그냥 현실화가 아니라, 게놈 분석의 대중화가 목전에 있는 것이다.

게놈 산업을 IT 산업의 역사에 비유해 보자면, 1970년대 후반 애플 컴퓨터가 등장하며 개인용 컴퓨터 시대가 열리고, 컴퓨터가 대중화되기 시작한 시점이  현재의 게놈 산업의 발전 단계와 유사하다.  개인용 컴퓨터가 등장한 이후에는 이 컴퓨터를 다양한 용도로 이용할 수 있게 해주는 소프트웨어 개발 회사들이 성공가도를 달리기 시작했고, 기존의 산업군에 컴퓨터의 이용이 활발하게 자리잡기 시작하고, 1990년대 후반 인터넷의 등장과 함께 IT 산업은 정점을 맞이하게 된다. 게놈 산업도 이와 유사한 패턴을 가지고 성장해 나갈 것으로 예상한다.

개개인이 자신의 게놈 DNA 서열을 가지게 되면, 서열 분석을 해줄 분석 서비스가 필요해지고 이는 곧 분석 소프트웨어 산업으로 이어질 것이다. 게놈 분석을 통해 사람들이 자신의 유전 정보를 운용할 수 있게 되면, 기존의 산업군에 개인유전정보가 다양하게 이용되며 새로운 제품군들을 만들어 내게 되고, 대표적으로 광고, 보험 및 제약/의학 산업 등은 기존의 방식과는 완전히 새로운 방식의 사업 모델들로 대체되어 나가며 개인유전정보 산업이 꽃을 피우며 성장해 나갈 것이다.



새로운 패러다임, 새로운 삶의 방식

컴퓨터 사용 이 전과 이 후의 세상은 완전히 다르다. 스마트폰의 이전과 이후도 완전히 다른 세상이다. 물론 이런 엄청난 변혁을 서서히 겪어온 우리는 '급격한 변화' 를 피부로 느끼지 못하는 경우가 많지만, 20년 정도 전을 지금과 비교해 본다면 지금 우리가 얼마나 과거와는 다른 삶의 방식과 사고방식을 가지고 살아가는지 쉽게 느낄 수 있다.

개인 게놈 분석이 대중화된 시대 역시 그 이전의 시대와는 확연히 대비되는 세상이 된다. 질병이 걸리고 나서 힘겹게 수술 등을 통해 질병을 치유하는 시대에서, 질병이 발병하기 이전에 유전적으로 질병 위험도를 검사하고, 질병이 애초에 발병하지 않도록 사전에 예방하는 예방의학의 시대가 도래한다.

개인이 질병 위험도를 컨트롤 할 수 있다면, 보험사의 보험 상품도 지금과는 다른 방식이 되어야 한다. 질병 위험도가 높은 사람이 보험 상품을 구매할 수 없도록 하는 방향으로 변화하진 않을 거라 본다. 그건 보험사의 이익을 챙기기 이전에 보험회사의 존재 의의가 사라지는 방향이기 때문에, 이런 바보같은 결정을 하는 회사는 없을 것이다. ( 그런데도 사람들은 이런 바보같은 미래가 펼쳐질 것을 걱정하고 있다. ) 오히려 보험회사는 개인의 예방의학을 장려하는 쪽으로 보험 상품을 개발하고, 예방의학의 실천 정도에 따라 보험료를 차등화하는 방향으로 변화해 나갈 것이라고 생각한다. 단적으로 미국에선 Counsyl 이라는 개인 유전 정보 기반의 임신전 태아 유전병 테스트가 보험 지정 테스트로 선택되어 고객들의 유전 정보 기반 서비스 이용을 장려하고 있다.

왜 보험 사가 이런 선택을 할까? 간단하다. 그게 더 값싸게 먹히기 때문이다. 질병이 걸린 사람에 대해서 보험료를 지급하는 것 보다는, 고객이 유전적으로 질병 위험도가 어느 정도나 되는지 알고 스스로 질병에 걸리지 않기 위한 노력을 적극적으로 하게 하여 건강한 상태를 유지하고 결과적으로 보험료를 지급하지 않는 쪽이 훨씬 보험사에 유리하다. ( 건강한 상태를 유지하는 것은 궁극적으로 고객이 보험을 구매하는 이유이기도 하다. )

이렇듯, 개인 게놈 분석이 대중화된 시대의 산업은 그에 발맞추어 상당한 변화를 겪게 될 것이다.  이런 엄청난 변화들은 지금껏 우리가 경험해본 것 처럼, 서서히 피부로 느끼기 힘든 변화들이 거듭되며 나타날 것이라고 생각한다.

문제는 이런 혁명적 변화를 가져올 개인 게놈 시대가 이미 시작되었고, 앞으로 머지 않은 미래에 글에서 언급한 변화들이 하나둘씩 현실이 될 것이라는 사실이다. 이런 시대를 미리 대비하고 싶고, 지금 어떤 변화들이 진행되고 있는지 구체적으로 알고 싶은 사람이라면, '천달러 게놈( $1000 Genome ) ' 을 한번 일독해 보라고 권하고 싶다.

언론 소개 글


Sunday, May 8, 2011

Biostats Calculator:: iPhone/iPad 통계 툴

지난해 12월에 출시된 iPhone/iPad 용 통계 계산기 Biostats Calculator( http://itunes.apple.com/us/app/biostats-calculator/id325068885?mt=8# ).  통계학자가 아니면서 다양한 데이터에 대한 통계 계산을 일상적으로 해야하는 생물학/의학 연구자라면 복잡한 통계툴의 사용법을 배워서 사용하는 대신 이런 간편한 앱을 이용하는 것도 상당한 도움이 될 것 같다. 






뭐 하나쯤 스마트폰에 깔아놓는 것은 나쁘지 않겠지만, 그런 마음으로 구매하기엔 $10로 가격이 너무 비싸다는게 단점.  사실 이런 앱이 매력적으로 느껴지는 사람이라면, 어느 정도 일상적으로 통계 데이터를 다루는 사람일텐데, 대게 그런 사람이라면 이미 익숙하게 사용하는 통계툴이 있을 것이라, $10를 내면서 까지 이 앱을 구매할 정도의 매력을 느끼진 못할 것 같다.
마케팅 측면에선 좀 더 타겟 고객층을 명확하게 하고, 그에 따라 불필요한 통계 계산 기능은 빼는 것이 낫다는게 내 의견.

Sunday, May 1, 2011

킨들 불량::2번 연속 반품 및 교환

또 킨들 관련 글, 이번엔 불량 킨들 교환 경험에 관한 글이다. 그것도 연속 2번. 정말 흔치 않은 확률로 일어날 만한 사건인거 같아 포스팅을 남긴다.
1차 교환 킨들이 오른쪽, 2차 교환 킨들이 왼쪽 제품이다. 


1차 교환 

4월 2일 주문한 킨들을 받아, 아주 만족스럽게 사용하고 있었다. 문제가 발생한 날은 4월 29일. 킨들 사용 한달이 안 된 시점에서 문제가 발생했다.  충전을 완료하고 '시작 slide' 를 작동했는데 아무 반응이 없었다. 부랴부랴 아마존 사이트에 들어가 문제 해결책이 있는지 찾아보니, 시작 slide 를 15초 이상( 어떤 글에선 50초 ) 잡고 있다가 작동시켜 '재시동' 을 하면 문제가 해결된다고 한다는 정보를 입수. 그대로 시행.

뭔가 재시동을 하는 것 같이 초록색 불이 한동안 켜져 있었지만 무반응. 가만히 놔뒀더니 화면에 가로로 줄이 가기 시작했다. 얼마전 '이빨까기인형' 블로그에서 본 것과 같은 불량인 듯 싶었다.

새벽 3시쯤 되었지만, 바로 아마존 Kindle support 페이지에 가서 불량 보고를 하자마자, 아마존에서 전화가 오고, 자초지종을 설명하니, 아주 친절하게 1 day shipping 으로 다시 보내주겠다고 한다. ( 이 날이 금요일이고, 새 킨들은 실제로 다음날 토요일 오전에 도착했다. ) 그런데 이빨까기인형 블로그에서와는 다르게, 불량 제품은 아마존으로 반품을 해야했다. ( 이빨까기인형 님은 일본에 거주하니, 미국-일본 배송비 등을 고려하면 반품 정책이 그리 효율적이지 않아서 일 수 있겠다. )

아마존에서는 새 제품 배송과 동시에 반품을 위한 pre-paid UPS 주문서를 보내준다( 아래 그림 참조). 이 주문서를 반품할 킨들을 포장한 박스 겉면에 붙여서 가까운 UPS dropbox 에 넣으면 킨들 반품은 완료되니, 이 과정이 그리 성가신 작업은 아니긴 하다. 단, 30일 내에 불량 킨들 반품을 아마존 측에서 배송 받지 못한 경우엔 자신의 계좌에서 새로 보내준 킨들 가격을 그대로 결제하도록 되어 있으니, 반품은 꼭 해야만 한다.




2차 교환 


위에서 설명한 대로 새 킨들을 불량 신고 접수 후, 바로 다음날 배송 받았다. 이날은 하루 종일 누나가 킨들로 책을 읽었는데, 저녁 때가 되자, 누나가 또다시 문제점을 발견했다. 이번에는 킨들의 특정 부분이 다른 부분에 비해 희미하게 화면에 표시가 되는 문제였다.
사진 상에선 잘 안 보이는데, 중간 쯤에 This wasn't so 부분이 다른 부분과 비교해서 희미하게 보인다.

재시동을 해도 마찬가지였고, 다양한 책을 테스트 해봐도 마찬가지였다. 이렇게 되선 신경이 쓰여서 책을 읽을 수가 없다. 다시 바로 아마존에 불량 신청을 했고, 또다시 아무 문제 없이 킨들 교환을 받았다. 그러나 이번엔 2-day shipping 이네? 처음엔 1 day shipping 이었는데, 두번째는 이 옵션이 안 걸려 있었다.

내게 2-day shipping 은 사실상 standard shipping 이나 마찬가지 조건이다. 왜냐면 나는 'Amazon prime' 회원이라 기본으로 아마존에서 제품 구입시 2-day shipping 이 무료이기 때문이다. ( Amazon prime 회원 가입은 미국 대학에 다니는 학생은 공짜로 할 수 있다.  '.edu' 메일 주소로 확인을 하기 때문에, 이를 이용할 수 있는 사람은 prime 회원에 가입해서 혜택을 받으면 좋다. )


아마존 반품 정책

나는 이번 2번의 반품 이외에도, 한국에 있을 때, 한번 더 반품을 받은 적이 있다. 구체적으로 반품은 아니고, '재발송' 이었다. 신청한 책이 예정된 날짜를 넘겨 도착하지 않아, 아마존에 바로 claim 을 걸었더니, 아무런 확인 및 조건 없이 바로 새책을 배송해 주었다. 그러고 나서 몇일 지나 원래 배송중이었던 책이 도착해서, 결과적으로 난 두권의 새책을 배송받았었다. ( 한권당 10만원 짜리 )

기본적으로 아마존은 고객의 불만 사항에 대해 고객이 더 큰 불만을 가지거나 아마존을 혐오하지 않도록 아주 발빠르게 대응을 해준다. 반품이나 교환, 환불 등의 요구를 하게된 고객들 대부분이 아마존에 대한 엄청난 불만을 한가득 가지고 이런 불만 사항 접수를 하게 되는데, 너무 친절하게 요구를 들어주니, 결국 접수 이후 전화를 끊으면서 처음에 가졌던 불만은 온데간데 없이, 오히려 더 아마존을 신뢰하는 고객으로 거듭나게 되지 않을까 생각해본다. ( 적어도 나는 그랬다. )

아마존의 반품, 교환 정책은 만점.  절대적으로 만족한다.



킨들 제품 퀄리티 문제

킨들은 여타의 전자제품들과 다르게, display 에 E-ink 를 도입해, 실제 종이책을 읽는 것과 거의 유사한 화면을 보여준다. 하지만, E-ink 기술 자체의 완성도는 조금 떨어지지 않나 하는 의구심이 든다. 나같은 경우야 흔치 않겠지만, 한달도 안 되는 기간 동안 두개의 불량 킨들을 발견, 교환했다는 사실 자체가 킨들 제품에 대한 신뢰도를 많이 떨어뜨렸다.

킨들 제품 자체는 너무 만족스러운데, 이제 내일 모레 3번째로 받게될 킨들에 대해서도 또 불량이 나지 않을까 하는 걱정스런 마음이 앞선다.

또 하나, 킨들 제품을 구입하면 2년 짜리 Extended warranty 를 구입할 수 있는데, 위에 언급한 것과 같은 화면 불량은 심심치 않은것 같으니 이 보증 구입을 하는게 좋지 않을까 추천해 본다.
( 기본은 1년 보증)


Sunday, April 24, 2011

Kindle Singles::아마존의 서적판 '앱스토어'

킨들을 이용해 아마존에 접속을 하면, 'Kindle singles' 라 적혀있는 큼지막한 카테고리가 보인다. 들어가보면 기존의 아마존에서 책 검색 하는 화면과 같이 책 목록이 페이지를 채우고 있는데, 특이한 건 가격이 대게 $0.99, $1.99 등으로 상당히 저렴하다는 점과, 종이책 버전은 없이 킨들 버전으로만 책이 존재한다는 점.

킨들에서 아마존 접속한 화면. 'Kindle singles' 항목이 오른쪽 위에서 두번째 메뉴로 위치해 있다 .
처음엔 여기 속하는 책들이 판매가 저조해서 절판된 책들을 킨들버전으로 싸게 팔려는 책이거나, 혹은 싱글음반 처럼 맛뵈기 용으로 정식 출판 전에 간략 버전으로 출판하는 책이거나 둘중 하나가 아니겠나 생각했다.

그런데, 알고 보니 킨들싱글은 바로 서적판 '앱스토어'. 10,000~30,000 단어 사이의 길이로 쓰인 책을 출판사를 거치지 않고,  직접 킨들버전 책으로 출판을 할 수 있게 만들어 놓은 책 시장이 바로 킨들싱글.  애플 앱스토어와 유사하게, 킨들싱글로 출판된 책들은 0.99~4.99달러 사이로 가격을 책정해 판매할 수 있다.

저작권료는 책판매금액의 70%를 가져가고 책 판매시 매번 delivery fee ( 파일 크기에 따라 결정. 1KB 당 미국은 $0.15 ) 를 내거나, delivery fee 를 안 내고 35%를 가져가는 방식 둘 중 하나를 선택하면 된다고 한다.  ( 킨들버전 책은 물리적 delivery 는 필요없지만, 통신망(wifi or 3G) 을 통해 delivery 가 필요하고, 실제 아마존이 킨들 리더 이용 고객들의 3G 망 통신비를 부담하기 때문에 delivery fee 책정이 필요하다고 볼 수 있다.)

아마존 홈페이지에서 킨들싱글 페이지
킨들싱글 관련 기사들을 읽어보면, 1-3만 단어 길이의 글이 신문,잡지 등의 글보다는 길면서 보통의 단행본 책보다는 짧은 길이로, 사람들이 특정 주제에 관한 글을 편하게 느끼며 읽을 만한 길이라는 연구 결과에 착안해 킨들싱글 버전 책의 분량을 결정했다고 한다.

즉, 킨들싱글 마켓은 신문,잡지 등의 가벼운 글보다는 무겁고, 단행본 보다는 가벼운 읽을거리라는 틈새시장을 염두에 두고 기획된 것.  실제 3만단어면 종이책으로 100페이지 이내의 분량으로 3시간 이내에 읽을 수 있는 정도로, 직장인의 출퇴근 시간을 이용해 하루만에 소화할 수 있는 분량이다. 킨들싱글 버전 책 소비자는 바로 이런 사람들을 주요 타겟으로 했을 가능성이 높다.

이런 Self-publication 기반 책 거래 시장의 존재는 다양한 잠재력을 가지고 있다고 생각하는데, 아래와 같은 가능성들을 상상해 본다.

1. 맞춤형 지식의 활발한 유통
 책을 내는 저자들은 대게 어떤 분야든 그 분야 최고 전문가 급의 사람들이다. 이런 사람이 아니고선 감히 책을 낼 엄두를 내지 못하거나, 책을 출판하고 싶어도 출판해줄 출판사를 만나기가 하늘의 별따기 만큼 어려운 경우가 태반이다.  그러나 기껏 최고 전문가라 책을 출판 하더라도, 그 책이 독자의 갈증을 제대로 풀어주지 못하는 경우가 많다. 또, 최고 전문가가 출판한 책이지만, 기대에 미치지 못하는 범작에 그친 경우가 얼마나 많던가?

 강남 땅부자가 쓴 재테크 서적에서 '부동산에 투자해야 부자된다' 라는 조언은 평범한 월급쟁이의 재태크에 하등 도움되지 않는다. 평범한 월급쟁이로서 재테크에 성공적인 사람이 하는 조언이 평범한 월급쟁이에게 도움이 되는 재태크 지식이 된다.

  이렇듯, '다양한 레벨의 전문가' 들이 쓴 책들이 고객 맞춤형 지식으로 활발하게 유통되어 지식의 '효율적인 유통' 이 가능해질 수 있다.


2. 시기적절한 출판
 출판사를 통해 출판되는 책의 출판 프로세스는 사회적 시류의 변화와 발을 맞출 만큼 빠르기 힘들다. 그래서 대게 특정한 사건이 발생했을 때, 히트를 치는 책은 이미 이 전에 나와 있는 책들 중에 사건과 관련된 상황을 잘 설명하는 책들인 경우가 많다. 대표적으로 9/11 테러 당시 전세계적 베스트셀러가 되었던 사무엘 헌팅턴의 'The clash of civilization and remaking of world order ( 한국판 제목: 문명의 충돌)' 을 들 수 있다. 테러가 발생한 시점은 2001년 이었지만, 1998년에 출판된 이 책이 9/11 테러 관련 책으로 베스트셀러가 되었다.

 킨들싱글과 같은 출판 시장이 존재하는 앞으로는 특정한 사회적 사건이나 시류를 설명하는 책들이 빠르게 출판되어, 사건의 심층적인 이해를 원하는 독자들의 갈증을 풀어주는 상황을 기대할 수 있다.

3. 전자 리더 계의 통합 플랫폼
 킨들싱글 마켓은 아마존에서 기획한 시장이지만,  킨들 버전의 책은 킨들 리더를 통해서만 읽을 수 있는 것이 아니다. 다양한 스마트폰(아이폰과 안드로이드 등)과 타블렛PC( iPad, 갤럭시탭 등) 에서도 킨들 앱을 설치하고 책을 구입해서 읽을 수 있다. 즉, 어떤 전자 리더 기기를 가지고 있더라도 아마존 킨들싱글 마켓을 이용해 책을 출판하고, 구매하여 읽는데 문제가 없다.

 애플과 같이, 아마존이라는 일개 회사가 운용하는 북마켓이지만, 애플과 달리, 이 모델은 이미 개방형 모델로, 전자책 리더의 플랫폼에 독립적인 상당히 경쟁력 있는 모델이라, 향후 킨들싱글의 성공 이후에 이를 벤치마킹하여 유사한 북마켓을 오픈한다고 해도, 아마존이 구축해 놓은 플랫폼 독립적인 시장을 위협하긴 힘들지 않을까 하는 예상을 해본다.

4. 신데렐라 작가 등용문
유명인이 아닌 이상, 출판사를 통해 책을 출판하기란 쉽지 않다. 출판사를 통하지 않고 스타 작가가 된 '귀여니' 같은 사례가 있긴 하지만, 이건 정말 로또 당첨 보다 낮은 확률이다. ( 로또는 매주 당첨자가 한명 이상 나오지만, 귀여니 같은 신데렐라 작가는 일년에 한번 나올까 말까할 정도). 앱스토어가 시작되고 평범한 직장인의 대박 사례 등의 많이 나왔듯, 직업 작가가 아닌 평범한 보통사람의 신분으로 대박 작품을 쓰는 신데렐라 같은 이야기도 속속 접하게 되지 않을까

Wednesday, April 13, 2011

Amazon Kindle( 아마존 킨들) :: 사용기

누나의 생일 선물로 들어온(?) 아마존 킨들의 사용 후기를 적어본다. 킨들이 뭔지 모르는 사람을 위해 잠깐 소개해 보면,  아마존에서 개발한 '전자 책 리더' 로 전세계 전자책 리더 시장을 압도하고 있는 제품이다.

지난해 가을에 나온 3차 버전은 Wifi 에 더해 전세계 100여개 국에서 3G 망을 이용해 아마존 킨들 버전 책 구입 및 웹 검색 등을 할 수 있도록 제작 되었다. 여기서 한 가지 놀라운 것은 3G 망 이용비를 아마존이 대신 내준다는 것. 즉 3G 를 공짜로 이용할 수 있다는 것이다. 이는 한국에서도 마찬가지.

아마존 킨들에 대해선 이미 엄청난 리뷰들이 있으니, 소개는 이쯤에서 접고, 개인적으로 킨들을 이용하면서 느낀 점들을 정리해 본다.

1. Kindle vs. iPad ?
킨들과 아이패드를 놓고 어떤 것을 구입할지 고민하는 사람들이 있는데, 이는 TV 와 PC 또는 전자레인지와 가스레인지를 놓고 어떤 것을 살지 고민하는 것과 같다. 그렇다, 두 제품은 완전히 다른 목적을 가진 제품이라고 보는게 맞다.

찰리로즈 쇼에 나와 킨들을 소개했던 아마존 CEO 제프 베조스도 동일한 언급을 하는데 그는 "킨들은 책 읽기에 최적화된 제품으로 아이패드와 비교 불능" 이라고 단정짓는다.

직접 두 제품을 사용해본 내 생각도 동일하다. 킨들은 오리려 종이책과 비교를 하는게 옳은 말 그대로 '전자책' 이다. 킨들의 '전자 잉크 스크린' 화면은 종이책과 차이를 느끼기 힘들고, 나 같은 경우 오히려 종이책보다 더 책 읽기가 용이하게 느껴진다.

2. 킨들의 장점
  • 종이책보다 가볍고 휴대에 용이(최대 3500권 저장)
  • 어떤 자세에서든 책읽기 용이 ( 삐딱하게 누워서든, 쇼파에 묻혀서든 한손으로 간단하게 컨트롤 가능)
  • 한번 충전으로 오래 간다 ( wifi 망을 켜고 10일, 끄고 한달 )
  • 비영어권 국가 사람의 영어책 읽기에 용이 ( Built-in dictionary 시스템으로 책읽다가 모르는 단어 위에 커서를 그냥 놓으면 바로 영영사전 내용이 뜬다)
  • 아마존의 킨들버전 sample 서비스 ( PC를 이용하는 경우, 실제로 샘플 버전 책을 제대로 읽고 구매에 활용하기 어렵지만, 킨들버전으로 샘플 챕터를 제대로 읽고 활용 가능)
  • 인터넷에 공개된 공개 문서 활용도 극대 ( 실제 인터넷에 공개된 책들이나 IT 문서들이 많지만 PC 버전에서 읽기는 어렵고, 문서로 출력하기도 곤란하고, 출력해도 A4 용지에서 책처럼 많은 분량을 읽기란 쉽지 않다. 문서를 PDF 버전으로 바꿔 아마존의 킨들 버전 convert 서비스를 이용해 킨들에 최적화된 버전으로 바꿔 책처럼 편안하게 읽을 수 있다)
  • 한권의 책 구입으로 온 가족이 함께 리딩 ( 킨들 버전 책을 구매하면 여러 기기에서 동시에 책을 읽어나갈 수 있다. 동생은 스마트폰에, 엄마는 아이패드에, 아빠와 나는 킨들에서 베스트셀러 소설 한권을 사서 모두 동시에 책을 읽어 나갈 수 있다. 장기적으로 상당히 경제적일 수도 있다)
  • 킨들 버전 책 구매의 편리성 ( 한번의 클릭으로 1분 안에 책을 받아 읽을 수 있다. 한시가 급하게 필요한 책,  혹은 한국에서 구매로 배송 시간이 오래 걸리는 등의 경우 불편함이 완전히 제거된다)
  • 이사 시 편리 ( 이사할 때 책이 젤 무겁다!! )

3. 킨들의 단점
  • 전자책이지만 밤에는 조명이 필요 ( Light 를 쏘는 형태가 아니라 빛이 없다 )
  • 책을 사서 읽고 나도, 책장에 진열해 놓고 뽐낼 수 없다
  • 책을 읽으며 중요한 부분 표시 하는 경우, 종이 책 처럼 휙휙 넘겨가며 찾는 맛은 없다
  • 생각보다 전자책값이 싸진 않다. ( 종이책 보다 약간 싸다 )
  • 한국인이라면 한국책은 킨들 버전 책이 없다는 것

장단점은 이런 정도가 생각이 난다. 영어책을 많이 읽지 않는 한국 사람이라면 사실 킨들을 살 이유는 전혀 없다. 영어책을 읽어도 IT 기술서만을 보는 사람도 킨들을 살 이유가 없다. 킨들은 IT 기술서 같은 다양한 그래픽, 소스코드 등을 보긴 부적합하다. 말그대로 킨들은 서점에 즐비한 평범한 책들(소설,비소설 난픽션,경제서적 등등) 을 보는 기계다. 
 반대로 영어로 된 책 읽기를 즐기는 사람이라면, 한국에서 아마존 책 구매를 빈번히 하면서 배송료가 아깝고 배송을 기다리기 힘들다고 느끼는 사람이라면,  킨들 구매를 적극 추천한다. 

Monday, April 11, 2011

23andMe 서비스 파격 세일, 그리고 이를 가능케 하는 시스템.

오는 4월 15일 DNA day 를 맞아,  23andMe 가 파격 세일을 단행한다.
(추가 : 4월 11일 하루 만에 이 세일은 끝났고, 현재는 $99+$9*12 로 돌아갔다. 하지만 DNA day 등의 특별한 날 이와 같은 세일이 반복될 가능성이 높다. )


 세일 기간은 오늘(4월 11일) 부터 홈페이지에 세일 안내 문구가 떠 있을 때 까지이며, 세일 내용은 원래 초기 Genotyping 가격 $199 를 완전히 내지 않고, 매월 $9 의 update subscription 을 12개월 유지하는 조건이다.


즉, 원래 가격 $199 + $9/month * 12 = $307 에서 $199불이 할인된 $108에 서비스를 받을 수 있다. 지난해 크리스마스 할인 때는 , $99+$5/month * 12 = $159 이었으니, 이번 할인은 23andMe 역사상 최저가에 서비스를 받을 수 있는 기회이기도 하다.


 23andMe 의 서비스는 Illumina SNP genotyping chip 을 이용해 개인의 SNP genotyping 을 하는데, 한국에선 이 SNP chip 한장 분석 비용이 근 100만원이 든다. 대체 어떻게 23andMe 가 이런 파격 세일을 단행할 수 있는 것일까? 손해보면서라도 DTC genotyping 저변을 넓히려는 것일까? 대답은 No. 절대 이 가격으로도 손해보지는 않는다.  그 비밀은 23andMe 가 사용하는 칩에 있다.


23andMe 가 사용하는 SNP 칩
23andMe 는 Illumina사의  OmniExpress Beadchip 을 사용한다. 이 칩은 하나의 칩으로 12개의 sample 의 SNP 를 읽을 수 있도록 설계되어 있다.  즉, 서로다른 12명의 SNP 를 하나의 칩으로 읽을 수 있다는 말이다.


 Illumina 사에 직접 문의해서 알아본 이 칩의 가격은 미국 유통을 기준으로 개당 $250이다. 하나의 칩으로 12명의 SNP profile 을 읽어낼 수 있으니,  개인 당 $20.8 이면 SNP 칩 가격을 충당할 수 있는 것이다.   나아가 23andMe 는 이 칩을 대량으로 구매할 것이고, 따라서 실제 개인당 부담 칩 가격은  여기서 더욱 낮아진다.


 여기에 SNP 칩 실험 설비 및 인건비 등이 더해지지만, 23andMe 가 자체적으로 이 설비와 인력을 갖추고 있기 때문에, 이 비용은 그리 크지 않을 것으로 본다. 결론적으로 23andMe 서비스에 필요한 '원가'  자체는 상당히 낮은 수준으로 유지가 가능하고, 그렇기 때문에, 이런 식의 파격 세일을 단행할 수 있는 것이다. 절대로 이 세일 가격이 '원가' 보다 낮은, 밑지는 장사가 아니라는 것이다. 


 ( 추가 ) 하지만, 원가보다는 높아도 마진 역시 크지 않기 때문에, 이 역시 구글, 제넨텍 등을 통해 수천만 달러(수백억원) 의 투자금을 등에 업은 23andMe 가 아니고서는 감히 엄두를 내기 힘든 가격일 것이다. 

Wednesday, March 16, 2011

iPad2



iPad2 산건 아니고, Apple store 에 들렀다가
회사 홈페이지와 이 블로그를 각각 띄워서 함 찍어봤다.

iPad 에 비해  iPad2 가,  웹서핑이 뭔가 좀 smooth 하고 간결한 느낌이 난다.
칩 성능 향상으로 인해 속도가 빨라졌다던데, 그 때문이 아닌가 싶다.

만져볼 때 마다 드는 생각이지만, iPad 는 확실히 컴퓨터도 아니고, 스마트폰도 아닌
그 독자적인 위치가 있는 기기다. 전자책이나 논문을 띄워놓고 읽어보면 정말
종이 버전보다 눈에 잘 들어온다. 그리고, 정말 웹서핑을 '손으로 컨트롤' 하는건,
완전히 다른 차원의 일이다. 무지 쉽고, 직관적이다.

이런 새로운 차원의 툴이 있고, 여기에 들어가는 '앱' 을 만들 기회가 누구에게나
주어져 있다는 건 엄청난 축복이다.

현재 미국에선 iPad2 신품 최하 기종이 $499에, iPad 는 iPad2 가 나오던 날 20% 할인되어
$399에 판매되고 있는데, 조만간 iPad2 를 하나 장만하기로 결정했다!!

Saturday, March 12, 2011

통계적 방법론의 함정 :: 20억의 교훈

Nature 최신호에 지난 5년간 Nature 에 출판된 논문들 중 가장 인용이 많이된 논문들, 그 중에서 분야별로 중요하다고 판단되는 논문들의 저자들과의 인터뷰 내용을 정리한 feature article 이 출판되었다.
(  http://www.nature.com/nbt/journal/v29/n3/pdf/nbt.1798.pdf )

이 중에 FDA Leming Shi 박사의 리드 하에 2차에 걸쳐 진행된 MAQC ( MicroArray Quality Control Consortium )  에 관한 내용이 포함되어 있다.  MAQC 1차 연구 결과는 2006년 Nature biotechnology 에 총 6편에 걸쳐 게제되었고, MAQC 2차 결과는 지난해 Nature biotechnology 에 종합판 1편과 Nature 자매지인 Pharmacogenomics journal 에 11편에 걸쳐 게제된 바 있다.

글에서 Leming Shi 박사가 언급한 내용 중엔 생물학 데이터를 다루는 생명정보학자들이 특별히 유의해야할 내용이 포함되어 있다. 데이터 분석 값들이 의미하는 바를 직시하지 못하고, 통계적 방법론을 맹신하는 태도가 바로 그것이다.

마이크로어레이 분석에서 가장 큰 문제는 어레이 플랫폼을 어떤 회사 것을 쓰는지에 따라, 또 매번 연구 마다 결과가 달라지는 '낮은 재현성' 이었다.  마이크로어레이 preprocessing 분석 방법들 중  이 '낮은 재현성' 문제를 피하는데 가장 효과적인 분석법이 무엇인지 알아보기 위해 $200만 달러가 투자되고, 51개 기관 총 137명이 참여해 연구한 MAQC1 결과는 아래와 같았다.


“The only  data that was reproducible was if you looked 
at the magnitude of the difference between the 
two conditions and then ranked all the genes 
on the chip based on the fold-change "


" 오직 Fold-change 값으로 유전자 발현량 변화의 랭킹을 매겨
분석한 결과만이 재현되었습니다. "

이 결과는 예상과 상당히 다른 결과였다. Fold change 란 그저 분석 대상이 되는 두 그룹의 발현량에 대한 비율에 불과한 통계적 관점에서 보자면 상당히 crude 한 값에 불과했기 때문이었다. Fold change 에서 한단계 더 나아가 분석값들의 variation 까지 고려한  t-test 가 통계적 관점에서는 당연히 더 합당한 분석법으로 인정된다.

Leming Shi 는 이 결과를 학자들 앞에서 발표하지만, 데이터를 다시 분석해보라고 결과에 대해 의심을 받기도 하였고, 결과를 정리한 논문이 제 때에 발표되지 못하는 우여곡절을 겪기도 했다고 회상한다. ( 2008년 한국을 방문했던 MAQC 참여그룹 책임자 James Fuscoe 박사를 가이드 하며 들은 바론 그 때 이미 논문을 submit 했다고 했으니, MAQC2 논문은 submit 에서 출판까지 2년 정도가 걸린 것 같다.)


“People were dominated by pure statistical consideration without 
thinking of what the technology was trying to  tell us,”


" 사람들은 데이터가 무엇을 의미하는지에 대한 고민 없이
통계적 방법론에 압도되었죠. "

흔히 통계적 방법론을 적용한 이후, 결과 값들이 무엇을 의미하는지에 대해선 깊이 생각하지 않고 넘어가기 쉽다. T-test 를 적용해 p-value 0.01 이하인 유전자들이 유의한 발현량의 변화를 보였다라고 결과를 보고하지만, p-value 0.01 인 유전자들이 p-value 0.1 인 유전자에 비해 정말 유의한 발현량을 보인다고 할 수 있는지, 이러한 방법으로 얻은 결과가 서로다른 플랫폼에서 수행된 마이크로어레이 실험들 간의 분석 결과의 재현성을 보장해 줄 수 있는지,  t-test 가 마이크로어레이 분석에 fold-change 보다 더 적절한 통계적 방법인지 일일이 고민해 보고 직접 실험해 보기란 쉬운 일은 아니다. 이미 동료 연구자들에게 널리 사용되고 있다면 더욱 더...

또한, 좀 더 '복잡한' 통계적 방법론이 더 그럴듯해 보이고, 설득력 있게 들리는 경향도 있는 듯 하다( 적어도 나는...) . 좀 더 진보되었다고 알려진 , 좀 더 그럴듯한 통계적 방법과 구식의 낡은, 간단한 통계적 방법 사이, 널리 쓰이는 방법론과 그렇지 않은 방법론의 사이... 이들 사이에서 항상 균형 잡힌 시각으로 가능성을 열어두고 연구를 진행 할 수 있다면, 통계적 방법론에 매몰되어 진실을 왜곡하는 일은 피할 수 있을텐데...

Large scale data 분석이 없는 생물학 연구를 상상하기 어려운 세상이 된 시점에서, 연구자들에게 통계적 방법론에 대한 맹신에 대한 경종을 울리는 자체만으로  MAQC 연구 논문이 최근 5년간 가장 중요한 '생명 공학' 연구 중 하나로 뽑힐만한 가치가 있지 않나 생각한다.

Tuesday, March 8, 2011

NCBI SRA 서비스 중단

NGS 기술을 통해 쏟아져 나오는 sequence 데이터 저장소 서비스였던 NCBI의 SRA( Sequence Read Archive ) 와 Trace Archive 가 예산 부족을 이유로 서비스를 중단한다는 소식이다( http://www.ncbi.nlm.nih.gov/sra ). NCBI  의 다른 데이터베이스들과 비교해 리소스는 많이 잡아먹으면서, 활용도(인기) 는 상대적으로 많이 처지는 상황이었기에 이런 결정을 내렸다는 의견이 있다.

그러나 3대 genome 기관 중 NCBI 를 제외한 두곳, EBI 와 DDBJ 는 SRA 서비스를 계속 한다는 방침을 발표했다( http://www.ebi.ac.uk/ena/SRA_announcement_Feb_2011.pdf , http://www.ddbj.nig.ac.jp/whatsnew/2011/DRA20110222.html ).

규모나 연구자금 면에서 가장 여유로운 미국의 NCBI 가 차후 바이오텍을 혁명적으로 바꾸어나갈 NGS raw data 저장소 서비스를 EBI 나 DDBJ 에 앞서 중단한다니 다소 의외다. 차후 새로운 포맷으로 효율적인 새 NGS 저장소 서비스를 준비하려고 하나 싶다가도, 그럴 계획이 있었다면 기존의 SRA 서비스를 살려놓은 채로 smooth 하게 변화를 주었을 거란 생각을 하면, 이번 결정이 SRA 서비스 자체의 효용성에 대해 NCBI 내부에서 '부정적' 으로 결론을 내렸기 때문이 아닌가 하는 생각이 든다.

SRA 서비스가 효용성이 떨어진다고 결론내렸다면 아래 두가지 이유가 아니었을까...

1. NGS raw data 자체의 비효율성
- NGS raw data 는 보통 수십배 중복되어 같은 부위의 DNA 를 읽은 수백 base 단위의 read 들로 구성되어 있다. 이 데이터는 assemble 되어 중복이 제거된 하나의 full sequence ,  목적에 따라 CNV 데이터, RNA-seq 의 경우 expression 데이터로 변환 될 수 있는데, 이 과정에서 불필요하게 중복된 데이터들이 제거될 수 있다.

개인의 whole genome 분석을 수행한 NGS raw 데이터라면, 30배수로 실험을 수행한 경우 3GB*30 = 90GB(완전한 raw data 라면 이 보다도 훨 크겠지) 가 소모되지만 분석 결과는 하나의 whole genome 3GB 다.  효율적이고 간결한 whole genome DB 가 필요하다면, 불필요한 나머지 87GB 의 데이터를 모두 저장하고 있을 필요가 없다.

2. 기존의 다른 NCBI DB들과의 중복성
- SRA 중단을 알리는 글에,
RNA-seq 는 GEO,
varient와 genotype, polymorphism 정보는 dbVar, dbGaP, dbSNP,
genome assemblies 는 Genbank/WGS,
transcript 는 Genbank/TSA,
16s ribosomal RNA 와 기타 genomic data 는 Genbank
를 이용해 저장하라고 안내되어 있다.

NGS raw data 를 processing 하여 얻을 수 있는 정보들은 모두 기존의 NCBI DB들이 담고자 하는 정보와 부합이 되기 때문에, 복잡하고 생명정보학 전문가들이나 컨트롤 할 수 있기에 생물학계 전반의 학자들에 의한 활용도가 낮은 SRA 서비스를 중단하고, 기존의 DB 들에 NGS raw data 분석 결과를 저장해 나가자는 결정을 내렸을 수도 있을 것 같다 ( 정말 예산이 부족했다면...)

NGS 데이터 분석을 해본 적이 없어, NGS raw data 가 얼마나 효용성이 큰 데이터 인지는 사실 잘 모르겠다. 예컨데 1000명 인간의 whole genome sequence 를 분석했다면, 1000개의 whole genome sequence 가 최종 결과다. 중간의 분석 과정에서 어떤 분석 방법을 쓰느냐에 따라 아마 sequence 결과에 조금씩 차이가 생기긴 하겠지. 하지만 NGS 기계 자체의 기술적 진보와, 분석 방법의 발전은 적당한 선에서 consensus 가 이루어 질 것이다( CNV, epigenetic data 등 한 NGS raw data set 에서 나올 수 있는 것들 포함). 그런 상황에서 NGS raw data 를 이용해 새로운 연구를 해볼 만한 여지는 크게 없지 않나 하는 생각이 들기도 한다.

Sunday, February 6, 2011

생명정보학자들은 어떤 역할을 해야 하나?

네이쳐 바이오테크놀로지에 2010년 생명정보학 연구 하일라이트에 관한 글이 실렸다.
http://www.nature.com/nbt/journal/v29/n1/pdf/nbt.1747.pdf

이 글 중 Box2 에는 '분야를 뛰어넘는 연구자( Cross functional individual )' 들이 생명정보학 연구에 어떤 기여를 하고 있는지에 관한 내용이 담겨있다. 여기서 말하는 분야를 뛰어넘는 연구자들은 곧, 생명정보학자, 계산 생물학자로 지칭되는 생물학과 계산과학 두 분야 모두에 전문적인 지식을 가진 연구자들을 이야기 한다.

생명정보학 툴이 생물학계 전반에 퍼지는 양상은 3단계에 거쳐 진행이 된다고 하는데, 이 순서는 아래와 같다.

1. 생명정보학자들이 정보학적 분석을 통해 해결할 수 있는 생물학 문제들을 인식하고 간단한 방법론을 통해 이런 문제들을 해결할 수 있다는 사실을 증명한다.
2. 정통 계산과학자 ( 수학 및 컴퓨터과학자들 ) 들이 좀더 정교한 방법론들을 이용해 생명정보학자들이 만들어 놓은 간단한 방법론을 개선하여 생물학자들이 사용하기 쉬운 '툴'로 만든다.
3. 만들어진 '툴'을 필요로 하는 생물학자들이 사용하여 새로운 발견에 이용된다.

마이크로어레이 '분류( classification )' 연구에서 핵심이 되는 것은 특징 찾기(feature selection) 과정인데, 이 분야 연구를 예로 들어보면,  1999년 Todd golub 에 의해 출판된 네이쳐 논문이 선구적인 논문으로 이와 관련해 가장 인용이 많이 된 논문인 것으로 알고 있다.

그런데, 이 논문의 핵심이 되는 feature selection 알고리즘은 새롭게 개발된 것이 아니라, 흔하게 쓰이는 t-test 다. 즉, 위의 1번 과정 처럼 '기존에 존재하는 단순한 방법론' 을 '새로운 생물학 문제'에 적용을 하여 효과적으로 문제 해결을 할 수 있다는 사실을 증명한 것이다.

이후로 이 보다 훨씬 정교한 방법론들이 수학자, 통계학자, 컴퓨터 공학자들에 의해 엄청나게
만들어 지면서 2번 과정이 진행된다. 이 중에 가장 효과적이라고 검증된 SAM 과 같은 몇몇개의 방법론들은 마이크로어레이 분류 문제 해결을 위해 전세계의 생물학자및 생명정보학 연구자들에 의해 사용되는 3번 과정을 거치며 기술 정착 단계에 이른다.

1,2,3번 과정에서 가장 큰 업적으로 평가받는 것은 1번, 즉 가장 먼저 '문제를 인식' 하고 '간단한 방법으로 해결 가능성' 을 보인 사람이다.  노벨상도 이런 일을 한 사람에게 돌아간다. 즉, 노벨상이나 각광받는 연구 업적들은 대단한 '방법론' 에 의한 경우보다 새로운 '문제 인식(발견)' 인 경우가 많고, 이런 새로운 '문제 인식' 에는 복잡한 방법론이 필요하지 않은 경우가 많다는 얘기다.

똑같은 문제를 조금 더 효과적으로 해결하는 방법론 을 만들기 위해 노력하는 것 보다, '중요한 문제' 발굴에 좀 더 신경을 쓰는 것이 좋은 생명정보학 연구자로 거듭나는 길이 되지 않을까 생각해 본다.