Sunday, February 21, 2010

우리 연구소의 티스푼은 얼마나 빠르게 사라지나?

http://www.bmj.com/cgi/content/full/331/7531/1498?view=long&pmid=16373727

'연구소에서 티스푼은 얼마나 빠르게 사라지나? ' 에 대한 연구 논문이 BMJ(British medical journal) 라는 저널에 2005년에 게제되었었다. 메인스트림의 과학적 질문과는 다분히 거리가 멀어 보이는 이 연구가 Impact factor 가 12나 되는 의학 저널에 실렸다. 의학적으로도 이 연구가 그리 연관성이 있어보이지 않는데...

연구 내용을 정리해 보면,

* 연구 장소 : 140명 정원의 연구소 .

* 연구 내용 : 70개의 티스푼을 순서메겨 이름표를 표시하여, 5개월간 이들의 행방 추적.

* 연구 결과 :
1)80%의 티스푼 ( 70개 중 56개) 가 연구기간 중 사라짐.
2)티스푼의 품질은 티스푼 사라짐 정도와 무관함.
3)사라지는 속도로 고려해 볼 때, 이 정도 규모의 연구소에서는 연간 250개 티스푼이 필요하다고 추정됨.

연구소에서 티스푼은 office material로 필수적인 것이기 때문에, 티스푼의 안정적인 공급을 위해 이런 연구가 의미있다라고 생각해 볼 수 있을까? 의학적인 성과라면, 의학 연구 기관 종사자들이 안정적으로 차를 타마실 수 있는 안정적인 티스푼 공급량을 산출했다라고 할 수 있을까 ? ㅋ

이런 식의 연구가 필요한 분야가 있을 것 같긴 하다. 생활과학 관련 분야? 티스푼 생산 업종 관련 기업의 연구소 등. 이 논문의 footnote를 보면 유사 연구도 많고, citation 된 횟수도 7회 정도로 된 걸 보면, 이런 연구를 전문적으로 하는 사람들이 있을 것 같기도 한데, 확신은 못하겠다.

여튼, 이런 식의 다소 엉뚱한 연구들이 수행되고, 논문으로 publish 될 수 있는 문화적 토양이 튼튼한 사회들이 참 부럽다. 창의적이란건 사실 정말 별게 아니다. 그저 스스로 재밌어 보이는 일련의 path를 따라가면 자연스럽게 남들과 다른 독특한 사고를 할 수 있고, 시도를 하게 된다. 우리 나라에선 이런 창의적인 사고도 결국 '성과' 지표의 일환으로 연결 될 때, 의미있는 것으로 판단되지만, 이러한 엉뚱해 보이는 연구들이 시도조차 될 수 없는 peer pressure가 존재하는한, 그 어떤 과학 부흥 정책도 정말 정책 입안자들이 원하는 '돈되는 성과'로 나타나긴 요원한 일이다.

Thursday, February 18, 2010

Upcoming Perl book


Effective Perl Programming 2판이 2010년 5월 17일 출간 예정이라고 한다.
Amazon에 올라온 책 설명을 요약해 보면 1판에 비하여 CPAN에 관한 9개 챕터 추가, 다양한 application과 UI 기법들, 연습문제 및 풀이에 대한 업데이트가 이루어졌다고 한다.

Effective Perl Programming 1판을 보지 않은 상태에서, 연습문제 및 풀이가 들어가 있는 것으로 보아, perl learner를 위한 책이 아닌가 생각했는데, 1판의 독자리뷰를 보니, 완전한 초심자들을 위한 책은 아니라고 한다. 일례로 1992년 부터 perl 을 쓰고, community college에서 강의까지 한 사람이 이 책을 읽고 다양한 tip & technique 을 습득할 수 있었다고 한다.

이러한 예로 ($a,$b)[$a<$b] 같은 구문을 들었는데, 이 구문은 두 변수 중 큰 값을 반환한다고 한다.

my $a=5;
my $b=10;
my $c=($a,$b)[$a<$b];


에서 $c 를 찍어보면 값이 10이 나온다. 이 구문은 처음 봤는데, 이 책에 이런식의 다양한 기법들이 등장한다고 하니, 책이 나오면 한번 사봐야겠다는 생각이 든다.

Thursday, February 11, 2010

Dynamic modularity for disease prediction

2009년 2월에 출간된 Dynamic modularity in protein interaction networks predicts breast cancer outcome ( nature biotech, 27, 199 ) 에서 'Dynamic modularity' 라는 개념을 토대로 PPI network 을 분석하고, breast cancer 환자 survival data를 이용 환자 survival을 prediction 한 연구 내용을 소개하고 있다.

기본적으로 Dynamic modularity라는 개념은 이미 이전에 많이 언급되었던 내용인데, network의 연결이 상황에 따라 느슨하거나 타이트하게 변화한다는 것이 핵심이 된다.

논문에서는 우선 분석 대상이 되는 유전자를 network의 허브 유전자로 한정한다. 이렇게 허브 유전자로 한정한 원인은 두가지 정도 생각해 볼 수 있는데, 첫째, network 의 허브들 간의 연결에 주목하여 중요한 biological path 를 커버하여 분석할 수 있고, 동시에 주요하지 않은 유전자들을 모두 분석에 사용하여 과다하게 복잡한 양의 결과 분석을 통해 올 수 있는 노이즈를 사전에 제거할 수 있다는 의미, 두번째로는 분석 계산양의 감소 효과다. 논문에서는 허브 유전자간 co-expression 계산을 통해 네트워크의 dynamic modularity 를 잡아내는데, 네트웍에 들어있는 모든 유전자들을 사용한 pair-wise co-expression 계산량은 node 개수가 증가함에 따라 기하급수적으로 늘어나 계산 시간을 엄청나게 늘린다. 40,000개 노드 정도가 되면 array 숫자에 따라 틀리긴 하겠으나 경험상 일주일 이상 하나의 컴퓨터가 온전하게 소요되어야 할 정도 ( 포스팅 참조 ).

한정된 hub 유전자들을 두고, tissue-specific human gene expression dataset을 이용해 1)intramodular hub 와 2)intermodular hub 로 허브 유전자들을 구분한다. 이때, intramodular hub 는 tissue non-specific하게 높은 co-expression 정도를 보여주는 유전자들이고, intermodular는 tissue에 따른 co-expression 이 변화량이 들쭉날쭉한 유전자들이 된다.

논문에서는 이렇게 구분된 두개 클래스의 허브 유전자들에 대한 network topology, functional analysis 등을 통해 intra-,inter-modular hub 유전자들의 특성을 비교 분석한다.

마지막으로 breast cancer patient cohort data를 이용해 breast cancer patient 에 specific하게 강하거나 약한 co-expression 을 보이는 허브 유전자 쌍들을 feature로 이용해 prediction 하고 그 결과를 리포팅하고 있는데, 결과는 현재 상업적으로 이용되는 breast cancer diagnostics 기법에 비해 6~23% 높은 정확도를 보인다.