Saturday, March 12, 2011

통계적 방법론의 함정 :: 20억의 교훈

Nature 최신호에 지난 5년간 Nature 에 출판된 논문들 중 가장 인용이 많이된 논문들, 그 중에서 분야별로 중요하다고 판단되는 논문들의 저자들과의 인터뷰 내용을 정리한 feature article 이 출판되었다.
(  http://www.nature.com/nbt/journal/v29/n3/pdf/nbt.1798.pdf )

이 중에 FDA Leming Shi 박사의 리드 하에 2차에 걸쳐 진행된 MAQC ( MicroArray Quality Control Consortium )  에 관한 내용이 포함되어 있다.  MAQC 1차 연구 결과는 2006년 Nature biotechnology 에 총 6편에 걸쳐 게제되었고, MAQC 2차 결과는 지난해 Nature biotechnology 에 종합판 1편과 Nature 자매지인 Pharmacogenomics journal 에 11편에 걸쳐 게제된 바 있다.

글에서 Leming Shi 박사가 언급한 내용 중엔 생물학 데이터를 다루는 생명정보학자들이 특별히 유의해야할 내용이 포함되어 있다. 데이터 분석 값들이 의미하는 바를 직시하지 못하고, 통계적 방법론을 맹신하는 태도가 바로 그것이다.

마이크로어레이 분석에서 가장 큰 문제는 어레이 플랫폼을 어떤 회사 것을 쓰는지에 따라, 또 매번 연구 마다 결과가 달라지는 '낮은 재현성' 이었다.  마이크로어레이 preprocessing 분석 방법들 중  이 '낮은 재현성' 문제를 피하는데 가장 효과적인 분석법이 무엇인지 알아보기 위해 $200만 달러가 투자되고, 51개 기관 총 137명이 참여해 연구한 MAQC1 결과는 아래와 같았다.


“The only  data that was reproducible was if you looked 
at the magnitude of the difference between the 
two conditions and then ranked all the genes 
on the chip based on the fold-change "


" 오직 Fold-change 값으로 유전자 발현량 변화의 랭킹을 매겨
분석한 결과만이 재현되었습니다. "

이 결과는 예상과 상당히 다른 결과였다. Fold change 란 그저 분석 대상이 되는 두 그룹의 발현량에 대한 비율에 불과한 통계적 관점에서 보자면 상당히 crude 한 값에 불과했기 때문이었다. Fold change 에서 한단계 더 나아가 분석값들의 variation 까지 고려한  t-test 가 통계적 관점에서는 당연히 더 합당한 분석법으로 인정된다.

Leming Shi 는 이 결과를 학자들 앞에서 발표하지만, 데이터를 다시 분석해보라고 결과에 대해 의심을 받기도 하였고, 결과를 정리한 논문이 제 때에 발표되지 못하는 우여곡절을 겪기도 했다고 회상한다. ( 2008년 한국을 방문했던 MAQC 참여그룹 책임자 James Fuscoe 박사를 가이드 하며 들은 바론 그 때 이미 논문을 submit 했다고 했으니, MAQC2 논문은 submit 에서 출판까지 2년 정도가 걸린 것 같다.)


“People were dominated by pure statistical consideration without 
thinking of what the technology was trying to  tell us,”


" 사람들은 데이터가 무엇을 의미하는지에 대한 고민 없이
통계적 방법론에 압도되었죠. "

흔히 통계적 방법론을 적용한 이후, 결과 값들이 무엇을 의미하는지에 대해선 깊이 생각하지 않고 넘어가기 쉽다. T-test 를 적용해 p-value 0.01 이하인 유전자들이 유의한 발현량의 변화를 보였다라고 결과를 보고하지만, p-value 0.01 인 유전자들이 p-value 0.1 인 유전자에 비해 정말 유의한 발현량을 보인다고 할 수 있는지, 이러한 방법으로 얻은 결과가 서로다른 플랫폼에서 수행된 마이크로어레이 실험들 간의 분석 결과의 재현성을 보장해 줄 수 있는지,  t-test 가 마이크로어레이 분석에 fold-change 보다 더 적절한 통계적 방법인지 일일이 고민해 보고 직접 실험해 보기란 쉬운 일은 아니다. 이미 동료 연구자들에게 널리 사용되고 있다면 더욱 더...

또한, 좀 더 '복잡한' 통계적 방법론이 더 그럴듯해 보이고, 설득력 있게 들리는 경향도 있는 듯 하다( 적어도 나는...) . 좀 더 진보되었다고 알려진 , 좀 더 그럴듯한 통계적 방법과 구식의 낡은, 간단한 통계적 방법 사이, 널리 쓰이는 방법론과 그렇지 않은 방법론의 사이... 이들 사이에서 항상 균형 잡힌 시각으로 가능성을 열어두고 연구를 진행 할 수 있다면, 통계적 방법론에 매몰되어 진실을 왜곡하는 일은 피할 수 있을텐데...

Large scale data 분석이 없는 생물학 연구를 상상하기 어려운 세상이 된 시점에서, 연구자들에게 통계적 방법론에 대한 맹신에 대한 경종을 울리는 자체만으로  MAQC 연구 논문이 최근 5년간 가장 중요한 '생명 공학' 연구 중 하나로 뽑힐만한 가치가 있지 않나 생각한다.