Mainly on Personal Genome Industry, Preventable Medicine, Mobile healthcare tech, and Bioinformatics.
Wednesday, March 16, 2011
iPad2
iPad2 산건 아니고, Apple store 에 들렀다가
회사 홈페이지와 이 블로그를 각각 띄워서 함 찍어봤다.
iPad 에 비해 iPad2 가, 웹서핑이 뭔가 좀 smooth 하고 간결한 느낌이 난다.
칩 성능 향상으로 인해 속도가 빨라졌다던데, 그 때문이 아닌가 싶다.
만져볼 때 마다 드는 생각이지만, iPad 는 확실히 컴퓨터도 아니고, 스마트폰도 아닌
그 독자적인 위치가 있는 기기다. 전자책이나 논문을 띄워놓고 읽어보면 정말
종이 버전보다 눈에 잘 들어온다. 그리고, 정말 웹서핑을 '손으로 컨트롤' 하는건,
완전히 다른 차원의 일이다. 무지 쉽고, 직관적이다.
이런 새로운 차원의 툴이 있고, 여기에 들어가는 '앱' 을 만들 기회가 누구에게나
주어져 있다는 건 엄청난 축복이다.
현재 미국에선 iPad2 신품 최하 기종이 $499에, iPad 는 iPad2 가 나오던 날 20% 할인되어
$399에 판매되고 있는데, 조만간 iPad2 를 하나 장만하기로 결정했다!!
Saturday, March 12, 2011
통계적 방법론의 함정 :: 20억의 교훈
Nature 최신호에 지난 5년간 Nature 에 출판된 논문들 중 가장 인용이 많이된 논문들, 그 중에서 분야별로 중요하다고 판단되는 논문들의 저자들과의 인터뷰 내용을 정리한 feature article 이 출판되었다.
( http://www.nature.com/nbt/journal/v29/n3/pdf/nbt.1798.pdf )
이 중에 FDA Leming Shi 박사의 리드 하에 2차에 걸쳐 진행된 MAQC ( MicroArray Quality Control Consortium ) 에 관한 내용이 포함되어 있다. MAQC 1차 연구 결과는 2006년 Nature biotechnology 에 총 6편에 걸쳐 게제되었고, MAQC 2차 결과는 지난해 Nature biotechnology 에 종합판 1편과 Nature 자매지인 Pharmacogenomics journal 에 11편에 걸쳐 게제된 바 있다.
글에서 Leming Shi 박사가 언급한 내용 중엔 생물학 데이터를 다루는 생명정보학자들이 특별히 유의해야할 내용이 포함되어 있다. 데이터 분석 값들이 의미하는 바를 직시하지 못하고, 통계적 방법론을 맹신하는 태도가 바로 그것이다.
마이크로어레이 분석에서 가장 큰 문제는 어레이 플랫폼을 어떤 회사 것을 쓰는지에 따라, 또 매번 연구 마다 결과가 달라지는 '낮은 재현성' 이었다. 마이크로어레이 preprocessing 분석 방법들 중 이 '낮은 재현성' 문제를 피하는데 가장 효과적인 분석법이 무엇인지 알아보기 위해 $200만 달러가 투자되고, 51개 기관 총 137명이 참여해 연구한 MAQC1 결과는 아래와 같았다.
“The only data that was reproducible was if you looked
at the magnitude of the difference between the
two conditions and then ranked all the genes
on the chip based on the fold-change "
" 오직 Fold-change 값으로 유전자 발현량 변화의 랭킹을 매겨
분석한 결과만이 재현되었습니다. "
이 결과는 예상과 상당히 다른 결과였다. Fold change 란 그저 분석 대상이 되는 두 그룹의 발현량에 대한 비율에 불과한 통계적 관점에서 보자면 상당히 crude 한 값에 불과했기 때문이었다. Fold change 에서 한단계 더 나아가 분석값들의 variation 까지 고려한 t-test 가 통계적 관점에서는 당연히 더 합당한 분석법으로 인정된다.
Leming Shi 는 이 결과를 학자들 앞에서 발표하지만, 데이터를 다시 분석해보라고 결과에 대해 의심을 받기도 하였고, 결과를 정리한 논문이 제 때에 발표되지 못하는 우여곡절을 겪기도 했다고 회상한다. ( 2008년 한국을 방문했던 MAQC 참여그룹 책임자 James Fuscoe 박사를 가이드 하며 들은 바론 그 때 이미 논문을 submit 했다고 했으니, MAQC2 논문은 submit 에서 출판까지 2년 정도가 걸린 것 같다.)
“People were dominated by pure statistical consideration without
thinking of what the technology was trying to tell us,”
" 사람들은 데이터가 무엇을 의미하는지에 대한 고민 없이
통계적 방법론에 압도되었죠. "
흔히 통계적 방법론을 적용한 이후, 결과 값들이 무엇을 의미하는지에 대해선 깊이 생각하지 않고 넘어가기 쉽다. T-test 를 적용해 p-value 0.01 이하인 유전자들이 유의한 발현량의 변화를 보였다라고 결과를 보고하지만, p-value 0.01 인 유전자들이 p-value 0.1 인 유전자에 비해 정말 유의한 발현량을 보인다고 할 수 있는지, 이러한 방법으로 얻은 결과가 서로다른 플랫폼에서 수행된 마이크로어레이 실험들 간의 분석 결과의 재현성을 보장해 줄 수 있는지, t-test 가 마이크로어레이 분석에 fold-change 보다 더 적절한 통계적 방법인지 일일이 고민해 보고 직접 실험해 보기란 쉬운 일은 아니다. 이미 동료 연구자들에게 널리 사용되고 있다면 더욱 더...
또한, 좀 더 '복잡한' 통계적 방법론이 더 그럴듯해 보이고, 설득력 있게 들리는 경향도 있는 듯 하다( 적어도 나는...) . 좀 더 진보되었다고 알려진 , 좀 더 그럴듯한 통계적 방법과 구식의 낡은, 간단한 통계적 방법 사이, 널리 쓰이는 방법론과 그렇지 않은 방법론의 사이... 이들 사이에서 항상 균형 잡힌 시각으로 가능성을 열어두고 연구를 진행 할 수 있다면, 통계적 방법론에 매몰되어 진실을 왜곡하는 일은 피할 수 있을텐데...
Large scale data 분석이 없는 생물학 연구를 상상하기 어려운 세상이 된 시점에서, 연구자들에게 통계적 방법론에 대한 맹신에 대한 경종을 울리는 자체만으로 MAQC 연구 논문이 최근 5년간 가장 중요한 '생명 공학' 연구 중 하나로 뽑힐만한 가치가 있지 않나 생각한다.
( http://www.nature.com/nbt/journal/v29/n3/pdf/nbt.1798.pdf )
이 중에 FDA Leming Shi 박사의 리드 하에 2차에 걸쳐 진행된 MAQC ( MicroArray Quality Control Consortium ) 에 관한 내용이 포함되어 있다. MAQC 1차 연구 결과는 2006년 Nature biotechnology 에 총 6편에 걸쳐 게제되었고, MAQC 2차 결과는 지난해 Nature biotechnology 에 종합판 1편과 Nature 자매지인 Pharmacogenomics journal 에 11편에 걸쳐 게제된 바 있다.
글에서 Leming Shi 박사가 언급한 내용 중엔 생물학 데이터를 다루는 생명정보학자들이 특별히 유의해야할 내용이 포함되어 있다. 데이터 분석 값들이 의미하는 바를 직시하지 못하고, 통계적 방법론을 맹신하는 태도가 바로 그것이다.
마이크로어레이 분석에서 가장 큰 문제는 어레이 플랫폼을 어떤 회사 것을 쓰는지에 따라, 또 매번 연구 마다 결과가 달라지는 '낮은 재현성' 이었다. 마이크로어레이 preprocessing 분석 방법들 중 이 '낮은 재현성' 문제를 피하는데 가장 효과적인 분석법이 무엇인지 알아보기 위해 $200만 달러가 투자되고, 51개 기관 총 137명이 참여해 연구한 MAQC1 결과는 아래와 같았다.
“The only data that was reproducible was if you looked
at the magnitude of the difference between the
two conditions and then ranked all the genes
on the chip based on the fold-change "
" 오직 Fold-change 값으로 유전자 발현량 변화의 랭킹을 매겨
분석한 결과만이 재현되었습니다. "
이 결과는 예상과 상당히 다른 결과였다. Fold change 란 그저 분석 대상이 되는 두 그룹의 발현량에 대한 비율에 불과한 통계적 관점에서 보자면 상당히 crude 한 값에 불과했기 때문이었다. Fold change 에서 한단계 더 나아가 분석값들의 variation 까지 고려한 t-test 가 통계적 관점에서는 당연히 더 합당한 분석법으로 인정된다.
Leming Shi 는 이 결과를 학자들 앞에서 발표하지만, 데이터를 다시 분석해보라고 결과에 대해 의심을 받기도 하였고, 결과를 정리한 논문이 제 때에 발표되지 못하는 우여곡절을 겪기도 했다고 회상한다. ( 2008년 한국을 방문했던 MAQC 참여그룹 책임자 James Fuscoe 박사를 가이드 하며 들은 바론 그 때 이미 논문을 submit 했다고 했으니, MAQC2 논문은 submit 에서 출판까지 2년 정도가 걸린 것 같다.)
“People were dominated by pure statistical consideration without
thinking of what the technology was trying to tell us,”
" 사람들은 데이터가 무엇을 의미하는지에 대한 고민 없이
통계적 방법론에 압도되었죠. "
흔히 통계적 방법론을 적용한 이후, 결과 값들이 무엇을 의미하는지에 대해선 깊이 생각하지 않고 넘어가기 쉽다. T-test 를 적용해 p-value 0.01 이하인 유전자들이 유의한 발현량의 변화를 보였다라고 결과를 보고하지만, p-value 0.01 인 유전자들이 p-value 0.1 인 유전자에 비해 정말 유의한 발현량을 보인다고 할 수 있는지, 이러한 방법으로 얻은 결과가 서로다른 플랫폼에서 수행된 마이크로어레이 실험들 간의 분석 결과의 재현성을 보장해 줄 수 있는지, t-test 가 마이크로어레이 분석에 fold-change 보다 더 적절한 통계적 방법인지 일일이 고민해 보고 직접 실험해 보기란 쉬운 일은 아니다. 이미 동료 연구자들에게 널리 사용되고 있다면 더욱 더...
또한, 좀 더 '복잡한' 통계적 방법론이 더 그럴듯해 보이고, 설득력 있게 들리는 경향도 있는 듯 하다( 적어도 나는...) . 좀 더 진보되었다고 알려진 , 좀 더 그럴듯한 통계적 방법과 구식의 낡은, 간단한 통계적 방법 사이, 널리 쓰이는 방법론과 그렇지 않은 방법론의 사이... 이들 사이에서 항상 균형 잡힌 시각으로 가능성을 열어두고 연구를 진행 할 수 있다면, 통계적 방법론에 매몰되어 진실을 왜곡하는 일은 피할 수 있을텐데...
Large scale data 분석이 없는 생물학 연구를 상상하기 어려운 세상이 된 시점에서, 연구자들에게 통계적 방법론에 대한 맹신에 대한 경종을 울리는 자체만으로 MAQC 연구 논문이 최근 5년간 가장 중요한 '생명 공학' 연구 중 하나로 뽑힐만한 가치가 있지 않나 생각한다.
Tuesday, March 8, 2011
NCBI SRA 서비스 중단
NGS 기술을 통해 쏟아져 나오는 sequence 데이터 저장소 서비스였던 NCBI의 SRA( Sequence Read Archive ) 와 Trace Archive 가 예산 부족을 이유로 서비스를 중단한다는 소식이다( http://www.ncbi.nlm.nih.gov/sra ). NCBI 의 다른 데이터베이스들과 비교해 리소스는 많이 잡아먹으면서, 활용도(인기) 는 상대적으로 많이 처지는 상황이었기에 이런 결정을 내렸다는 의견이 있다.
그러나 3대 genome 기관 중 NCBI 를 제외한 두곳, EBI 와 DDBJ 는 SRA 서비스를 계속 한다는 방침을 발표했다( http://www.ebi.ac.uk/ena/SRA_announcement_Feb_2011.pdf , http://www.ddbj.nig.ac.jp/whatsnew/2011/DRA20110222.html ).
규모나 연구자금 면에서 가장 여유로운 미국의 NCBI 가 차후 바이오텍을 혁명적으로 바꾸어나갈 NGS raw data 저장소 서비스를 EBI 나 DDBJ 에 앞서 중단한다니 다소 의외다. 차후 새로운 포맷으로 효율적인 새 NGS 저장소 서비스를 준비하려고 하나 싶다가도, 그럴 계획이 있었다면 기존의 SRA 서비스를 살려놓은 채로 smooth 하게 변화를 주었을 거란 생각을 하면, 이번 결정이 SRA 서비스 자체의 효용성에 대해 NCBI 내부에서 '부정적' 으로 결론을 내렸기 때문이 아닌가 하는 생각이 든다.
SRA 서비스가 효용성이 떨어진다고 결론내렸다면 아래 두가지 이유가 아니었을까...
1. NGS raw data 자체의 비효율성
- NGS raw data 는 보통 수십배 중복되어 같은 부위의 DNA 를 읽은 수백 base 단위의 read 들로 구성되어 있다. 이 데이터는 assemble 되어 중복이 제거된 하나의 full sequence , 목적에 따라 CNV 데이터, RNA-seq 의 경우 expression 데이터로 변환 될 수 있는데, 이 과정에서 불필요하게 중복된 데이터들이 제거될 수 있다.
개인의 whole genome 분석을 수행한 NGS raw 데이터라면, 30배수로 실험을 수행한 경우 3GB*30 = 90GB(완전한 raw data 라면 이 보다도 훨 크겠지) 가 소모되지만 분석 결과는 하나의 whole genome 3GB 다. 효율적이고 간결한 whole genome DB 가 필요하다면, 불필요한 나머지 87GB 의 데이터를 모두 저장하고 있을 필요가 없다.
2. 기존의 다른 NCBI DB들과의 중복성
- SRA 중단을 알리는 글에,
RNA-seq 는 GEO,
varient와 genotype, polymorphism 정보는 dbVar, dbGaP, dbSNP,
genome assemblies 는 Genbank/WGS,
transcript 는 Genbank/TSA,
16s ribosomal RNA 와 기타 genomic data 는 Genbank
를 이용해 저장하라고 안내되어 있다.
NGS raw data 를 processing 하여 얻을 수 있는 정보들은 모두 기존의 NCBI DB들이 담고자 하는 정보와 부합이 되기 때문에, 복잡하고 생명정보학 전문가들이나 컨트롤 할 수 있기에 생물학계 전반의 학자들에 의한 활용도가 낮은 SRA 서비스를 중단하고, 기존의 DB 들에 NGS raw data 분석 결과를 저장해 나가자는 결정을 내렸을 수도 있을 것 같다 ( 정말 예산이 부족했다면...)
NGS 데이터 분석을 해본 적이 없어, NGS raw data 가 얼마나 효용성이 큰 데이터 인지는 사실 잘 모르겠다. 예컨데 1000명 인간의 whole genome sequence 를 분석했다면, 1000개의 whole genome sequence 가 최종 결과다. 중간의 분석 과정에서 어떤 분석 방법을 쓰느냐에 따라 아마 sequence 결과에 조금씩 차이가 생기긴 하겠지. 하지만 NGS 기계 자체의 기술적 진보와, 분석 방법의 발전은 적당한 선에서 consensus 가 이루어 질 것이다( CNV, epigenetic data 등 한 NGS raw data set 에서 나올 수 있는 것들 포함). 그런 상황에서 NGS raw data 를 이용해 새로운 연구를 해볼 만한 여지는 크게 없지 않나 하는 생각이 들기도 한다.
그러나 3대 genome 기관 중 NCBI 를 제외한 두곳, EBI 와 DDBJ 는 SRA 서비스를 계속 한다는 방침을 발표했다( http://www.ebi.ac.uk/ena/SRA_announcement_Feb_2011.pdf , http://www.ddbj.nig.ac.jp/whatsnew/2011/DRA20110222.html ).
규모나 연구자금 면에서 가장 여유로운 미국의 NCBI 가 차후 바이오텍을 혁명적으로 바꾸어나갈 NGS raw data 저장소 서비스를 EBI 나 DDBJ 에 앞서 중단한다니 다소 의외다. 차후 새로운 포맷으로 효율적인 새 NGS 저장소 서비스를 준비하려고 하나 싶다가도, 그럴 계획이 있었다면 기존의 SRA 서비스를 살려놓은 채로 smooth 하게 변화를 주었을 거란 생각을 하면, 이번 결정이 SRA 서비스 자체의 효용성에 대해 NCBI 내부에서 '부정적' 으로 결론을 내렸기 때문이 아닌가 하는 생각이 든다.
SRA 서비스가 효용성이 떨어진다고 결론내렸다면 아래 두가지 이유가 아니었을까...
1. NGS raw data 자체의 비효율성
- NGS raw data 는 보통 수십배 중복되어 같은 부위의 DNA 를 읽은 수백 base 단위의 read 들로 구성되어 있다. 이 데이터는 assemble 되어 중복이 제거된 하나의 full sequence , 목적에 따라 CNV 데이터, RNA-seq 의 경우 expression 데이터로 변환 될 수 있는데, 이 과정에서 불필요하게 중복된 데이터들이 제거될 수 있다.
개인의 whole genome 분석을 수행한 NGS raw 데이터라면, 30배수로 실험을 수행한 경우 3GB*30 = 90GB(완전한 raw data 라면 이 보다도 훨 크겠지) 가 소모되지만 분석 결과는 하나의 whole genome 3GB 다. 효율적이고 간결한 whole genome DB 가 필요하다면, 불필요한 나머지 87GB 의 데이터를 모두 저장하고 있을 필요가 없다.
2. 기존의 다른 NCBI DB들과의 중복성
- SRA 중단을 알리는 글에,
RNA-seq 는 GEO,
varient와 genotype, polymorphism 정보는 dbVar, dbGaP, dbSNP,
genome assemblies 는 Genbank/WGS,
transcript 는 Genbank/TSA,
16s ribosomal RNA 와 기타 genomic data 는 Genbank
를 이용해 저장하라고 안내되어 있다.
NGS raw data 를 processing 하여 얻을 수 있는 정보들은 모두 기존의 NCBI DB들이 담고자 하는 정보와 부합이 되기 때문에, 복잡하고 생명정보학 전문가들이나 컨트롤 할 수 있기에 생물학계 전반의 학자들에 의한 활용도가 낮은 SRA 서비스를 중단하고, 기존의 DB 들에 NGS raw data 분석 결과를 저장해 나가자는 결정을 내렸을 수도 있을 것 같다 ( 정말 예산이 부족했다면...)
NGS 데이터 분석을 해본 적이 없어, NGS raw data 가 얼마나 효용성이 큰 데이터 인지는 사실 잘 모르겠다. 예컨데 1000명 인간의 whole genome sequence 를 분석했다면, 1000개의 whole genome sequence 가 최종 결과다. 중간의 분석 과정에서 어떤 분석 방법을 쓰느냐에 따라 아마 sequence 결과에 조금씩 차이가 생기긴 하겠지. 하지만 NGS 기계 자체의 기술적 진보와, 분석 방법의 발전은 적당한 선에서 consensus 가 이루어 질 것이다( CNV, epigenetic data 등 한 NGS raw data set 에서 나올 수 있는 것들 포함). 그런 상황에서 NGS raw data 를 이용해 새로운 연구를 해볼 만한 여지는 크게 없지 않나 하는 생각이 들기도 한다.
Subscribe to:
Posts (Atom)