Tuesday, March 8, 2011

NCBI SRA 서비스 중단

NGS 기술을 통해 쏟아져 나오는 sequence 데이터 저장소 서비스였던 NCBI의 SRA( Sequence Read Archive ) 와 Trace Archive 가 예산 부족을 이유로 서비스를 중단한다는 소식이다( http://www.ncbi.nlm.nih.gov/sra ). NCBI  의 다른 데이터베이스들과 비교해 리소스는 많이 잡아먹으면서, 활용도(인기) 는 상대적으로 많이 처지는 상황이었기에 이런 결정을 내렸다는 의견이 있다.

그러나 3대 genome 기관 중 NCBI 를 제외한 두곳, EBI 와 DDBJ 는 SRA 서비스를 계속 한다는 방침을 발표했다( http://www.ebi.ac.uk/ena/SRA_announcement_Feb_2011.pdf , http://www.ddbj.nig.ac.jp/whatsnew/2011/DRA20110222.html ).

규모나 연구자금 면에서 가장 여유로운 미국의 NCBI 가 차후 바이오텍을 혁명적으로 바꾸어나갈 NGS raw data 저장소 서비스를 EBI 나 DDBJ 에 앞서 중단한다니 다소 의외다. 차후 새로운 포맷으로 효율적인 새 NGS 저장소 서비스를 준비하려고 하나 싶다가도, 그럴 계획이 있었다면 기존의 SRA 서비스를 살려놓은 채로 smooth 하게 변화를 주었을 거란 생각을 하면, 이번 결정이 SRA 서비스 자체의 효용성에 대해 NCBI 내부에서 '부정적' 으로 결론을 내렸기 때문이 아닌가 하는 생각이 든다.

SRA 서비스가 효용성이 떨어진다고 결론내렸다면 아래 두가지 이유가 아니었을까...

1. NGS raw data 자체의 비효율성
- NGS raw data 는 보통 수십배 중복되어 같은 부위의 DNA 를 읽은 수백 base 단위의 read 들로 구성되어 있다. 이 데이터는 assemble 되어 중복이 제거된 하나의 full sequence ,  목적에 따라 CNV 데이터, RNA-seq 의 경우 expression 데이터로 변환 될 수 있는데, 이 과정에서 불필요하게 중복된 데이터들이 제거될 수 있다.

개인의 whole genome 분석을 수행한 NGS raw 데이터라면, 30배수로 실험을 수행한 경우 3GB*30 = 90GB(완전한 raw data 라면 이 보다도 훨 크겠지) 가 소모되지만 분석 결과는 하나의 whole genome 3GB 다.  효율적이고 간결한 whole genome DB 가 필요하다면, 불필요한 나머지 87GB 의 데이터를 모두 저장하고 있을 필요가 없다.

2. 기존의 다른 NCBI DB들과의 중복성
- SRA 중단을 알리는 글에,
RNA-seq 는 GEO,
varient와 genotype, polymorphism 정보는 dbVar, dbGaP, dbSNP,
genome assemblies 는 Genbank/WGS,
transcript 는 Genbank/TSA,
16s ribosomal RNA 와 기타 genomic data 는 Genbank
를 이용해 저장하라고 안내되어 있다.

NGS raw data 를 processing 하여 얻을 수 있는 정보들은 모두 기존의 NCBI DB들이 담고자 하는 정보와 부합이 되기 때문에, 복잡하고 생명정보학 전문가들이나 컨트롤 할 수 있기에 생물학계 전반의 학자들에 의한 활용도가 낮은 SRA 서비스를 중단하고, 기존의 DB 들에 NGS raw data 분석 결과를 저장해 나가자는 결정을 내렸을 수도 있을 것 같다 ( 정말 예산이 부족했다면...)

NGS 데이터 분석을 해본 적이 없어, NGS raw data 가 얼마나 효용성이 큰 데이터 인지는 사실 잘 모르겠다. 예컨데 1000명 인간의 whole genome sequence 를 분석했다면, 1000개의 whole genome sequence 가 최종 결과다. 중간의 분석 과정에서 어떤 분석 방법을 쓰느냐에 따라 아마 sequence 결과에 조금씩 차이가 생기긴 하겠지. 하지만 NGS 기계 자체의 기술적 진보와, 분석 방법의 발전은 적당한 선에서 consensus 가 이루어 질 것이다( CNV, epigenetic data 등 한 NGS raw data set 에서 나올 수 있는 것들 포함). 그런 상황에서 NGS raw data 를 이용해 새로운 연구를 해볼 만한 여지는 크게 없지 않나 하는 생각이 들기도 한다.