NGS 기술을 통해 쏟아져 나오는 sequence 데이터 저장소 서비스였던 NCBI의 SRA( Sequence Read Archive ) 와 Trace Archive 가 예산 부족을 이유로 서비스를 중단한다는 소식이다( http://www.ncbi.nlm.nih.gov/sra ). NCBI 의 다른 데이터베이스들과 비교해 리소스는 많이 잡아먹으면서, 활용도(인기) 는 상대적으로 많이 처지는 상황이었기에 이런 결정을 내렸다는 의견이 있다.
그러나 3대 genome 기관 중 NCBI 를 제외한 두곳, EBI 와 DDBJ 는 SRA 서비스를 계속 한다는 방침을 발표했다( http://www.ebi.ac.uk/ena/SRA_announcement_Feb_2011.pdf , http://www.ddbj.nig.ac.jp/whatsnew/2011/DRA20110222.html ).
규모나 연구자금 면에서 가장 여유로운 미국의 NCBI 가 차후 바이오텍을 혁명적으로 바꾸어나갈 NGS raw data 저장소 서비스를 EBI 나 DDBJ 에 앞서 중단한다니 다소 의외다. 차후 새로운 포맷으로 효율적인 새 NGS 저장소 서비스를 준비하려고 하나 싶다가도, 그럴 계획이 있었다면 기존의 SRA 서비스를 살려놓은 채로 smooth 하게 변화를 주었을 거란 생각을 하면, 이번 결정이 SRA 서비스 자체의 효용성에 대해 NCBI 내부에서 '부정적' 으로 결론을 내렸기 때문이 아닌가 하는 생각이 든다.
SRA 서비스가 효용성이 떨어진다고 결론내렸다면 아래 두가지 이유가 아니었을까...
1. NGS raw data 자체의 비효율성
- NGS raw data 는 보통 수십배 중복되어 같은 부위의 DNA 를 읽은 수백 base 단위의 read 들로 구성되어 있다. 이 데이터는 assemble 되어 중복이 제거된 하나의 full sequence , 목적에 따라 CNV 데이터, RNA-seq 의 경우 expression 데이터로 변환 될 수 있는데, 이 과정에서 불필요하게 중복된 데이터들이 제거될 수 있다.
개인의 whole genome 분석을 수행한 NGS raw 데이터라면, 30배수로 실험을 수행한 경우 3GB*30 = 90GB(완전한 raw data 라면 이 보다도 훨 크겠지) 가 소모되지만 분석 결과는 하나의 whole genome 3GB 다. 효율적이고 간결한 whole genome DB 가 필요하다면, 불필요한 나머지 87GB 의 데이터를 모두 저장하고 있을 필요가 없다.
2. 기존의 다른 NCBI DB들과의 중복성
- SRA 중단을 알리는 글에,
RNA-seq 는 GEO,
varient와 genotype, polymorphism 정보는 dbVar, dbGaP, dbSNP,
genome assemblies 는 Genbank/WGS,
transcript 는 Genbank/TSA,
16s ribosomal RNA 와 기타 genomic data 는 Genbank
를 이용해 저장하라고 안내되어 있다.
NGS raw data 를 processing 하여 얻을 수 있는 정보들은 모두 기존의 NCBI DB들이 담고자 하는 정보와 부합이 되기 때문에, 복잡하고 생명정보학 전문가들이나 컨트롤 할 수 있기에 생물학계 전반의 학자들에 의한 활용도가 낮은 SRA 서비스를 중단하고, 기존의 DB 들에 NGS raw data 분석 결과를 저장해 나가자는 결정을 내렸을 수도 있을 것 같다 ( 정말 예산이 부족했다면...)
NGS 데이터 분석을 해본 적이 없어, NGS raw data 가 얼마나 효용성이 큰 데이터 인지는 사실 잘 모르겠다. 예컨데 1000명 인간의 whole genome sequence 를 분석했다면, 1000개의 whole genome sequence 가 최종 결과다. 중간의 분석 과정에서 어떤 분석 방법을 쓰느냐에 따라 아마 sequence 결과에 조금씩 차이가 생기긴 하겠지. 하지만 NGS 기계 자체의 기술적 진보와, 분석 방법의 발전은 적당한 선에서 consensus 가 이루어 질 것이다( CNV, epigenetic data 등 한 NGS raw data set 에서 나올 수 있는 것들 포함). 그런 상황에서 NGS raw data 를 이용해 새로운 연구를 해볼 만한 여지는 크게 없지 않나 하는 생각이 들기도 한다.
지금 시퀀싱기술이 완전해서 chromosomal DNA 각각을 쭉 읽어서 한 줄짜리 string으로 뽑아줄 수 있다면 모르지만, 많이 사용하는 SOLiD, HiSeq(GA), 454 중 Roche 454가 곧 read 한 개에 700bp까지 나올 거란 얘기가 들리는 정돈데. (다른 회사는 어떤지 모르겠음) 그리고 단적으로, read들을 어셈블해서 나오는 결과가 툴마다 차이가 나는 상황이고, RNA-seq 데이터든 cnv 분석한 것이든 다른 DB에서 찾을 수 있는 것은 raw data를 바탕으로 '나름의' 분석결과인 것 아닐까 싶은데. 해서, 아직 raw data를 원하는 사용자도 많을 것 같고, 결국 제한된 사용자 대비 활용도가 떨어지고 데이터저장에 필요한 용량의 압박으로 없앤다는 얘기가 되는 건가?
ReplyDelete일단, 공식적으로 발표한 내용이 '예산 부족' 이니, 용량 압박 때문이라는게 틀린 말은 아니지만, NCBI 가 데이터 저장 공간 늘리는데 충분한 예산이 없다고 하면 또 그건 말이 안 되는 거 같다. 단적으로 EBI 와 DDBJ 가 계속 유지한다고 하는걸 보면 말이지. NCBI 내부에서 분명히 이 DB의 활용 가능성과 미래를 고려했을 때, 유지할 필요 없다고 판단했기 때문이 아닐까?
ReplyDelete