Saturday, August 6, 2011

GigaScience :: BGI 가 출간하는 저널

BGI 가 BioMedCentral 과 합작하여 GigaScience라는 새로운 저널을 출간한다는 소식이다.  ( http://www.gigasciencejournal.com/ )

'Big Data' 에 기반한 생의학 연구들의 출판을 목표로 하고 있고, 리뷰 과정에서 기존의 '학문적 의미'에 대한 잣대와 동시에 데이터의 유용성과 재연성을 중요한 잣대로 할 계획이라고 한다.

또하나 흥미로운 점은 '데이터셋' 자체에 DOI 를 부여하여, 데이터가 하나의 연구 논문에서 분석되는데서 벗어나 넓리 퍼져나가 다양한 연구에 이용될 수 있도록하여 데이터의 가치를 극대화하겠다는 점을 공언한 점이다.

"데이터의 '저장'과 함께 데이터의 효과적인  '전파' 도 중요한 문제다  "
- GigaScience 저널의 편집장 Scott Edmunds( BGI 소속)

데이터셋 자체에 DOI 를 부여하는 건 정말 '학계' 에서 보기 드문 획기적인 발상이다.  또한 이는 지난 10년 간의 Genomic data 들의 낮은 재사용성을 NGS data에 대해 답습하지 않을 수 있는 가능성을 어느 정도 열어 준다고 평가한다.

Microarray database인 NCBI 의 GEO에는 현재 24,000여개의 독립된 dataset (GSE 단위) 이 존재하지만, 두번 이상 재분석 된 dataset은 손에 꼽을 정도다. 기본적으로 어떤 논문에 어떤 GSE data가 쓰였는지 논문 본문을 검색하거나, 반대로 geo 데이터를 검색하지 않는 이상 알 수 없고, 해당 논문이 인용이 되어도, 논문에 딸린 dataset에 대한 인용인지를 평가하는 것도 어려운 등의 문제가 존재하여, dataset 자체에 대한 평가가 어려웠다는 문제가 있었기 때문이다.

1. Dataset 자체에 DOI 가 붙으면, 이를 분석한 논문과 별개로 dataset 자체에 대한 citation 이 가능해진다. 따라서 어떤 Dataset 이 퀄리티 높고, 재연성이 높은 dataset 인지를 일목요연하게 search하고 분석하는 것이 가능해 진다.

2. 인용이 가능해짐은 곧, dataset 자체로 높은 citation 을 얻을 수 있다는 얘기. 이는 곧, 높은 품질의 dataset 생산과 '전파' 에 대한 연구자들의 '동기'를 유발하게 하는 효과를 불러 일으킬 수 있다.
이는 다시 재연가능하고 유용한 dataset 숫자의 증가라는 긍정적인 결과로 이어진다.

2010년이 넘어가면서 본격적으로 생물학은 data dependent information science 로 넘어왔다. 바야흐로 bioinformatics 의 전성시대가 열리고 있고, dataset 자체가 논문과 상응하는 DOI 를 가질 수 있는 시대가 열렸다는 것은 이런 '시대의 흐름'을 보여주는 한 단면이 아닐까