* Facebook에 남긴 글을 그대로 옮김
Big data시대, Bio-medical 분야의 가장 큰 bottleneck 중의 하나는 'diversity of terms' 문제. 즉, 같은 의미를 가진 수많은 term들이 정규화 되지 않고 사용되고 있다는 것. 기사에 언급된 예를 보면 'percent inhibition'과 '10uM'을 표현하는데 1800개의 서로 다른 phrase들이 사용되고 있다고 하는데, 거의 모든 bio-medical experiments의 measurement 단위와 표현에 이런 term diversity 문제가 존재하고 있다.
Big data가 있어도 꿰어야 보배인데, 서로 다른 source의 data들이 서로 이렇게 상이한 표현들로 표현되어 있어 data integration 자체가 매우 어렵고, 한다고 해도 엄청난 양의 노가다가 필요한 실정이다.
화려해 보이고 깔끔하게 일이 처리될 것 같은 Big data, data analysis 분야의 일은 실제로는 80%의 시간이 이런 지저분한 데이터를 분석이 가능하도록 다듬고, 통합하는 data munging 작업에 소요된다.
Bio-medical 분야는 여타의 Big data 분야보다 월등히 이 data munging이 이슈가 될 것이라 본다. 별로 fancy해 보이지 않고, 기술적인 우월성을 논할 만한 부분이 아니라 사실 잘 언급도 안 되지만, 실제로 이는 data analyst 라면 누구나 부닥치고 있는 가장 골치아픈 문제이기에, 이 문제를 해결할 좋은 방법은 당연히 좋은 BM이 될 수 있을거라 생각한다.
끝으로 Broad institute에서 BARD라는 플랫폼으로 이 문제를 해결하려 노력하고 있는데, 세계 최고의 Genome research institute이라는 Broad는 어떻게 이를 해결했을까? 뭔가 대단한 방법이 있지 않을까? BARD 의 director , DeSouza의 대답은?
'학생 인턴들이 일일이 손으로 데이터 하나하나 입력했어요. 학생들 없없다면, 아무 것도 못했을겁니다'
ㅎㅎ BGI 도 중국 최고 베이징 대학 학생 인턴들 무지막지하게 뽑아, 싼값에 고급 인력을 부리는 능력 자체가 막강한 회사의 무기인데, '천달러 지놈, 백만달러 분석' 시대를 대처하는 세계 최고의 Genome 연구 센터와 가장 큰 회사의 해결책은 '학생 인턴'.