초창기 Microarray 연구에서 가장 큰 관심사 중 하나는 어떻게 하면 robust한 DEG ( Differentially Expressed Gene ) 을 찾아낼 수 있는가 였다.
가장 먼저 시도되었던 기본적인 방법들이 fold change 비교와 t-test 였는데, 이는 지금까지도 microarray data 분석의 가장 기본적인 방법으로 널리 이용되고 있다. 또한 MAQC( MicroArray Quality Control) 그룹의 보고에 따르면, 이 두가지 방법을 느슨한 stringency 를 주어 DEG를 뽑을 때, cross-platform, cross-laboratory microarray data에서 가장 재연성있고 안정정으로 DEG 셋을 얻을 수 있다고 하니, 가장 기본적이면서 또한 가장 중요한 DEG selection 방법이라고 할 수 있다.
이렇듯 가장 기본적인 DEG selection 방법인 t-test에도 약점이 있었으니, 그것은 t-test가 normal distribution을 가정한 parametric test라는 것이다. microarray data는 normal distribution을 따르지 않는 경우가 대부분이라고 할 수 있다. 자연스럽게 t-test의 이런 약점을 보완할 수 있는 방법들이 DEG selection 방법으로 적용되었는데, 대표적으로 non-parametric t-test와 rank sum test 를 들 수 있다.
오늘 이 posting 을 맘먹게 한 논문 ,Nonparametric identification methods for differentially expressed genes, bioinformatics, 18, 1454, 은 현재 Princeton 대학에서 교수로 재직중인 Olga G. Troyanskaya 가 Stanford 에서 박사과정 중 출판한 논문으로, 앞서 언급한 microarray data의 DEG selection methods 들 중, nonparametric method 3가지를 비교 분석한 논문이다.
논문에서 비교 분석 대상이 된 Non-parametric method 3가지는 non-parametric t-test, Wilcoxon rank sum test, Ideal discriminator method 되겠다. 이 3가지 방법을 simulated data 셋에 적용하여 TPR, FPR 을 측정하여 상대적인 비교우위에 대한 분석을 논하고 있는데, 결론부터 얘기하자면, Rank sum test 를 쓰는 것이 다른 방법들에 비해 stringent 한 결과를 주고, multiple permutation 을 통한 significance 를 측정할 필요가 없기 때문에 일반적인 상황에서는 rank sum test를 쓰는 것이 이 세가지 방법 중 가장 computationally efficient 하고, 상대적으로 보수적이지만 정확하게 DEG set 을 뽑아낼 수 있다는 것. 덧붙여 p-value 0.1 정도에서 sensitivity와 specificity 의 trade-off 에서 가장 만족스러운 결과를 얻을 수 있었다는 결과가 리포팅 되어 있다.
차후에 SAM,GSEA 등을 비롯한 다양한 DEG selection 방법이 소개되었으나, 기본적인 single gene based DEG selection analysis 는 기본적으로 필요한 과정이니, microarray 분석을 할 때 기 이를 염두에 두고 nonparametric test 를 적용해보는 것이 좋을 듯 하다.
이 논문이 출판되고 4년 후, MAQC 그룹이 출판한 Nature 논문 에 따르면 느슨한 t-test p-value 0.1 와 fold change 1.2~1.5 정도를 함께 사용하여 DEG set 을 선정하였을 때, 가장 만족스러운 결과를 얻을 수 있었다고 보고하고 있으니, 이 결과도 참고해둘 만 하다.
* Non-parametric t-test : normal distribution 을 가정한 상태로 p-value를 구하지 않고, permutation test에 의해 t-test statistics 의 distribution 을 만들고 이와 원 t-test statistics 값을 비교하여 p-value significance 를 구한다.