Bioinformatics에 게제된 논문 에서 저자는FDR 의 무분별(? )하게 사용하면 안 된다는 경종을 울려준다.
특히나 최근 각광받는 Meta-analysis 에서 동일한 FDR을 서로 다른 experiment 에서 DEG를 뽑는데 사용하면 어떤 결과가 초래되는지를 예를 들어 잘 설명하고 있다.
간단하게 FDR = ( 잘못된 예측 횟수)/예측 횟수 의 수식으로 나타낼 수 있다.
T-test 를 통해 얻어진 p-value 0.01를 threshold 로 삼고 아래 예에 대해 FDR 를 계산해 계산해 보자.
Case 1
전체 100개 gene 중, 0.01 을 threshold로 삼았을 때, p-value 0.01 이하인 gene 개수 1개
Case 2
모든 것이 Case 1과 같고, p-value 0.01 이하인 gene 개수가 3개
1번은 FDR = 100*0.01 / 1 = 1 = 100%
2번은 FDR = 100*0.01 / 3 = 1/3 = 33.33%
즉, 같은 기준 ( 이 경우엔 p-value ) 으로 test를 하더라도, data set에 따라, 정확하게는 threshold 기준을 통과하는 gene의 개수에 따라 FDR 이 크게 변화하기 때문에, 서로 다른
experiment에서 수행된 gene expression data에 대해 같은 기준의 FDR threshold 를
적용하면 실제로 각각의 experiment에 대해 서로 다른 기준의 test를 한 것과 같은
결과를 얻을 수 있다는 얘기다.
No comments:
Post a Comment