Bioinformatics에 게제된 논문 에서 저자는FDR 의 무분별(? )하게 사용하면 안 된다는 경종을 울려준다.
특히나 최근 각광받는 Meta-analysis 에서 동일한 FDR을 서로 다른 experiment 에서 DEG를 뽑는데 사용하면 어떤 결과가 초래되는지를 예를 들어 잘 설명하고 있다.
간단하게 FDR = ( 잘못된 예측 횟수)/예측 횟수 의 수식으로 나타낼 수 있다.
T-test 를 통해 얻어진 p-value 0.01를 threshold 로 삼고 아래 예에 대해 FDR 를 계산해 계산해 보자.
Case 1
전체 100개 gene 중, 0.01 을 threshold로 삼았을 때, p-value 0.01 이하인 gene 개수 1개
Case 2
모든 것이 Case 1과 같고, p-value 0.01 이하인 gene 개수가 3개
1번은 FDR = 100*0.01 / 1 = 1 = 100%
2번은 FDR = 100*0.01 / 3 = 1/3 = 33.33%
즉, 같은 기준 ( 이 경우엔 p-value ) 으로 test를 하더라도, data set에 따라, 정확하게는 threshold 기준을 통과하는 gene의 개수에 따라 FDR 이 크게 변화하기 때문에, 서로 다른
experiment에서 수행된 gene expression data에 대해 같은 기준의 FDR threshold 를
적용하면 실제로 각각의 experiment에 대해 서로 다른 기준의 test를 한 것과 같은
결과를 얻을 수 있다는 얘기다.
Mainly on Personal Genome Industry, Preventable Medicine, Mobile healthcare tech, and Bioinformatics.
Monday, August 11, 2008
Monday, August 4, 2008
[CPAN] Math::Counting, Math::Combinatorics
다양한 counting 기법이 implementation 되어 있어, counting 이용한 수식 등에 유용하게 사용할 수 있다.
Math::Counting
Math::Combinatorics
Math::Counting
$f=factorial(5) # $f=5*4*3*2*1
$c=combination(3,2)
$c=choose(3,2) # $c= 3C2
Math::Combinatorics
@n=qw/a b c/
@p=permute(@n) # @p contains all possible set of permutation of @n
@c=combine(2, @n) # @c conatains all possible set of combination of 2 using @n
Subscribe to:
Posts (Atom)