Monday, August 11, 2008

FDR 의 meta-analysis 에 있어서의 유의사항

Bioinformatics에 게제된 논문 에서 저자는FDR 의 무분별(? )하게 사용하면 안 된다는 경종을 울려준다.

특히나 최근 각광받는 Meta-analysis 에서 동일한 FDR을 서로 다른 experiment 에서 DEG를 뽑는데 사용하면 어떤 결과가 초래되는지를 예를 들어 잘 설명하고 있다.

간단하게 FDR = ( 잘못된 예측 횟수)/예측 횟수 의 수식으로 나타낼 수 있다.
T-test 를 통해 얻어진 p-value 0.01를 threshold 로 삼고 아래 예에 대해 FDR 를 계산해 계산해 보자.

Case 1
전체 100개 gene 중, 0.01 을 threshold로 삼았을 때, p-value 0.01 이하인 gene 개수 1개

Case 2
모든 것이 Case 1과 같고, p-value 0.01 이하인 gene 개수가 3개

1번은 FDR = 100*0.01 / 1 = 1 = 100%
2번은 FDR = 100*0.01 / 3 = 1/3 = 33.33%

즉, 같은 기준 ( 이 경우엔 p-value ) 으로 test를 하더라도, data set에 따라, 정확하게는 threshold 기준을 통과하는 gene의 개수에 따라 FDR 이 크게 변화하기 때문에, 서로 다른
experiment에서 수행된 gene expression data에 대해 같은 기준의 FDR threshold 를
적용하면 실제로 각각의 experiment에 대해 서로 다른 기준의 test를 한 것과 같은
결과를 얻을 수 있다는 얘기다.

Monday, August 4, 2008

[CPAN] Math::Counting, Math::Combinatorics

다양한 counting 기법이 implementation 되어 있어, counting 이용한 수식 등에 유용하게 사용할 수 있다.


Math::Counting

$f=factorial(5) # $f=5*4*3*2*1
$c=combination(3,2)
$c=choose(3,2) # $c= 3C2


Math::Combinatorics

@n=qw/a b c/
@p=permute(@n) # @p contains all possible set of permutation of @n
@c=combine(2, @n) # @c conatains all possible set of combination of 2 using @n