Tuesday, May 29, 2007

DEG finding in R

1. T-test

Gene A 100 120 300 500

와 같이 A에 대해 normal sample(검은색)과 control sample(붉은색)의 expression data가 있고, 이를 바탕으로 A gene이 control 환경에 specific 하게 up or down regulation되었는지를 t-test를 통해 알아보고자 한다면, Two sample t-test를 쓴다.

http://www.biomedcentral.com/content/inline/1471-2105-6-199-i8.gif'>

> a=c(100,120,300,500)
>t.test(a[1:2],a[3:4])

M x N의 microarray data matrix에서 column 1:4가 normal 5:8이 control이고 M개의 gene의 t-test를 계산한다면,

>for(i in 1:nrow(matrix))
>{
>value<-t.test(matrix[i,1:4],matrix[i,5:8])
>result[i]=value$p.value
>}

각 gene의 t-test 결과 p-value가 result에 저장된다.

Sunday, May 27, 2007

R for microarray data handling

DATA structure of microarray

1. Matrix of F rows and S columns

  • F is the no. of features
  • S is the no. of samples

2. Feature information matrix

  • F X F matrix, each links to standard feature(gene) id in public DB

3. Data table of information on samples ( S X V matrix)

  • v is the no. of covariates

와 같이 총 3개의 data representation matrix가 하나의 microarray data를 표현한다.

Reading array data from flatfile

Microarray data를 읽기 위한 R package들이 존재하나, 특정한 data form을 요구한다. 서로 다른 lab or platform or pubic DB 에서 얻어진 data들을 일괄적으로 처리하기 힘들다. 따라서 기본적인 R 기능을 이용한 data reading으로 data을 matrix형태로 읽어들이고, 이를 processing한다.

1. reading expression file

> ex<-read.table('~/file',header .., sep .. )

읽어들인 data를 numeric only data로 변경하고, 이를 matrix 형 data로 변환

>ex_mat=as.matrix(ex)

matrix형으로 변환된 data는 R package 함수에 기본형으로 쓰인다.

Monday, May 14, 2007

Handling Public Microarray Data

What is the problem?

Gene은 NCBI, Protein은 SWISS-PROT 처럼 Microarray Experiment도 public domain에 deposit하고 standard format에 맞추어 deposit하고 정형화된 방법으로 쉽게 접근하여 analysis 할 수 있게 하자는 취지로 만들어진 것이 바로 공용 Microarray DB인 NCBI의 GEO와 EBI의 ArrayExpress다.

그러나 Gene과 Protein와 다르게 microarray는 독립된 하나의 biology experiment이기에 실험 결과에 영향을 주는 parameter들이 굉장히 많고 이들 각각을 변인 제어하여 비교하기란 얼핏 불가능해 보이기까지 한다. 실제로 같은 cancer cell의 RNA extract를 가지고 같은 microarray platform에서 실험을 하여도 실험실 마다, 진행한 실험자에 따라 variation이 생기고, 이 variation은 microarray 실험의 목적인 DEG(Differentially Expressed Gene) 구분에도 확연히 다른 결과를 줄 수 있기에, 한 쪽에서는 microarray 무용론까지 제기되는 실정이기도 하다.


So what ?

그럼에도 불구하고 microarray 실험이 제공하는 특정 환경에 따른 expression 정보는 생물학의 패러다임을 변화시키는 한 축을 담당하고 있고, drug discovery, toxic, environmental chemical assessment 등 생물학의 산업화와도 밀접한 관계가 있어, microarray 연구는 더욱 가속화 되고 있는 상황이다.

특히, public microarray DB들의 기하급수적 성장으로, 정교하고 믿을만한 microarray 정보 분석 구축 시스템이 시급한 상황이다.

Bottleneck

Public microarray data의 사용에 가장 큰 문제는 앞서 언급했던 microarray data의 variation에 있다. 특히 같은 환경에서 얻어진 data라도 lab, platform에 따라 결과가 달라 이들 cross laboratory, cross platform data들을 비교 분석할 수 있는 신뢰도 있는 reference DB나 분석 방법의 개발이 필요하고, 이러한 기반이 닦여지고 나면, cross species data 분석, cross condition 분석 등을 통해, 원래 microarray가 목적했던 특정 질병 특정 환경 하에 발현되는 DEG들을 구분하고 이를 바탕으로 Prognostic method개발과 computational toxic compound prediction, understanding genetic behaviors resulting phenotype 등이 가능해 질 수 있을 것이다.


What has been done ?

Cross (platformspecies) microarray data analysis tool

*Integrative Array Analyzer (http://zhoulab.usc.edu/iArrayAnalyzer.htm)

Published Researches


*Leming Shi et al, BMC bioinformatics, 2005, 6,s12

  1. Cross-platform analysis 를 위해 data의 intra-platform consistency를 측정하기 위해서는 Log ratio가 log intensity에 우선이 되어야 한다. Consistent intra-platform data 선정 후, cross-platform analysis를 해야 consistency가 높아진다.
  2. 서로 다른 platform의 data를 비교하는 것인 만큼 각 platform에 dependent한 data filtering이 선행되어야 한다. 이 과정이 cross platform validation 가능한 정도의 신뢰도를 가지는 gene set을 결정하게 된다.
  3. Cross concordance 측정을 위한 gene selection 방법은 p-value 보다 fold change, SAM이 더 정확하며, selection되는 gene 숫자가 적을 수록 효과는 significant.

*Phillip Stafford et al, NAR, 2007, dio:10.1093

  1. Affy 와 Agil chip을 Liver, Lung, Spleen 세 가지 normal tissue extract로 실험하여 다양한 normalization 방법들을 적용하여 GO 분석과 feature selection 수행, 가이드라인 제시


*Lei Guo, .. , Leming Shi, Nature Biotech, 24,1162

  1. MAQC project의 toxicogenomics data에 대한 cross-platform analysis
  2. 앞선 논문에서와 마찬가지로 fold change가 consistent DEG 선정에 가장 좋은 결과를 내었는데, 특정 fold change range ( e. g >2.0, 1.3) 보다 ranking을 이용하는 편이 더 좋은 결과. 이 때, strict하지 않은 P-value cut-off(0.05)로 먼저 전체 gene set을 거른 후, 나머지 gene들에 대해 fold change의 ranking을 선정 특정 ranking 이상의 gene들을 선정하는 방법을 이용하였다.
  3. GO, KEGG 분석을 통해 biologically meaningful한 결과를 얻을 수 있었고, 결과적으로 cross-platform for toxicogenomics 연구를 뒷받침

Book of mind

* Faber book of science, 번역본 : 지식의 원전
* Founders at work (Jessica Livingston, 강컴 판매)