Sunday, May 27, 2007

R for microarray data handling

DATA structure of microarray

1. Matrix of F rows and S columns

  • F is the no. of features
  • S is the no. of samples

2. Feature information matrix

  • F X F matrix, each links to standard feature(gene) id in public DB

3. Data table of information on samples ( S X V matrix)

  • v is the no. of covariates

와 같이 총 3개의 data representation matrix가 하나의 microarray data를 표현한다.

Reading array data from flatfile

Microarray data를 읽기 위한 R package들이 존재하나, 특정한 data form을 요구한다. 서로 다른 lab or platform or pubic DB 에서 얻어진 data들을 일괄적으로 처리하기 힘들다. 따라서 기본적인 R 기능을 이용한 data reading으로 data을 matrix형태로 읽어들이고, 이를 processing한다.

1. reading expression file

> ex<-read.table('~/file',header .., sep .. )

읽어들인 data를 numeric only data로 변경하고, 이를 matrix 형 data로 변환

>ex_mat=as.matrix(ex)

matrix형으로 변환된 data는 R package 함수에 기본형으로 쓰인다.