Wednesday, April 18, 2007

Role of CNEs

Conserved noncoding elements (CNEs) 는 지놈 서열 상에
보존된 서열들의 대부분을 차지하지만, 그 기능에 대해서는
거의 알려진 것이 없었다. 실험을 통해 알려진 바로는
gene regulation에 관여한다는 것이 알려져 있지만,
어떤 mechanism을 통해 어떻게 이런 기능을 하는지에
대해서는 역시 아직까지 밝혀진 바가 없었다.

MIT의 Broad Institute의 연구진들은 이들 CNE의
역할을 규명하려는 일련의 실험을 진행하였다.
( http://www.pnas.org/cgi/reprint/0701811104v1)

먼저 CNE 중 비교적 긴 motif (12-22nt)를 찾아내었는데,
이렇게 얻어진 CNE motif는 총 233개, 전체 CNE의 개수는
human genome에서 60,000개에 달했다고 한다.

이어 연구진은 이들 motif의 역할을 실험적으로 규명했는데,
RFX1 protein family가 가장 conservation이 강한 CNE motif와
결합한다는 사실, gene activation을 제한하는 insulator 기능을 가진
CTCF protein의 결합 부위를 결정한다는 사실을 밝혀내었다.
또한 CTCF protein 결합 부위에 의해 분리된 인접 유전자들은
gene expression이 감소되는 경향이 있음을 확인했다.

CTCF protein에 의해 분리된 유전자의 단위들이 gene expression의
발현 정도를 조절하는 잣대가 된다면, 이를 통한 상대적 발현 정도의
차이를 예측하는 시스템의 구축이 가능할 것이고, gene expression
도 protein domain 처럼 묶어 각각의 기능적 특성들을 이해하고 분류하는
일련의 과정들도 가능해 질 것이라 본다.

Microarray 를 통한 gene expression 연구 또한 새로운 insight를
가질 수 있을 것 같다. 무조건 DEG들이 중요한 것들이라기 보다는
어떤 gene context에 속해 어느 정도의 expression을 가질 것인가
라는 맥락 속에서 얼마나 다른 발현 정도를 가져왔느냐가 핵심이
되어야 할 것이다.

Tuesday, April 10, 2007

Interacting with web pages with perl

Perl을 통해 목적하는 web page의 정보를 얻어 프로세싱하기 위해 필요한 모듈들

LWP::UserAgent
주어진 url의 page를 통째로 읽어오는데 쓸 수 있다.

HTML::ContentExtractor
주어진 url의 page에는 메뉴바나 광고등의 사용자가 원하지 않는 정보가 포함되어 있을 수 있는데, 이 때 이 모듈을 이용하면 DOM(Document Object Model) tree분석을 통해 main text의 content만을 extraction할 수 있다.

Tuesday, April 3, 2007

Frequently used commands in R

Download package

>install.packages('package name')

For bioconductor package

>source('http://www.bioconductor.org/biocLite.R')
>biocLite('package name')

Reading data

read.table 옵션
row.names=1이면 첫번째 column의 row값이 row name이 된다.

Glimpse of data

>str(data)
>summary(data)
>print(data)

Divide plotting space

>par(mfrow=c(n,m))
nXm 행렬 형태로 plotting 공간을 나눈다.

Distribution model

[rpq][normpoisbinomunif]
각 distribution 에 따라 random generator, cumulative robability, deviate fo currespond cumulative probability.

Length of column and raw of matrix

>nrow(matrix) ; matrix의 row 개수 반환
>ncol(matrix) ; marix의 column 개수 반환

>dim(matrix) ; matrix의 row와 column 반환

>length(matrix) ; matrix의 전체 길이 반환 ( matrix 형 data 인 경우, is.matrix()로 판정 or class())

Boxplot

header가 없는 matrix의 boxplot은 모든 데이터를 하나의 column으로 간주하는데, 이 때 각 column에 대한 boxplot을 그리려면

>boxplot(matrix~col(matrix))