Thursday, January 10, 2008

ID Mapping between Genbank and SwissProt

서로 다른 source의 data를 통합, 분석하기 위해서는
각 DB의 ID 를 mapping하는 작업이 필요하다.
이를 위한 mapping DB를 소개한다.


UniProtPDB 간의 mapping
: http://www.bioinf.org.uk/pdbsws/

UniProt, PDBEC 의 mapping
: http://www.bioinf.org.uk/pdbsprotec/

UniProt, PDB, NCBI 간의 mapping
: http://www.pir.uniprot.org/search/idmapping.shtml

IPI protein cross reference (UniProt-Ensenble-Refseq-GI )
: http://www.ebi.ac.uk/IPI/xrefs.html

NCBI Gene mapping
: NCBI ftp 접속 후, gene/DATA 디렉토리 하의
gene2accession.gz, gene2refseq.gz, gene_refseq_uniprot_collob.gz 등
일련의 파일을 통해 NCBI에 등록된 gene의

-rma accession, gene accession, protein accession 과 이들의 gi
-protein accession 과 uniprot id

등의 관계를 mapping.

하나의 gene은 NCBI에서 rma, gene, protein 으로 나누어 accession id를
가지게 되고, 이들 각각의 고유한 gi 값도 가지게 되는데, 외부의
cross-mapping DATA는 주로 이들 중 하나의 accession id와의 mapping
정보만을 담고 있어, 원하는 DB cross-mapping 을 할 수 없을 때가 많다.

Affymextrix gene chip의 각 probe 와 protein 을 mapping하고자 하는 경우,
affymetrix chip description file과 R의 annaffy 패키지를 통해 제공하는 정보는
NCBI의 'NM_xxxxx' 형태의 NCBI RMA accession ID 인데, Protein DB가 제공하는
mapping 정보는 NP_xxxxx 형태의 NCBI protein accession ID 다.

이를 위해서는 NCBI에서 제공되는 위의 파일들을 다운 받아, RMA와 protein 의
NCBI accession ID를 mapping 하는 작업이 선행되어야 한다.

Wednesday, January 9, 2008

Integrating gene expression data with other biological data

Microarray data 를 이용한 연구가 많이 이뤄져왔고, 이루어지고 있지만, 기술적인 한계 or 생물학적 시스템의 불안정성으로 인해 각 데이터 간의 재연성이 높지 않고, 따라서 신뢰도가 떨어지는 실정이다. 생물학 시스템이 정확히 하나의 expression pattern 그대로 있는 시간은 얼마나 될까? Microarray 실험을 하기 위한 sample을 얻는 시간을 컨트롤하여 정확하게 같은 expression pattern을 재연할 수 있을까?

똑같은 Pancreatic cancer cell에 대한 expression pattern도 cell을 둘러싼 환경에 따라, 시간에 따라 달라진다. 서로 다른 환자에게서 추출된 cancer cell 간의 pattern 이라면 영향을 끼치는 factor들은 더욱 많아지게 된다. Gene expression pattern의 재연성이 떨어지는 것은 이러한 정황을 고려해 볼 때 당연한 결과인지 모른다.

Expression pattern을 통해 목적하는 일 중 대부분이 Biomarker selection 이다. Lung cancer를 일으키는 gene은? Diabetis를 일으키는 gene은? 이런 식으로 찾아낸 gene을 가지고 drug target을 삼고, drug discovery에 돌입하는 traditional research paradigm 이 궁극적인 목적이 된다.

그러나 아이러니하게 gene expression data는 오히려 이런 old paradigm 보다는, 전체적인 expression 양상, 단일한 gene이 아닌 전체적인 gene들의 발현 양상이 서로 어떻게 연관되어 있는지를 연구할 수 있는 new paradigm에 적합하다.

Protein interaction, gene interaction, coexpression analysis 등과의 접목을 통해 expression data를 1차원에서 2차원, 3차원으로 높여 분석할 때, 이런 Global, Local gene expression pattern 뒤에 감춰진 의미를 더욱 잘 이해할 수 있을 것이다.

Thursday, January 3, 2008

은행 적금 금리와 펀드의 수익률

똑같은 이자율이라 하더라도 은행 적금과 펀드의 이자율은
액면 그대로 받아들일 수 없는 간극이 있다.

7%의 이자율로 은행 정기 적금을 들면 월 20만원 납입시
1년 후 붙는 이자는 78,000원이다. (200,000*0.07*13/2)

반면 20만원씩 적립식 펀드에 가입하고 1년 후 누적 수익률이
7%인 경우에 붙은 이자는 168,000원이다. ( 240*0.07 )

그러나, 대개 펀드의 1년 수익률을 얘기할 때의 수익률은
누적 수익률이 아니라, 말 그대로 1년 전의 불입금에 해당하는
수익률이다. 2006년 1월 20만원에 대해 2007년 1월 14,000원의
수익이 발생한 경우 이 펀드의 1년 수익률이 7%라고 얘기한다.

이 기간 동안 펀드의 수익률이 오르락 내리락 했을 경우, 매달
불입한 20만원에 대한 수익률은 각기 다르고, 전체 불입금에
대한 누적 수익률은 7%가 한참 못 미칠 수도 있고, 한참
위일 수도 있다.