Thursday, January 10, 2008

ID Mapping between Genbank and SwissProt

서로 다른 source의 data를 통합, 분석하기 위해서는
각 DB의 ID 를 mapping하는 작업이 필요하다.
이를 위한 mapping DB를 소개한다.


UniProtPDB 간의 mapping
: http://www.bioinf.org.uk/pdbsws/

UniProt, PDBEC 의 mapping
: http://www.bioinf.org.uk/pdbsprotec/

UniProt, PDB, NCBI 간의 mapping
: http://www.pir.uniprot.org/search/idmapping.shtml

IPI protein cross reference (UniProt-Ensenble-Refseq-GI )
: http://www.ebi.ac.uk/IPI/xrefs.html

NCBI Gene mapping
: NCBI ftp 접속 후, gene/DATA 디렉토리 하의
gene2accession.gz, gene2refseq.gz, gene_refseq_uniprot_collob.gz 등
일련의 파일을 통해 NCBI에 등록된 gene의

-rma accession, gene accession, protein accession 과 이들의 gi
-protein accession 과 uniprot id

등의 관계를 mapping.

하나의 gene은 NCBI에서 rma, gene, protein 으로 나누어 accession id를
가지게 되고, 이들 각각의 고유한 gi 값도 가지게 되는데, 외부의
cross-mapping DATA는 주로 이들 중 하나의 accession id와의 mapping
정보만을 담고 있어, 원하는 DB cross-mapping 을 할 수 없을 때가 많다.

Affymextrix gene chip의 각 probe 와 protein 을 mapping하고자 하는 경우,
affymetrix chip description file과 R의 annaffy 패키지를 통해 제공하는 정보는
NCBI의 'NM_xxxxx' 형태의 NCBI RMA accession ID 인데, Protein DB가 제공하는
mapping 정보는 NP_xxxxx 형태의 NCBI protein accession ID 다.

이를 위해서는 NCBI에서 제공되는 위의 파일들을 다운 받아, RMA와 protein 의
NCBI accession ID를 mapping 하는 작업이 선행되어야 한다.