Tuesday, January 16, 2007

Java for Bioinformatics, File parsing

StringTokenizer

: 공백 문자나 사용자가 지정한 문자를 이용, 문자열을 여러 개의 token으로 쪼개어 준다.
Perl의 split과 같은 기능.

Exam) Genbank 파일을 읽어 Accession number 추출

//Reading file..

String a;
StringTokenizer token=new StringTokenizer(line);

if(token.hasMoreTokens()){

a=token.nextToken();
if(a.equals("ACCESSION")){
System.out.println(token.nextToken());
}
}

Exam2) 구분자 지정

Default 구분자는 공백(\s).

StringTokenizer a=new StringTokenizer(line,"\t"); // tab을 구분자로
StringTokenizer a=new StringTokenizer(line,"\t",true); // tab을 구분자로하고, 구분자까지 token으로 저장