Monday, December 29, 2008

I'm not a scientist, I'm a number!

plos comput. perspective :http://www.ploscompbiol.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.1000247

Ten simple rules series를 쓰던 Phillip bourne이
Perspective article을 하나 썼다. 이 글 제목이
바로 그 글의 제목인데,

이 글에선 일종의 과학자 '평가' 시스템을
openID 를 통해 기존의 논문에 국한하지
않고 전 'web' 활동 범위로 확대하자는
idea를 설명하고 있다.

과학자 impact factor =
H factor ( 기존의 paper based impact factor)
+ ( #{Grant/Review editor}/20 )
+ ( #{Annotation/software/Dataset}/5 )
+ ( # Web factor /50 )

과 같은 수식을 사용하여 블로그 글에 달린
답글이 50이 넘을 때 마다 1씩 researcher factor
를 주고, 논문 에디터도 20번 이상이면 1씩,
소프트웨어나 데이터셋 public 에 공개 등도
5회 이상이면 1씩 이 팩터를 증가시키는
방식으로 과학자의 전방위 활동에 대한
scoring을 할 수 있다는 것이다.

이런 식의 web-based author , paper,
software, dataset 등에 대한 파급효과
scoring은 필요에 따라 우리도 다양하게
시도해 볼 수 있는 것 같다.

최근에 나도 GEO에 있는 micorarray
dataset에 대한 impact size scoring
을 google scholar를 이용해 시도한
적이 있다. 데이터셋이 얼마나 커뮤니티에
파급효과가 있었는지를 그 데이터를
쓴 논문에 대한 citation, cite한 논문에
대한 citation, ... 로 citation의 propagation
을 쭉 따라가며 scoring을 할려고 했는데,

google scholar가 web scrapping robot
program에 대해 접근을 차단하는 정책을
써서 개발을 중단한 상태다.

이 문제를 해결할 수 있는 아이디어가 있는 분들의
답글 기대하면 좋겠는데,내 블로그를 구독하는

사람이 거의 없어서 ㅜㅜ

3 comments:

  1. Web scrapping 하실 때 LWP나 WWW::Mechanize 모듈을 쓰셨다면

    my $ua = LWP:: UserAgent->new; $ua->agent("Mozilla/8.0");
    이런식으로 user agent를 일반적인 브라우저로 바꿔줘도 안되던가요?

    기본 LWP의 user agent는 libwww-perl 인가 그런데 이걸 구글은 bot으로 판단하고 막더군요.

    ReplyDelete
  2. 예, WWW::Mechanize 모듈을 썼습니다. 정확히 413번째 접근에서 아예 ip를 차단하더군요. 코멘트 하신 방식대로 시도 해봐야겠네요, 감사합니다

    ReplyDelete
  3. my $mech=WWW::Mechanize->new;
    $mech->agent("Mozillar/8.0");

    으로 설정해도 마찬가지네요. 이번엔 202번 접근한 후, 차단되네요.

    ReplyDelete