Ten simple rules series를 쓰던 Phillip bourne이
Perspective article을 하나 썼다. 이 글 제목이
바로 그 글의 제목인데,
이 글에선 일종의 과학자 '평가' 시스템을
openID 를 통해 기존의 논문에 국한하지
않고 전 'web' 활동 범위로 확대하자는
idea를 설명하고 있다.
과학자 impact factor =
H factor ( 기존의 paper based impact factor)
+ ( #{Grant/Review editor}/20 )
+ ( #{Annotation/software/Dataset}/5 )
+ ( # Web factor /50 )
과 같은 수식을 사용하여 블로그 글에 달린
답글이 50이 넘을 때 마다 1씩 researcher factor
를 주고, 논문 에디터도 20번 이상이면 1씩,
소프트웨어나 데이터셋 public 에 공개 등도
5회 이상이면 1씩 이 팩터를 증가시키는
방식으로 과학자의 전방위 활동에 대한
scoring을 할 수 있다는 것이다.
이런 식의 web-based author , paper,
software, dataset 등에 대한 파급효과
scoring은 필요에 따라 우리도 다양하게
시도해 볼 수 있는 것 같다.
최근에 나도 GEO에 있는 micorarray
dataset에 대한 impact size scoring
을 google scholar를 이용해 시도한
적이 있다. 데이터셋이 얼마나 커뮤니티에
파급효과가 있었는지를 그 데이터를
쓴 논문에 대한 citation, cite한 논문에
대한 citation, ... 로 citation의 propagation
을 쭉 따라가며 scoring을 할려고 했는데,
google scholar가 web scrapping robot
program에 대해 접근을 차단하는 정책을
써서 개발을 중단한 상태다.
이 문제를 해결할 수 있는 아이디어가 있는 분들의
답글 기대하면 좋겠는데,내 블로그를 구독하는
사람이 거의 없어서 ㅜㅜ
Web scrapping 하실 때 LWP나 WWW::Mechanize 모듈을 쓰셨다면
ReplyDeletemy $ua = LWP:: UserAgent->new; $ua->agent("Mozilla/8.0");
이런식으로 user agent를 일반적인 브라우저로 바꿔줘도 안되던가요?
기본 LWP의 user agent는 libwww-perl 인가 그런데 이걸 구글은 bot으로 판단하고 막더군요.
예, WWW::Mechanize 모듈을 썼습니다. 정확히 413번째 접근에서 아예 ip를 차단하더군요. 코멘트 하신 방식대로 시도 해봐야겠네요, 감사합니다
ReplyDeletemy $mech=WWW::Mechanize->new;
ReplyDelete$mech->agent("Mozillar/8.0");
으로 설정해도 마찬가지네요. 이번엔 202번 접근한 후, 차단되네요.