Tuesday, April 10, 2007

Interacting with web pages with perl

Perl을 통해 목적하는 web page의 정보를 얻어 프로세싱하기 위해 필요한 모듈들

LWP::UserAgent
주어진 url의 page를 통째로 읽어오는데 쓸 수 있다.

HTML::ContentExtractor
주어진 url의 page에는 메뉴바나 광고등의 사용자가 원하지 않는 정보가 포함되어 있을 수 있는데, 이 때 이 모듈을 이용하면 DOM(Document Object Model) tree분석을 통해 main text의 content만을 extraction할 수 있다.