사이트수집
-
온라인서점의 책 정보 파싱과 여행사의 여행상품 파싱파싱의 추억 2017. 7. 21. 00:44
동시에 두개의 일이 연락이 왔다. 하나는 온라인 서점의 책정보를 수집하는일이고, 다른 하나는 여행사의 여행상품을 수집하는 일이다. 파싱이라는 일을 놓고 보면, 두가지 작업은 극과 극이다. 파싱은 웹사이트의 정보중에 원하는 정보만 뽑아내서, 디비에 정리해서 넣는 작업이다. 웹사이트의 정보는 사람이 보기에 좋긴 하지만, 데이타로써 가치는 없다. 데이타로써 가치가 있기 위해서는 일정한 규격으로 정리되어 있어야 한다. 워드에 적어놓은 글과 엑셀에 정리해놓은 자료의 차이라고 할까? 파싱작업의 두가지 파싱 작업은 크게 두가지 부분으로 나뉘어 진다. 해당 사이트의 HTML 소스를 가져오기와 HTML 소스에서 필요한 부분만 잡아내서 디비나 엑셀에 정리하기이다. 첫번째일은 비교적 쉽다. 웹브라우저로 해당사이트를 여는 행..