파싱의 추억
-
[사이트긁어오기 강좌#1] php와 snoopy로 로그인 처리파싱의 추억 2012. 2. 21. 07:00
사이트 긁어오기를 하다보면, 로그인을 해야만 가능한 사이트들을 만나게 된다. 사이트파싱 에서 로그인처리는 까다로운 녀석인데, snoopy에는 로그인을 처리하는 기능이 있다. 로그인에 변수들을 던져주면 자동으로 로그인이 된다. 로그인 처리를 해보면, 대부분 스누피를 이용해서 파싱이 가능하다. 물론, 좀 복잡한 방법으로 해야만 하는 경우도 있다. 복잡한 방법은 놔두고, 간단히 처리하는 방법을 알아본다. 테스트로 사용할 사이트중에 어디가 좋을까나.. 제휴사이트중 “링크프라이스” 라는 곳으로 해보자. 보통의 사이트들은 아래 같은 방법이면 70%는 로그인이 가능하다. 일단, 사이트의 로그인처리를 살펴봐야한다. 알아야 할 항목은 크게 3가지다. 1. 로그인 처리를 하는 url 2. 아이디를 받아내는 변수 3. 비밀..
-
사이트 긁어오기로 할 수 있는 6가지 놀라운 일파싱의 추억 2011. 11. 18. 13:41
사이트 파싱이라는 단어보다는 사이트 긁어오기라는 단어가 한국 사람에게는 혀에 감긴다. 사이트 긁어오기라는 단어가 주는 어감은 좀 그렇긴 하지만.. 사이트 파싱은 여러가지 긍정적인 활용이 가능하다. 사이트 긁어오기는 단순 노가다 반복작업을 대신해주면서 사람에게 시간을 벌어준다. 예전부터 달을파는아이 블로그에 사이트 긁어오기, 사이트 파싱에 관한 글들을 올렸다. 생각지 못하게 작업의뢰가 몇번 들어왔다. 작업의뢰는 내가 생각했던것보다 훨씬 다양했다. 생각지도 못한 곳에서 쓰일 수도 있음을 알았다. 몇일의 프로그램작업으로 한달이상 해야하는 노가다를 대신할 수도 있었고, 매일 매일 지겹게 반복되던 단순작업들이 사라지기도 했다. 기술적인 이야기는 놔두고, 활용사례를 소개하고자 한다.혹시나 매일 반복되는 노가다나 막..
-
[정규표현식] .*? 와 .* 의 차이점파싱의 추억 2011. 9. 2. 11:38
사이트 긁어오기를 하는 방법에는 여러가지 기술이 있다. 그중에서 가장 깔끔한 방법이 정규표현식을 이용하는 방법이다. 이 정규표현식이라는 녀석이 참으로 오묘해서, 할때마다 머리가 어지럽다. 사이트 긁어오기 할때 자주쓰이는 .*? 라는 녀석이 있다. 사람의 머리로 해석하기 참으로 애매한 녀석이다. 이아이와 해깔리는게 .* 이다. 먼저, .*? 를 써보면 아래와 같은 결과가 나온다. Array ( [0] => Array ( [0] => "bbb" [1] => "ccc" [2] => "ddd" ) ) 재미있는건, .*? 대신에 .* 를 쓰면 아래 결과 값이 나온다. Array ( [0] => Array ( [0] => "bbb" "ccc" "ddd" ) ) 결과의 차이를 보면, 확실히 다르다. 각각 사이트 긁어..
-
죄송합니다. 요청하신 검색이 원활하게 수행되지 못하고 있습니다.. 라는 오류가 뜰때는?파싱의 추억 2011. 2. 18. 22:10
스누피를 이용해서 네이버 검색결과를 긁어오는 기능을 구현하면, 여러가지로 쓸모가 있다. 하지만, 네이버에 과도하게 검색결과를 요청하면 "죄송합니다. 요청하신 검색이 원활하게 수행되지 못하고 있습니다."라는 오류가 발생한다. 전체 에러메세지 내용은 아래와 같다. 현재 사용 중이신 PC에서 네이버 검색의 안정적인 서비스 제공을 방해하는 내용이 확인되었습니다. 아래와 같이 고객님의 PC를 점검하시면, 더욱 편리하게 네이버 검색을 사용하실 수 있습니다. 개인 PC : 사용 중인 백신 프로그램을 최신 엔진으로 업데이트하고, 시스템 검사 및 치료 수행. 네이버 백신 다운로드 (바이러스, 스파이웨어 무료 검사 및 치료) 공유 PC (기관, 학교, 회사 등) : 해당 시스템의 네트워크/보안 담당자에게 문의 위와 같이 ..
-
네이버 블로그에서 티스토리로 이사하는 3가지 방법파싱의 추억 2010. 9. 16. 06:48
네이버 블로그 이사하는 방법을 찾아봤다. 현재로써는 3가지 방법이 있다. 그 중 두가지는 사용불가다. 한가지는 jeidee님이 만든 프로그램이고, 두번째는 프리덤이라는 사이트다. 아쉽게도 jeidee 프로그램은 업그래이드가 중단되어, 새롭게 리빌드된 네이버블로그에서는 오작동이 난다고 한다. 프리덤사이트는 잠정적인 폐쇄다. 현재 유일하게 가능한 것은 세번째 방법이다. 달을파는아이가 개인이 쓸려고 만든 프로그램이다. 예전에 적은 에서, 이사하는 원리를 대충설명을 했었다. 네이버블로그의 내용을 긁어서, 티스토리의 blog api를 통해서 전송한다. 다른 프로그램이 XML로 백업한후 복원하는것과는 방식이 다르다. 애초에 블로그 이사툴로 만들려고 했던게 아니었다. 다른용도로 만들다가 이사툴로도 사용할 수 있겠다는..
-
7만원으로 집에서 리눅스 웹서버를 돌려볼까?파싱의 추억 2010. 4. 20. 18:30
집에서 웹서버를 돌리는 사람들이 많아졌다. 여러가지 장난을 쳐보기에는 웹호스팅은 너무 좁고 불편하다. 그렇다고 서버를 한대사서 운영하기에는 너무 벅차다. 서버에 해보고 싶은게 있는데 당장에 돈이 되는일이 아니라 초기 투자를 하고 싶지도 않다. 그래서 집에다가 장난감용 웹서버를 운영하기로 했다. 회사를 마치고 집에서 와서 조금씩 쪼물락 거렸다. 서버 구축이 완료되기 까지 일주일이 걸렸다. 인건비빼고 총 투자 금액은 7만 8천원이다. 옥션에서 중고 컴퓨터를 7만6천원에 구입하고, 공유기에서 빼쓸 랜선 2000원이다. OS는 리눅스를 설치했다. 책상밑에 조용히 돌아가고 있는 7만원 리눅스 서버님 구축하고 일주일이 지난 지금 서버는 이상없다. 사양이 낮아서 걱정했는데, 일주일동안 켜놨는데 꺼져서 문제를 일으킨적..
-
PHP 스누피로 사이트 긁어오기가 되지 않는 사이트를 긁어오는 3가지 방법파싱의 추억 2010. 4. 19. 00:31
사이트를 긁어오기를 하다보면 fsockopen(): unable to connect to 라는 에러가 나면서 사이트 긁어오기가 되지 않는 경우가 종종있다. 특히 외국 사이트중에 그런 곳이 많다. 사이트를 방문하지 않고 내용만 쏙 빼가는게 탐탁치 않아서 막아 놓은경우도 있고, 국가적인 차원에서 차단을 시킨경우도 있다. 예를 들어 , 일본 최대 AV 회사중에 하나인 DMM은 한국에서 들어오는 방문자를 차단시켜놓았다. 실제로 AV를 구매하지도 않으면서 트래픽은 엄청나게 잡아 먹기 때문이다. 또 다른예로 , 미국 국가 기관들중에는 미국에서 접속하지 않으면 페이지에 접근할수도 없는곳들이 있다. 재미있는건 웹브라우져를 열어서 보면 열리는데, 스누피로 긁어올려고 하면 안된다는 점이다. 현재 내가 발견한 사이트 긁어오..
-
PHP 정규표현식을 이용해서 사이트 긁어보자 (노가다 없이 자료 수집하는 방법)파싱의 추억 2010. 3. 27. 01:54
"사이트 긁어오기" 다른말로 사이트 파싱작업을 하는 이유는 단순하다. 노가다를 컴터에게 대신 시키기 위해서다. 로또번호를 일주일마다 입력하기 귀찮기 때문에 나눔로또 사이트에서 매주 로또 번호를 긁어온다. 경쟁사의 상품을 매번 찾아 볼 수가 없기 때문에 옥션을 주기적으로 긁어 온다. 사이트 긁어오기를 구현하기 위해서는 정규표현식이 필수다. 정규표현식을 몰라도 가능은 하다. 소스가 지저분해지고 나중에 수정하기면서 욕나오는 것만 빼면.. 정규표현식이라는 녀석이 간단해 보이지만 쓸 때마다 헤깔리고 잊어버린다. 그래서 사이트 긁어오는 방법을 간단히 정리해본다. 그전에 php에서 정규표현식을 사용하는 방법을 간단히 걸어 넘어가자. php에서 정규표현식을 쓰는 방법은 여러가지다. 개인적으로는 아래방법을 이용한다. i..