사이트긁어오기
-
온라인서점의 책 정보 파싱과 여행사의 여행상품 파싱파싱의 추억 2017. 7. 21. 00:44
동시에 두개의 일이 연락이 왔다. 하나는 온라인 서점의 책정보를 수집하는일이고, 다른 하나는 여행사의 여행상품을 수집하는 일이다. 파싱이라는 일을 놓고 보면, 두가지 작업은 극과 극이다. 파싱은 웹사이트의 정보중에 원하는 정보만 뽑아내서, 디비에 정리해서 넣는 작업이다. 웹사이트의 정보는 사람이 보기에 좋긴 하지만, 데이타로써 가치는 없다. 데이타로써 가치가 있기 위해서는 일정한 규격으로 정리되어 있어야 한다. 워드에 적어놓은 글과 엑셀에 정리해놓은 자료의 차이라고 할까? 파싱작업의 두가지 파싱 작업은 크게 두가지 부분으로 나뉘어 진다. 해당 사이트의 HTML 소스를 가져오기와 HTML 소스에서 필요한 부분만 잡아내서 디비나 엑셀에 정리하기이다. 첫번째일은 비교적 쉽다. 웹브라우저로 해당사이트를 여는 행..
-
파싱강의 3강, 파싱을 위한 php의 기초중의 기초파싱의 추억 2016. 4. 18. 12:26
본 파싱강의는 나수연 파싱랩 http://nalab.kr/index.php?mid=parsing 에서 진행하던 강의를 재편집한것입니다. 저작권은 "달을파는아이"에게 있으며, 본인의 글인것처럼 퍼가시면 큰일납니다. 퍼가실땐 필히 출처를 남겨주세요. 1,2강에서 파싱에 대해서 개념을 잡았습니다. 이제 조금씩 파싱의 안으로 들어가게 될텐데요. 그전에 PHP에 대해서 약간은 알고 들어가야합니다. 까막눈으로는 진도가 나갈 수가 없으니까요. 정말 php에서 기본중에 기본인 내용입니다. 파싱강의를 진행함에 있어서, 제일 걱정되는 부분입니다. php만 해도 내용이 너무 방대합니다. 본 강좌가 php 플그래머를 만들려는게 목표가 아닙니다. 인터넷에 php 강좌가 많기도 하기 때문에.. 파싱에 필요한 부분만 간략하게 설명..
-
aspx로 만들어진 사이트의 로그인 파싱을 하고..파싱의 추억 2013. 9. 10. 08:19
사이트 긁어오기에 대한 글을 블로그에 적어온 이후로 의도치 않게 많은 의뢰를 받았다. 블로그에는 광고라는 수익모델만 있는것이 아니다. 세상에 먼가를 내 보이면, 세상은 허접한 나를 전문가로 알아준다. 그 덕에 몇년동안 참으로 다양한 사이트를 파싱했다. 이제는 왠만한 사이트는 파싱이 가능하다고 생각했다. 이번에 aspx로 된 사이트 파싱의뢰가 들어왔다. 닷넷쪽도 그냥 하면 될줄 알았다. 그런데, 로그인할때 문제가 발생했다. 내가 알던 방법으로 로그인이 되지 않았다. 국내사이트에는 정보가 전무하고, 외국 사이트들을 뒤졌다. 이런 저런 내용들이 많았다. 답이라고 올라온 녀석들이 나를 더 헤깔리게 만들었다. 답일듯 말듯한 방법들이 제대로 작동하지 않았고, 나와 같은 고민의 질문들만 수두룩 쌓여있었다. aspx는..
-
지마켓에서 판매자 정보 긁어오는 방법, 자바스크립트에 익숙해져야..파싱의 추억 2012. 9. 22. 12:57
지마켓에서 개인정보를 가져오는 방법을 아는것과 그 개인정보를 실제로 어떻게 사용하는지는 다른 문제다. 칼을 요리에 쓸수도 있지만, 사람을 해하는데 쓸 수도 있기 때문이다. 그렇다고 이 세상 모든 칼이 문제일 수는 없다. 칼의 잘못이 아니라, 칼을 사용하는 사람의 문제다. 기술은 영역이 없어야 한다. 개발된 기술의 사용이 어떻게 할까는 인문학의 역활이다. 지마켓 하단에도 스크래핑을 하지마라고 경고하고 있다. 문구가 좀 애매하긴 하다. 상업적이 아니라면, 스크래핑이 가능하다는 말일까? 논의는 넘어가고, 실제 구현을 보자. 지마켓의 상품 리스트에 보면, 판매자 정보가 있다. 판매자 정보에는 전화번호와 이메일등등 일종의 개인정보가 포함되어 있다. 지마켓의 상세페이지를 파싱해서 긁어오는 소스는 간단하다. $txt..
-
[사이트긁어오기 강좌#1] php와 snoopy로 로그인 처리파싱의 추억 2012. 2. 21. 07:00
사이트 긁어오기를 하다보면, 로그인을 해야만 가능한 사이트들을 만나게 된다. 사이트파싱 에서 로그인처리는 까다로운 녀석인데, snoopy에는 로그인을 처리하는 기능이 있다. 로그인에 변수들을 던져주면 자동으로 로그인이 된다. 로그인 처리를 해보면, 대부분 스누피를 이용해서 파싱이 가능하다. 물론, 좀 복잡한 방법으로 해야만 하는 경우도 있다. 복잡한 방법은 놔두고, 간단히 처리하는 방법을 알아본다. 테스트로 사용할 사이트중에 어디가 좋을까나.. 제휴사이트중 “링크프라이스” 라는 곳으로 해보자. 보통의 사이트들은 아래 같은 방법이면 70%는 로그인이 가능하다. 일단, 사이트의 로그인처리를 살펴봐야한다. 알아야 할 항목은 크게 3가지다. 1. 로그인 처리를 하는 url 2. 아이디를 받아내는 변수 3. 비밀..
-
사이트 긁어오기로 할 수 있는 6가지 놀라운 일파싱의 추억 2011. 11. 18. 13:41
사이트 파싱이라는 단어보다는 사이트 긁어오기라는 단어가 한국 사람에게는 혀에 감긴다. 사이트 긁어오기라는 단어가 주는 어감은 좀 그렇긴 하지만.. 사이트 파싱은 여러가지 긍정적인 활용이 가능하다. 사이트 긁어오기는 단순 노가다 반복작업을 대신해주면서 사람에게 시간을 벌어준다. 예전부터 달을파는아이 블로그에 사이트 긁어오기, 사이트 파싱에 관한 글들을 올렸다. 생각지 못하게 작업의뢰가 몇번 들어왔다. 작업의뢰는 내가 생각했던것보다 훨씬 다양했다. 생각지도 못한 곳에서 쓰일 수도 있음을 알았다. 몇일의 프로그램작업으로 한달이상 해야하는 노가다를 대신할 수도 있었고, 매일 매일 지겹게 반복되던 단순작업들이 사라지기도 했다. 기술적인 이야기는 놔두고, 활용사례를 소개하고자 한다.혹시나 매일 반복되는 노가다나 막..
-
[정규표현식] .*? 와 .* 의 차이점파싱의 추억 2011. 9. 2. 11:38
사이트 긁어오기를 하는 방법에는 여러가지 기술이 있다. 그중에서 가장 깔끔한 방법이 정규표현식을 이용하는 방법이다. 이 정규표현식이라는 녀석이 참으로 오묘해서, 할때마다 머리가 어지럽다. 사이트 긁어오기 할때 자주쓰이는 .*? 라는 녀석이 있다. 사람의 머리로 해석하기 참으로 애매한 녀석이다. 이아이와 해깔리는게 .* 이다. 먼저, .*? 를 써보면 아래와 같은 결과가 나온다. Array ( [0] => Array ( [0] => "bbb" [1] => "ccc" [2] => "ddd" ) ) 재미있는건, .*? 대신에 .* 를 쓰면 아래 결과 값이 나온다. Array ( [0] => Array ( [0] => "bbb" "ccc" "ddd" ) ) 결과의 차이를 보면, 확실히 다르다. 각각 사이트 긁어..
-
죄송합니다. 요청하신 검색이 원활하게 수행되지 못하고 있습니다.. 라는 오류가 뜰때는?파싱의 추억 2011. 2. 18. 22:10
스누피를 이용해서 네이버 검색결과를 긁어오는 기능을 구현하면, 여러가지로 쓸모가 있다. 하지만, 네이버에 과도하게 검색결과를 요청하면 "죄송합니다. 요청하신 검색이 원활하게 수행되지 못하고 있습니다."라는 오류가 발생한다. 전체 에러메세지 내용은 아래와 같다. 현재 사용 중이신 PC에서 네이버 검색의 안정적인 서비스 제공을 방해하는 내용이 확인되었습니다. 아래와 같이 고객님의 PC를 점검하시면, 더욱 편리하게 네이버 검색을 사용하실 수 있습니다. 개인 PC : 사용 중인 백신 프로그램을 최신 엔진으로 업데이트하고, 시스템 검사 및 치료 수행. 네이버 백신 다운로드 (바이러스, 스파이웨어 무료 검사 및 치료) 공유 PC (기관, 학교, 회사 등) : 해당 시스템의 네트워크/보안 담당자에게 문의 위와 같이 ..