파싱
-
온라인서점의 책 정보 파싱과 여행사의 여행상품 파싱파싱의 추억 2017. 7. 21. 00:44
동시에 두개의 일이 연락이 왔다. 하나는 온라인 서점의 책정보를 수집하는일이고, 다른 하나는 여행사의 여행상품을 수집하는 일이다. 파싱이라는 일을 놓고 보면, 두가지 작업은 극과 극이다. 파싱은 웹사이트의 정보중에 원하는 정보만 뽑아내서, 디비에 정리해서 넣는 작업이다. 웹사이트의 정보는 사람이 보기에 좋긴 하지만, 데이타로써 가치는 없다. 데이타로써 가치가 있기 위해서는 일정한 규격으로 정리되어 있어야 한다. 워드에 적어놓은 글과 엑셀에 정리해놓은 자료의 차이라고 할까? 파싱작업의 두가지 파싱 작업은 크게 두가지 부분으로 나뉘어 진다. 해당 사이트의 HTML 소스를 가져오기와 HTML 소스에서 필요한 부분만 잡아내서 디비나 엑셀에 정리하기이다. 첫번째일은 비교적 쉽다. 웹브라우저로 해당사이트를 여는 행..
-
파싱강의 3강, 파싱을 위한 php의 기초중의 기초파싱의 추억 2016. 4. 18. 12:26
본 파싱강의는 나수연 파싱랩 http://nalab.kr/index.php?mid=parsing 에서 진행하던 강의를 재편집한것입니다. 저작권은 "달을파는아이"에게 있으며, 본인의 글인것처럼 퍼가시면 큰일납니다. 퍼가실땐 필히 출처를 남겨주세요. 1,2강에서 파싱에 대해서 개념을 잡았습니다. 이제 조금씩 파싱의 안으로 들어가게 될텐데요. 그전에 PHP에 대해서 약간은 알고 들어가야합니다. 까막눈으로는 진도가 나갈 수가 없으니까요. 정말 php에서 기본중에 기본인 내용입니다. 파싱강의를 진행함에 있어서, 제일 걱정되는 부분입니다. php만 해도 내용이 너무 방대합니다. 본 강좌가 php 플그래머를 만들려는게 목표가 아닙니다. 인터넷에 php 강좌가 많기도 하기 때문에.. 파싱에 필요한 부분만 간략하게 설명..
-
파싱강의 2강, 파싱의 가능성과 한계파싱의 추억 2016. 4. 1. 12:57
본 파싱강의는 나수연 파싱랩 http://nalab.kr/index.php?mid=parsing 에서 진행하던 강의를 재편집한것입니다. 저작권은 "달을파는아이"에게 있으며, 본인의 글인것처럼 퍼가시면 큰일납니다. 퍼가실땐 필히 출처를 남겨주세요. 1강에서 파싱에 대해 간단히 설명했습니다. 2강에서도 역시 개론인데, 파싱으로 할 수 있는것과 한계에 대해서 이야기해보려고 합니다. 제 2 강 . 파싱으로 할 수 있는것들 예전에 "사이트 긁어오기로 할수 있는 6가지 놀라운일 http://moonseller.net/339" 이라는 거창한 제목으로 적은 글이 있습니다. 그 내용을 좀 더 구체적인 사례로 설명해봅니다. 파싱의 주목적이 "노가다"를 줄이고, "자동화"를 하기 위한것입니다. 1. 도매에서 상품을 가져다가..
-
파싱강의 1강 , 도데체 파싱은 먼가요?파싱의 추억 2016. 3. 28. 11:23
본 파싱강의는 나수연 파싱랩 http://nalab.kr/index.php?mid=parsing 에서 진행하던 강의를 재편집한것입니다. 저작권은 "달을파는아이"에게 있으며, 본인의 글인것처럼 퍼가시면 큰일납니다. 퍼가실땐 필히 출처를 남겨주세요. 달을파는아이가 진행하는 파싱강의는 아주 가볍고, 불진철하며, 파싱의 기술보다는 파싱이라는 도구를 이용해서 수익모델을 만드는 방법에 초점을 맞추려고 합니다. 생각날때마다 적을 예정이라서, 다음강의 독촉은 받지 않습니다. 주 언어는 php이고, php의 완전 초보를 대상으로 하기 때문에 php강의가 섞여 있을수 있습니다. 개발자가 되려는 사람을 위한 강좌가 아니라, 인터넷 수익모델을 고민하는 사람들을 대상으로 합니다. 그래서, 개발자가 보면 미묘하게 틀렸다고 할수 ..
-
aspx로 만들어진 사이트의 로그인 파싱을 하고..파싱의 추억 2013. 9. 10. 08:19
사이트 긁어오기에 대한 글을 블로그에 적어온 이후로 의도치 않게 많은 의뢰를 받았다. 블로그에는 광고라는 수익모델만 있는것이 아니다. 세상에 먼가를 내 보이면, 세상은 허접한 나를 전문가로 알아준다. 그 덕에 몇년동안 참으로 다양한 사이트를 파싱했다. 이제는 왠만한 사이트는 파싱이 가능하다고 생각했다. 이번에 aspx로 된 사이트 파싱의뢰가 들어왔다. 닷넷쪽도 그냥 하면 될줄 알았다. 그런데, 로그인할때 문제가 발생했다. 내가 알던 방법으로 로그인이 되지 않았다. 국내사이트에는 정보가 전무하고, 외국 사이트들을 뒤졌다. 이런 저런 내용들이 많았다. 답이라고 올라온 녀석들이 나를 더 헤깔리게 만들었다. 답일듯 말듯한 방법들이 제대로 작동하지 않았고, 나와 같은 고민의 질문들만 수두룩 쌓여있었다. aspx는..
-
지마켓에서 판매자 정보 긁어오는 방법, 자바스크립트에 익숙해져야..파싱의 추억 2012. 9. 22. 12:57
지마켓에서 개인정보를 가져오는 방법을 아는것과 그 개인정보를 실제로 어떻게 사용하는지는 다른 문제다. 칼을 요리에 쓸수도 있지만, 사람을 해하는데 쓸 수도 있기 때문이다. 그렇다고 이 세상 모든 칼이 문제일 수는 없다. 칼의 잘못이 아니라, 칼을 사용하는 사람의 문제다. 기술은 영역이 없어야 한다. 개발된 기술의 사용이 어떻게 할까는 인문학의 역활이다. 지마켓 하단에도 스크래핑을 하지마라고 경고하고 있다. 문구가 좀 애매하긴 하다. 상업적이 아니라면, 스크래핑이 가능하다는 말일까? 논의는 넘어가고, 실제 구현을 보자. 지마켓의 상품 리스트에 보면, 판매자 정보가 있다. 판매자 정보에는 전화번호와 이메일등등 일종의 개인정보가 포함되어 있다. 지마켓의 상세페이지를 파싱해서 긁어오는 소스는 간단하다. $txt..
-
사이트 긁어오기로 할 수 있는 6가지 놀라운 일파싱의 추억 2011. 11. 18. 13:41
사이트 파싱이라는 단어보다는 사이트 긁어오기라는 단어가 한국 사람에게는 혀에 감긴다. 사이트 긁어오기라는 단어가 주는 어감은 좀 그렇긴 하지만.. 사이트 파싱은 여러가지 긍정적인 활용이 가능하다. 사이트 긁어오기는 단순 노가다 반복작업을 대신해주면서 사람에게 시간을 벌어준다. 예전부터 달을파는아이 블로그에 사이트 긁어오기, 사이트 파싱에 관한 글들을 올렸다. 생각지 못하게 작업의뢰가 몇번 들어왔다. 작업의뢰는 내가 생각했던것보다 훨씬 다양했다. 생각지도 못한 곳에서 쓰일 수도 있음을 알았다. 몇일의 프로그램작업으로 한달이상 해야하는 노가다를 대신할 수도 있었고, 매일 매일 지겹게 반복되던 단순작업들이 사라지기도 했다. 기술적인 이야기는 놔두고, 활용사례를 소개하고자 한다.혹시나 매일 반복되는 노가다나 막..
-
[정규표현식] .*? 와 .* 의 차이점파싱의 추억 2011. 9. 2. 11:38
사이트 긁어오기를 하는 방법에는 여러가지 기술이 있다. 그중에서 가장 깔끔한 방법이 정규표현식을 이용하는 방법이다. 이 정규표현식이라는 녀석이 참으로 오묘해서, 할때마다 머리가 어지럽다. 사이트 긁어오기 할때 자주쓰이는 .*? 라는 녀석이 있다. 사람의 머리로 해석하기 참으로 애매한 녀석이다. 이아이와 해깔리는게 .* 이다. 먼저, .*? 를 써보면 아래와 같은 결과가 나온다. Array ( [0] => Array ( [0] => "bbb" [1] => "ccc" [2] => "ddd" ) ) 재미있는건, .*? 대신에 .* 를 쓰면 아래 결과 값이 나온다. Array ( [0] => Array ( [0] => "bbb" "ccc" "ddd" ) ) 결과의 차이를 보면, 확실히 다르다. 각각 사이트 긁어..