파싱의 추억
-
온라인서점의 책 정보 파싱과 여행사의 여행상품 파싱파싱의 추억 2017. 7. 21. 00:44
동시에 두개의 일이 연락이 왔다. 하나는 온라인 서점의 책정보를 수집하는일이고, 다른 하나는 여행사의 여행상품을 수집하는 일이다. 파싱이라는 일을 놓고 보면, 두가지 작업은 극과 극이다. 파싱은 웹사이트의 정보중에 원하는 정보만 뽑아내서, 디비에 정리해서 넣는 작업이다. 웹사이트의 정보는 사람이 보기에 좋긴 하지만, 데이타로써 가치는 없다. 데이타로써 가치가 있기 위해서는 일정한 규격으로 정리되어 있어야 한다. 워드에 적어놓은 글과 엑셀에 정리해놓은 자료의 차이라고 할까? 파싱작업의 두가지 파싱 작업은 크게 두가지 부분으로 나뉘어 진다. 해당 사이트의 HTML 소스를 가져오기와 HTML 소스에서 필요한 부분만 잡아내서 디비나 엑셀에 정리하기이다. 첫번째일은 비교적 쉽다. 웹브라우저로 해당사이트를 여는 행..
-
파싱강의 3강, 파싱을 위한 php의 기초중의 기초파싱의 추억 2016. 4. 18. 12:26
본 파싱강의는 나수연 파싱랩 http://nalab.kr/index.php?mid=parsing 에서 진행하던 강의를 재편집한것입니다. 저작권은 "달을파는아이"에게 있으며, 본인의 글인것처럼 퍼가시면 큰일납니다. 퍼가실땐 필히 출처를 남겨주세요. 1,2강에서 파싱에 대해서 개념을 잡았습니다. 이제 조금씩 파싱의 안으로 들어가게 될텐데요. 그전에 PHP에 대해서 약간은 알고 들어가야합니다. 까막눈으로는 진도가 나갈 수가 없으니까요. 정말 php에서 기본중에 기본인 내용입니다. 파싱강의를 진행함에 있어서, 제일 걱정되는 부분입니다. php만 해도 내용이 너무 방대합니다. 본 강좌가 php 플그래머를 만들려는게 목표가 아닙니다. 인터넷에 php 강좌가 많기도 하기 때문에.. 파싱에 필요한 부분만 간략하게 설명..
-
파싱강의 2강, 파싱의 가능성과 한계파싱의 추억 2016. 4. 1. 12:57
본 파싱강의는 나수연 파싱랩 http://nalab.kr/index.php?mid=parsing 에서 진행하던 강의를 재편집한것입니다. 저작권은 "달을파는아이"에게 있으며, 본인의 글인것처럼 퍼가시면 큰일납니다. 퍼가실땐 필히 출처를 남겨주세요. 1강에서 파싱에 대해 간단히 설명했습니다. 2강에서도 역시 개론인데, 파싱으로 할 수 있는것과 한계에 대해서 이야기해보려고 합니다. 제 2 강 . 파싱으로 할 수 있는것들 예전에 "사이트 긁어오기로 할수 있는 6가지 놀라운일 http://moonseller.net/339" 이라는 거창한 제목으로 적은 글이 있습니다. 그 내용을 좀 더 구체적인 사례로 설명해봅니다. 파싱의 주목적이 "노가다"를 줄이고, "자동화"를 하기 위한것입니다. 1. 도매에서 상품을 가져다가..
-
파싱강의 1강 , 도데체 파싱은 먼가요?파싱의 추억 2016. 3. 28. 11:23
본 파싱강의는 나수연 파싱랩 http://nalab.kr/index.php?mid=parsing 에서 진행하던 강의를 재편집한것입니다. 저작권은 "달을파는아이"에게 있으며, 본인의 글인것처럼 퍼가시면 큰일납니다. 퍼가실땐 필히 출처를 남겨주세요. 달을파는아이가 진행하는 파싱강의는 아주 가볍고, 불진철하며, 파싱의 기술보다는 파싱이라는 도구를 이용해서 수익모델을 만드는 방법에 초점을 맞추려고 합니다. 생각날때마다 적을 예정이라서, 다음강의 독촉은 받지 않습니다. 주 언어는 php이고, php의 완전 초보를 대상으로 하기 때문에 php강의가 섞여 있을수 있습니다. 개발자가 되려는 사람을 위한 강좌가 아니라, 인터넷 수익모델을 고민하는 사람들을 대상으로 합니다. 그래서, 개발자가 보면 미묘하게 틀렸다고 할수 ..
-
파싱한 쇼핑몰 상품을 고도몰에 대량으로 올리는 방법파싱의 추억 2015. 5. 15. 20:34
파싱으로 할 수 있는 놀라운 6가지일이 있다. (http://moonseller.net/339) 타 쇼핑몰에서 상품을 긁어와서, 자기 쇼핑몰에 올릴수가 있다. 이번에 의뢰받은 일은 7만여건의 쇼핑몰 상품을 올려야하는 일이다. 말이 7만건이지, 사람이 일일이 올린다고 생각하면 지구를 떠나고 싶어진다. 이번 글에서는 상품을 파싱해오는 방법이 아니라, 파싱해온 상품들을 고도몰에 올리는 방법이다. 여러번의 시행착오가 있었다. 상품수가 워낙 많아서, 실수 한번이 엄청난 사태를 불러오기도 했다. 그러면서, 나름 최적화된 방법을 정리해 본다. 고도몰 e나무 임대형을 기준으로 설명한다. 사실, 독립형의 경우에는 훨씬 용이하게 처리가능할것으로 본다. 직접 프로그램을 손댈수가 있으니까.. 하지만, 임대형은 그렇지가 못하다..
-
aspx로 만들어진 사이트의 로그인 파싱을 하고..파싱의 추억 2013. 9. 10. 08:19
사이트 긁어오기에 대한 글을 블로그에 적어온 이후로 의도치 않게 많은 의뢰를 받았다. 블로그에는 광고라는 수익모델만 있는것이 아니다. 세상에 먼가를 내 보이면, 세상은 허접한 나를 전문가로 알아준다. 그 덕에 몇년동안 참으로 다양한 사이트를 파싱했다. 이제는 왠만한 사이트는 파싱이 가능하다고 생각했다. 이번에 aspx로 된 사이트 파싱의뢰가 들어왔다. 닷넷쪽도 그냥 하면 될줄 알았다. 그런데, 로그인할때 문제가 발생했다. 내가 알던 방법으로 로그인이 되지 않았다. 국내사이트에는 정보가 전무하고, 외국 사이트들을 뒤졌다. 이런 저런 내용들이 많았다. 답이라고 올라온 녀석들이 나를 더 헤깔리게 만들었다. 답일듯 말듯한 방법들이 제대로 작동하지 않았고, 나와 같은 고민의 질문들만 수두룩 쌓여있었다. aspx는..
-
사이트 긁어오기에 대한 글을 모으는것만으로도..파싱의 추억 2012. 10. 12. 13:32
사이트 긁어오기에 대해서 그 동안 글을 몇개 적었다. 이 나라에서 달을파는아이가 사이트파싱을 가장 잘하는건 아니다. 하지만, 검색엔진에 걸리는 글들이 내글이 많기 때문에, 사람들은 나를 전문가로 인식한다. 메일로 질문을 하기도 하고, 사이트 긁어오기를 해달라고 요청하기도 한다. 티스토리 로그기록을 보면, 어떤 사이트에서 달을파는아이 블로그로 들어오는지를 알 수 있다. 우연히 알게된 사이트에 내 글이 올라와 있었다. 누군가가 내 "사이트 긁어오기" 글들을 한개로 묶어서 포스팅하고 있었다. 비꼬는게 아니라, 진심으로 고맙다고 생각한다. 재미있는건, 그 묶음글들을 사람들이 더 많이 퍼간다는 점이다. 그래서, 내 글들이 출처가 뒤바뀌고 원본이 누구인지 알기가 점점 어려워 졌다. 물론, 내 글들은 펌질에 대한 대..
-
지마켓에서 판매자 정보 긁어오는 방법, 자바스크립트에 익숙해져야..파싱의 추억 2012. 9. 22. 12:57
지마켓에서 개인정보를 가져오는 방법을 아는것과 그 개인정보를 실제로 어떻게 사용하는지는 다른 문제다. 칼을 요리에 쓸수도 있지만, 사람을 해하는데 쓸 수도 있기 때문이다. 그렇다고 이 세상 모든 칼이 문제일 수는 없다. 칼의 잘못이 아니라, 칼을 사용하는 사람의 문제다. 기술은 영역이 없어야 한다. 개발된 기술의 사용이 어떻게 할까는 인문학의 역활이다. 지마켓 하단에도 스크래핑을 하지마라고 경고하고 있다. 문구가 좀 애매하긴 하다. 상업적이 아니라면, 스크래핑이 가능하다는 말일까? 논의는 넘어가고, 실제 구현을 보자. 지마켓의 상품 리스트에 보면, 판매자 정보가 있다. 판매자 정보에는 전화번호와 이메일등등 일종의 개인정보가 포함되어 있다. 지마켓의 상세페이지를 파싱해서 긁어오는 소스는 간단하다. $txt..