ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 파싱강의 1강 , 도데체 파싱은 먼가요?
    파싱의 추억 2016. 3. 28. 11:23

    본 파싱강의는 나수연 파싱랩 http://nalab.kr/index.php?mid=parsing 에서 진행하던 강의를 재편집한것입니다. 저작권은 "달을파는아이"에게 있으며, 본인의 글인것처럼 퍼가시면 큰일납니다. 퍼가실땐 필히 출처를 남겨주세요. 



    달을파는아이가 진행하는 파싱강의는 아주 가볍고, 불진철하며, 파싱의 기술보다는 파싱이라는 도구를 이용해서 수익모델을 만드는 방법에 초점을 맞추려고 합니다. 생각날때마다 적을 예정이라서, 다음강의 독촉은 받지 않습니다. 주 언어는 php이고, php의 완전 초보를 대상으로 하기 때문에 php강의가 섞여 있을수 있습니다. 개발자가 되려는 사람을 위한 강좌가 아니라, 인터넷 수익모델을 고민하는 사람들을 대상으로 합니다. 그래서, 개발자가 보면 미묘하게 틀렸다고 할수 있는 설명도 있을수 있습니다. 


    그럼 시작해볼까요? 



    제 1 강 , 파싱이란 무엇일까?


    사실 파싱이라는 키워드보다 "사이트 긁어오기" 라는 키워드가 더 유명하긴 합니다. 파싱이라는 키워드는 프로그래머라는 특정 직종의 사람들이 쓰는 말이고, 일반인들은 별로 중요하지도 않은 키워드라고 생각합니다. 일반인이나 인터넷 수익모델을 찾는 사람들에게는 사이트 긁어오기, 웹페이지 통째로 가져오기, 남의 사이트 수집하기 등등이 더 와닿죠. 키워드만 봐서는 엄청 불법적인 일처럼 느껴지네요.





    인터넷으로 돈벌어 먹으려고 이것저것 하다보면, 언젠가는 다가오는 유혹이 있습니다. "아.. 저 사이트 자료 그대로 내사이트로 가져오면 참 좋을텐데.. " 위험한 유혹이지만, 이미 많은 사이트들이 알게 모르게 행하고 있죠. 그 방법에 대한 유무죄는 따질 권한이 저에게는 없습니다. 세상에 칼로 사람을 죽일수 있다는걸 알지만, 그걸 실천하는 사람은 몇 안되는 것과 같다고 봅니다. 도구를 어떻게 쓰는지는 오로지 개인의 몫이고, 책임입니다. 


    모든 인터넷 사이트는 HTML이라고 부르는 녀석으로 되어 있습니다. 그 HTML이라는 걸 익스플로어,크롬 같은 브라우저로 보면 , 인터넷 사이트로 보이고.. 메모장에서 보면 태그라고 부르는 영어들과 실제 내용인 글자들로 보입니다. 그림도 동영상도 모두 글자로 보입니다. 브라우저는 그 글자들을 실제 그림과 이미지로 변환해서 보여주는 역활을 하는것뿐입니다.


    그 말은 메모장에 보이는 글자를 분석해서, 내가 원하는 부분만 잘라내기 붙여넣기를 할수 있다는 겁니다. 사람 손으로 ctrl+c 하고 ctrl+v 하면 되는거죠. 원하는 내용만 잘라내서, 엑셀같은데 깔끔하게 정리 할수 있습니다. 그 짓을 컴퓨터에서 시키는게 파싱입니다. 




    게시판 같은 경우 수만건의 글이 있다고 해도, 사람이 일일이 소스보기를 해서, 메모장으로 복사 붙여넣기해서 엑셀로 옮길수 있습니다. 할수는 있지만, 고귀한 인간이 할 짓이 아닌거죠. 그런건 단순 노동에 최적화된 컴터에서 시켜야 합니다. 인간보다 훨씬 더 잘하기도 하구요. 


    브라우저로 보이는 내용은 전부 파싱해서, 엑셀처럼 깔끔하게 정리할수 있습니다. 물론 실제로는 엑셀 대신 DB라는 녀석을 쓰긴 하지만 말입니다.


    깔끔하게 정리 되어 있다는것은, 다양한 형태로 재배출할수가 있습니다. 재배출된 정보는 가치를 가집니다. 정보로써 가치가 있다는것은 돈이 된다는 의미구요. 


    파싱이라는것이 특정 "기술"이나 테크닉이 아닙니다. 위에서 말한것처럼, 단순히 자료를 복사해서 가져오는겁니다. 가져온 자료를 자료답게 다듬어서 활용하는겁니다. 나수연에 올라온 질문이 있습니다. "파싱을 위해서는 php를 어느정도 공부해야하나요?" (http://nalab.kr/qna/27550586) 이 질문에 답을 보면, 파싱이 특정기술이 아니라는것을 알수 있습니다. 


    다 아는 내용이겠지만, 강좌 시작하면서 파싱에 대해서 알아 봤습니다. 

    다음 강의까지 안녕~




    사이트 파싱에 궁금한점이나, 의뢰는  로 주세요 ^^






    댓글

달을파는아이 @ nalab.kr