티스토리 뷰

반응형

* 웹 크롤링(Web Crawling)이란?

 

웹 크롤링이란 내가 방문한 사이트의 구성을 알아보고 싶을때 웹사이트의 구조를 복사해서 정보를 수집하는 것이다. 즉, 웹 표면 복사라고 생각하면 쉬울 것이다. 웹 크롤링 또는 스파이더링(Spidering)이라고도 부른다.

 

웹 크롤링을 했을때 장점은 링크 체크나 HTML 코드 검색을 빠르게 하여 웹 사이트 유지 관리 작업을 쉽게 할 수 있다는 점이다.

 

우리가 코드를 짜거나 분석할때 IDE(통합 개발 환경)을 사용하는 것처럼, 웹 크롤링을 할 때에도 쉽게 환경을 제공해주는 툴들이 존재한다.

오늘 포스팅에선 웹 크롤링을 할때 주로 사용하는 HTTrack이란 툴을 이용해 볼 것이다.

 

HTTracke은 한국어 지원을 하지 않아 설치할 때 당황할 수 있는데 이 포스팅을 보고 쉡게 크롤링을 해보자. 

 

 

 

* HTTrack 설치 방법

 

 

 

1. 먼저 HTTrack setUP 파일을 다운로드 받을 수 있는 HTTrack 사이트로 들어가자.

 

HTTrack Website Copier : http://www.httrack.com/

 

사이트에서 상단바에 Download를 눌러 다운로드 페이지로 이동합니다.

 

 

 

 

 

 

 

2. 자신의 컴퓨터 환경에 맞게 다운로드 파일을 선택에 설치해줍니다.

필자는 64bit를 사용하고 있으므로 64bit를 다운 받아 설치했습니다.

 

 

 

 

 

 

 

3. 맨 처음 Next를 누르면 아래와 같은 화면이 뜨는데 I accept the agreement를 눌러 설치 동의한 뒤 Next를 누릅니다.

 

 

 

 

 

 

4. HTTrack을 다운 받을 경로를 설정합니다. 디폴트값으로 그대로 둔 뒤 Next를 누릅니다.

 

 

 

 

 

 

5. 아래 사진은 시작 메뉴 설정 화면이다. 역시 디폴트값으로 그대로 둔 뒤 Next를 누릅니다.

 

 

 

 

 

 

 

 

6. 필자는 두번째 사항인 icon 생성을 체크하지 않고 Next를 눌렀습니다.

 

 

 

 

 

 

7. Install을 눌러 설치를 진행합니다.

 

 

 

 

 

 

8. 설치 중..

 

 

 

 

 

 

 

 

9. history.txt 파일은 필요하지 않으므로 체크 해제한 후 바로 테스트 하기 위해

Lunch WinHTTrack Website Copier 체크 후 Finish를 누릅니다.

 

 

 

 

 

 

 

 

10. 설치가 완료 된 후 HTTrack을 실행 시키면 아래와 같은 화면이 뜹니다.

HTTrack에 사용할 언어를 English로 선택한 뒤 OK 를 누르자.

영어 화면이 나오면 이제 본격적으로 Crawlling을 시작해보자!!

 

 

 

 

 

 

 

 

 

 

 

11.

New Project name : 내가 가져올 프로젝트 명 (임의로 아무거나 적어준다. 필수란)

Project category : 프로젝트의 카테고리(임의로 아무거나 적어준다. 비워둬도 무방함)

Base path : 가져올 자료의 경로(내가 크롤링할 문서를 받아올 경로를 임의로 아무곳이나 설정해줍니다. 필수란)

 

 

 

 

 

 

 

 

 

 

12. 다음 본인이 복사하고 싶은 웹 사이트의 URL을 적어 줍니다.

필자는 JLPT 자격증 홈페이지 URL을 넣었습니다.

URL을 써준뒤 다음을 누릅니다.

 

 

 

 

 

 

 

 

13. 기본 디폴트값으로 그대로둔 뒤에 마침을 누릅니다.

 

 

 

 

 

 

 

 

14. 내가 복사할 사이트를 크롤링 하는 중 입니다. 복사가 다 될때까지 기다려줍니다.

 

 

 

 

 

 

 

 

15. 크롤링이 전부 완료되면 Browse Mirrored Website를 눌러 내가 복사한 홈페이지를 확인 할 수 있습니다.

복사한 홈페이지의 문서들은 모두 내가 설정한 경로의 파일안에 들어 있으니

이제 본격적으로 홈페이지의 구성을 파해쳐보시면 됩니다 !!

 

 

 

 

 

여기까지 모두 완료 되었으면 크롤링 끝~!!!!

반응형
댓글
공지사항