티스토리 뷰
* 웹 크롤링(Web Crawling)이란?
웹 크롤링이란 내가 방문한 사이트의 구성을 알아보고 싶을때 웹사이트의 구조를 복사해서 정보를 수집하는 것이다. 즉, 웹 표면 복사라고 생각하면 쉬울 것이다. 웹 크롤링 또는 스파이더링(Spidering)이라고도 부른다.
웹 크롤링을 했을때 장점은 링크 체크나 HTML 코드 검색을 빠르게 하여 웹 사이트 유지 관리 작업을 쉽게 할 수 있다는 점이다.
우리가 코드를 짜거나 분석할때 IDE(통합 개발 환경)을 사용하는 것처럼, 웹 크롤링을 할 때에도 쉽게 환경을 제공해주는 툴들이 존재한다.
오늘 포스팅에선 웹 크롤링을 할때 주로 사용하는 HTTrack이란 툴을 이용해 볼 것이다.
HTTracke은 한국어 지원을 하지 않아 설치할 때 당황할 수 있는데 이 포스팅을 보고 쉡게 크롤링을 해보자.
* HTTrack 설치 방법
1. 먼저 HTTrack setUP 파일을 다운로드 받을 수 있는 HTTrack 사이트로 들어가자.
HTTrack Website Copier : http://www.httrack.com/
사이트에서 상단바에 Download를 눌러 다운로드 페이지로 이동합니다.
2. 자신의 컴퓨터 환경에 맞게 다운로드 파일을 선택에 설치해줍니다.
필자는 64bit를 사용하고 있으므로 64bit를 다운 받아 설치했습니다.
3. 맨 처음 Next를 누르면 아래와 같은 화면이 뜨는데 I accept the agreement를 눌러 설치 동의한 뒤 Next를 누릅니다.
4. HTTrack을 다운 받을 경로를 설정합니다. 디폴트값으로 그대로 둔 뒤 Next를 누릅니다.
5. 아래 사진은 시작 메뉴 설정 화면이다. 역시 디폴트값으로 그대로 둔 뒤 Next를 누릅니다.
6. 필자는 두번째 사항인 icon 생성을 체크하지 않고 Next를 눌렀습니다.
7. Install을 눌러 설치를 진행합니다.
8. 설치 중..
9. history.txt 파일은 필요하지 않으므로 체크 해제한 후 바로 테스트 하기 위해
Lunch WinHTTrack Website Copier 체크 후 Finish를 누릅니다.
10. 설치가 완료 된 후 HTTrack을 실행 시키면 아래와 같은 화면이 뜹니다.
HTTrack에 사용할 언어를 English로 선택한 뒤 OK 를 누르자.
영어 화면이 나오면 이제 본격적으로 Crawlling을 시작해보자!!
11.
New Project name : 내가 가져올 프로젝트 명 (임의로 아무거나 적어준다. 필수란)
Project category : 프로젝트의 카테고리(임의로 아무거나 적어준다. 비워둬도 무방함)
Base path : 가져올 자료의 경로(내가 크롤링할 문서를 받아올 경로를 임의로 아무곳이나 설정해줍니다. 필수란)
12. 다음 본인이 복사하고 싶은 웹 사이트의 URL을 적어 줍니다.
필자는 JLPT 자격증 홈페이지 URL을 넣었습니다.
URL을 써준뒤 다음을 누릅니다.
13. 기본 디폴트값으로 그대로둔 뒤에 마침을 누릅니다.
14. 내가 복사할 사이트를 크롤링 하는 중 입니다. 복사가 다 될때까지 기다려줍니다.
15. 크롤링이 전부 완료되면 Browse Mirrored Website를 눌러 내가 복사한 홈페이지를 확인 할 수 있습니다.
복사한 홈페이지의 문서들은 모두 내가 설정한 경로의 파일안에 들어 있으니
이제 본격적으로 홈페이지의 구성을 파해쳐보시면 됩니다 !!
여기까지 모두 완료 되었으면 크롤링 끝~!!!!
'Tool > ETC' 카테고리의 다른 글
[Node.js] node 버전 설치, 버전 확인, 버전 변경, npm 버전 업데이트 (0) | 2022.07.07 |
---|---|
[VS Code] Visual Studio Code 버전 확인, 버전 릴리즈 내용 확인 (1) | 2022.07.07 |
[Mac] Mac에서 IntelliJ 설치하기 (0) | 2022.06.20 |
[Mac] Mac에서 Homebrew로 node, npm, yarn 설치 (1) | 2022.06.10 |
[visual studio] visual studio 2015 삭제하기 (0) | 2018.10.24 |