IT’s Portfolio

[Python] 파이썬 웹 크롤링(Web Crawling) 간단한 기본 상식 본문

Development Study/Python

[Python] 파이썬 웹 크롤링(Web Crawling) 간단한 기본 상식

f1r3_r41n 2019. 11. 2. 21:37
728x90
반응형

Web Crawling

- Web상에 존재하는 콘텐츠를 수집하는 작업.

1. HTML 코드를 가져와 파싱 후 필요한 데이터만 수집.

2. Open API

 

우리는 파이썬으로 각종 웹 크롤링 프로그램을 만들기위해 requests와 bs4라는 라이브러리를 사용한다.

굳이 requests 라이브러리를 설치해서 사용할 필요가 없고 기본 라이브러리로 제공되는 urllib을 사용해도 된다.

하지만 requests는 urllib보다 간결한 코드로 다양한 HTTP 요청을 할 수 있다.

 

HTTP Method

GET : resource 요청

POST : resource 추가 요청 혹은 수정 및 삭제 요청

PUT : resource 수정 요청

DELETE : resource 삭제 요청

HEAD : HTTP 헤더 정보 요청

OPTIONS : Web Server가 지원하는 Method 종류 반환 요청

TRACE : Client의 요청을 그대로 반환

 

Hearder

- HTTP 요청 및 응답 시에 Header 정보가 Key/Value 형식으로 세팅.

- User-Agent : 브라우저 종류

- Referer : 이전 페이지 URL

- Accept-Language : 어떤 언어로 응답을 원하는지

- Authorization : 인증 정보

 

Requests

- 첫 응답만 받으며 추가 요청 X

- 단순 요청에 최적화

728x90
반응형
Comments