[Python] 파이썬 웹 크롤링(Web Crawling) 간단한 기본 상식

« 2025/01 »

목

금

토

[Python] 파이썬 웹 크롤링(Web Crawling) 간단한 기본 상식 본문

Development Study/Python

f1r3_r41n 2019. 11. 2. 21:37

728x90

- Web상에 존재하는 콘텐츠를 수집하는 작업.

1. HTML 코드를 가져와 파싱 후 필요한 데이터만 수집.

2. Open API

우리는 파이썬으로 각종 웹 크롤링 프로그램을 만들기위해 requests와 bs4라는 라이브러리를 사용한다.

굳이 requests 라이브러리를 설치해서 사용할 필요가 없고 기본 라이브러리로 제공되는 urllib을 사용해도 된다.

하지만 requests는 urllib보다 간결한 코드로 다양한 HTTP 요청을 할 수 있다.

GET : resource 요청

POST : resource 추가 요청 혹은 수정 및 삭제 요청

PUT : resource 수정 요청

DELETE : resource 삭제 요청

HEAD : HTTP 헤더 정보 요청

OPTIONS : Web Server가 지원하는 Method 종류 반환 요청

TRACE : Client의 요청을 그대로 반환

- HTTP 요청 및 응답 시에 Header 정보가 Key/Value 형식으로 세팅.

- User-Agent : 브라우저 종류

- Referer : 이전 페이지 URL

- Accept-Language : 어떤 언어로 응답을 원하는지

- Authorization : 인증 정보

- 첫 응답만 받으며 추가 요청 X

- 단순 요청에 최적화

728x90

[Python] maketrans() 함수 (0)	2019.11.20
[Python] isdecimal(), isdigit(), isnumeric() 함수에 대해서 (3)	2019.11.05
[Python] 파이썬 웹 크롤링으로 네이버 실시간 검색어를 파싱해보자 (0)	2019.11.03
[Python] 파이썬 웹 크롤링으로 롤 전적검색 프로그램을 만들어보자 (6)	2019.11.02
파이썬(Python)을 시작하기 전에 (2)	2019.10.17