일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Operating System
- Database
- 데이터베이스
- java
- 오라클
- Reversing
- Python challenge
- 파이썬 첼린지
- 러스트 예제
- 파이썬
- 파이썬 알고리즘
- 데이터 통신
- C
- 우분투
- 운영체제
- 자바
- 러스트
- OS
- 알고리즘
- Python
- 자바 개념
- 백준
- 자바 기초
- 백준 러스트
- ubuntu
- data communication
- Rust
- 오라클DB
- 러스트 프로그래밍 공식 가이드
- 파이썬 챌린지
Archives
- Today
- Total
IT’s Portfolio
[Python] 파이썬 웹 크롤링(Web Crawling) 간단한 기본 상식 본문
728x90
반응형
Web Crawling
- Web상에 존재하는 콘텐츠를 수집하는 작업.
1. HTML 코드를 가져와 파싱 후 필요한 데이터만 수집.
2. Open API
우리는 파이썬으로 각종 웹 크롤링 프로그램을 만들기위해 requests와 bs4라는 라이브러리를 사용한다.
굳이 requests 라이브러리를 설치해서 사용할 필요가 없고 기본 라이브러리로 제공되는 urllib을 사용해도 된다.
하지만 requests는 urllib보다 간결한 코드로 다양한 HTTP 요청을 할 수 있다.
HTTP Method
GET : resource 요청
POST : resource 추가 요청 혹은 수정 및 삭제 요청
PUT : resource 수정 요청
DELETE : resource 삭제 요청
HEAD : HTTP 헤더 정보 요청
OPTIONS : Web Server가 지원하는 Method 종류 반환 요청
TRACE : Client의 요청을 그대로 반환
Hearder
- HTTP 요청 및 응답 시에 Header 정보가 Key/Value 형식으로 세팅.
- User-Agent : 브라우저 종류
- Referer : 이전 페이지 URL
- Accept-Language : 어떤 언어로 응답을 원하는지
- Authorization : 인증 정보
Requests
- 첫 응답만 받으며 추가 요청 X
- 단순 요청에 최적화
728x90
반응형
'Development Study > Python' 카테고리의 다른 글
[Python] maketrans() 함수 (0) | 2019.11.20 |
---|---|
[Python] isdecimal(), isdigit(), isnumeric() 함수에 대해서 (3) | 2019.11.05 |
[Python] 파이썬 웹 크롤링으로 네이버 실시간 검색어를 파싱해보자 (0) | 2019.11.03 |
[Python] 파이썬 웹 크롤링으로 롤 전적검색 프로그램을 만들어보자 (6) | 2019.11.02 |
파이썬(Python)을 시작하기 전에 (2) | 2019.10.17 |
Comments