일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- C
- Python challenge
- 데이터 통신
- 알고리즘
- Database
- 우분투
- 파이썬 첼린지
- java
- 오라클
- 파이썬 알고리즘
- 백준
- 백준 러스트
- 오라클DB
- 러스트 예제
- 자바 기초
- Rust
- Python
- Operating System
- 자바 개념
- OS
- 데이터베이스
- Reversing
- 러스트
- data communication
- 파이썬 챌린지
- 운영체제
- 파이썬
- 자바
- ubuntu
- 러스트 프로그래밍 공식 가이드
Archives
- Today
- Total
IT’s Portfolio
[Python] bs4와 selenium 같이 써보기 본문
728x90
반응형
저번에 제작했던 자동화 스크립트에 프로필 접근과 bs4 코드만 붙이면 크롤링 스크립트가 완성된다.
아직 스크립트를 짜지 못했다면 다시 보고오도록 하자.
=> https://it-neicebee.tistory.com/74
coding
my_profile = driver.find_elements_by_xpath("//*[@id='u_0_a']/div[1]/div[1]/div/a")
driver.get(my_profile[0].get_attribute('href'))
req = driver.page_source
soup = BeautifulSoup(req, 'html.parser')
for i in range(1, 5):
selector = soup.select("#u_0_2d > li:nth-child({})".format(i))
for st in selector:
print(st.text)
my_profile = driver.find_elements_by_xpath("//*[@id='u_0_a']/div[1]/div[1]/div/a")
driver.get(my_profile[0].get_attribute('href'))
이 부분은 아래 빨간 동그라미를 친 프로필에 접근하는 코드
* xpath 등 웹 코드들은 아래 사진과 같이 개발자 모드에서 필요한 부분만 손쉽게 copy가 가능하다!
위의 코드를 넣고 실행하면
타임라인 정보가 크롤링이 잘되는 것을 볼 수 있다.
728x90
반응형
'Development Study > Python' 카테고리의 다른 글
[Python] Class 생성 시 self 인자에 대해서 (0) | 2020.05.19 |
---|---|
[Python] Up&Down 게임을 만들어보자 (2) | 2020.04.24 |
[Python] selenium으로 페이스북 자동 로그인/로그아웃 하기 (0) | 2020.04.12 |
[Python] selenium 입문하기 (2) | 2020.04.10 |
[Python] 알고리즘 - 세 정수의 최댓값 (0) | 2020.04.06 |
Comments