728x90
✨ 느낀점
👍 알게 된 점
BeautifulSoup의 .string은 해당 태그의 문자를 추출한다.
def extract_indeed_pages():
result = requests.get(URL)
soup = BeautifulSoup(result.text, "html.parser")
pagination = soup.find("ul", {"class": "pagination-list"})
links = pagination("a")
pages = []
for link in links[:-1]:
pages.append(int(link.find("span").string))
max_page = pages[-1]
return max_page
즉, 숫자 1,2,3,4,5를 pages의 배열의 원소로 추가한다.
각 페이지마다 요청하기
LIMIT = 50
URL = f"https://www.indeed.com/jobs?as_and=python&limit={LIMIT}"
def extract_indeed_jobs(last_pages):
# 각 페이지마다 요청이 정상작동하는지 체크한다.
for page in range(last_pages):
# URL이 정상적인지 확인
result = requests.get(f"{URL}start={page * LIMIT}")
print(result.status_code)
indeed의 채용사이트는 URL과 페이지가 증가함에따라 start가 50씩 증가한다.
그래서 requests.get(f"{URL}start={page * LIMIT}")를 하면 각 페이지를 접속할 수 있다.
'공부 > 프론트엔드' 카테고리의 다른 글
[공부] 리액트 라우터 정리 (0) | 2022.03.07 |
---|---|
[공부] 노마드 코더 파이썬 웹 스크래핑 3회차 (0) | 2022.02.17 |
[공부] 노마드 코더 파이썬 웹 스크래핑 1회차 (0) | 2022.02.14 |
[공부] 노마드 코더 React hooks 4회차(useConfirm, usePreventLeave) (0) | 2022.01.20 |
[공부] 노마드 코더 React hooks 3회차(useTitle, useClick) (0) | 2022.01.19 |