728x90

✨ 느낀점

👍 알게 된 점

BeautifulSoup의 .string은 해당 태그의 문자를 추출한다.

def extract_indeed_pages():
    result = requests.get(URL)
    soup = BeautifulSoup(result.text, "html.parser")
    pagination = soup.find("ul", {"class": "pagination-list"})
    links = pagination("a")
    pages = []
    for link in links[:-1]:
        pages.append(int(link.find("span").string))
    max_page = pages[-1]
    return max_page

즉, 숫자 1,2,3,4,5를 pages의 배열의 원소로 추가한다.

 

 

각 페이지마다 요청하기

LIMIT = 50
URL = f"https://www.indeed.com/jobs?as_and=python&limit={LIMIT}"

def extract_indeed_jobs(last_pages):
    # 각 페이지마다 요청이 정상작동하는지 체크한다.
    for page in range(last_pages):

        # URL이 정상적인지 확인
        result = requests.get(f"{URL}start={page * LIMIT}")
        print(result.status_code)

indeed의 채용사이트는 URL과 페이지가 증가함에따라 start가 50씩 증가한다. 

그래서 requests.get(f"{URL}start={page * LIMIT}")를 하면 각 페이지를 접속할 수 있다.

복사했습니다!