728x90

✨ 느낀 점

👍 알게 된 점

'-' 문자열 인식 불가

result = soup.find_all("div", {"class":"jobsearch-resultContent"}

result = soup.find_all("div", {"class":"job_seen_beacon"}

처음에는 웹사이트가 추출이 되지 않아 무엇이 문제인지 확인했다. 알고 보니 "-" 문자열이 사용돼서 발생한 오류였다. 다른 class명으로 바꾸니 정상적으로 웹사이트 추출이 되었다.

 

 

string과 text 차이

soup = BeautifulSoup('url', "html.parser")
<div>안녕</div>

<div>안<p>녕</p></div>

첫 번째 줄을 string과 text로 추출하는 코드는 다음과 같다.

 

soup.find("div").string
soup.find("div").text

둘 다 '안녕'을 추출한다.

그러나 두 번째 줄을 추출할 때 다른 결과를 발생시키는데, string으로 추출한 문자열은 NoneType, text로 추출한 문자열은 안녕을 반환된다. 이유는 div태그 안에 순수하게 문자열이 있는 경우와 없는 경우의 차이로 발생한 것으로 판단된다. 따라서 string과 text를 잘 구분하여 사용해야 한다는 것을 알 수 있었다.

 

❗  보완할 점

  1. 웹 스크래핑 학습 양 늘리기

3차 백신을 2022. 2. 14에 접종해서 한동안 몸이 아파 공부 양을 줄였었다.

2일이 지난 오늘 몸상태가 괜찮으니 내일부터 학습 양을 늘려서 단기간에 학습을 끝내고, 장고 프로젝트를 진행할 수 있도록 노력해야겠다.

 

 

복사했습니다!