상세 컨텐츠

본문 제목

221206 프로젝트 진행(크롤링)

카테고리 없음

by hunss 2022. 12. 7. 17:53

본문

yes24에서 책의 정보를 크롤링해오는 작업을 했음.

책의 정보를 통해 코사인유사도 작업을 통해 추천시스템을 만들기 위함.

bs4(뷰티풀숲)썻음.

range는 페이지의 수인데 더 많은 페이지가 있었지만 일단 테이스를 위해 1~5까지만 했다.

인코딩은 필수적이다.

우리가 원하는 데이터의 html태그를 알아야하고, target이 우리가 찾아야하는 타겟정보이다.

그 부분을 split을 이용해서 배열을 쪼개 원하는 정보만을 가져온다.

text_list 변수에 split으로 쪼갠 정보들이 들어가 있고, 해당하는 변수에 원하는 값을 넣었다.

그리고 책의 상세정보는 한번 더 url을 타고 들어가야 하기 떄문에 each_raw라는 변수에서 url로 타고 들어가게 해놨음.

그 후에는 try/except를 통해 원치않은 에러가 뜨면 그냥 패스하도록 만들었음.