yes24에서 책의 정보를 크롤링해오는 작업을 했음.
책의 정보를 통해 코사인유사도 작업을 통해 추천시스템을 만들기 위함.
bs4(뷰티풀숲)썻음.
range는 페이지의 수인데 더 많은 페이지가 있었지만 일단 테이스를 위해 1~5까지만 했다.
인코딩은 필수적이다.
우리가 원하는 데이터의 html태그를 알아야하고, target이 우리가 찾아야하는 타겟정보이다.
그 부분을 split을 이용해서 배열을 쪼개 원하는 정보만을 가져온다.
text_list 변수에 split으로 쪼갠 정보들이 들어가 있고, 해당하는 변수에 원하는 값을 넣었다.
그리고 책의 상세정보는 한번 더 url을 타고 들어가야 하기 떄문에 each_raw라는 변수에서 url로 타고 들어가게 해놨음.
그 후에는 try/except를 통해 원치않은 에러가 뜨면 그냥 패스하도록 만들었음.