ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 크롤링 시작 ( 각 지역별 상영관 )
    Web Crawler 2019. 11. 27. 20:17

    가장먼저 크롤링할 페이지를 보자

    내가 크롤링 할 데이터는 서울에 속한 전 지역들의 상영 정보이다. 

    그러기 위해서는 해당 페이지의 네비게이션 바에 연결되있는 링크를 가져와야 한다.

    하지만 해당 페이지는 JS로 바뀌기 때문에 Requests 를 통해서 응답을 받기에는 무리가 있음 -> Selenium 사용

     

    위의 사진은 해당 네비게이션 바에 연결 된 링크의 위치이다.

    li 태그가 각 지역별로 존재하면서 해당 li 태그의 하위 태그인 a태그의 href 속성 값 으로 각 지역 페이지를 요청할 때

    필요한 파라미터 값이 담겨져 있다 그렇다면 해당 속성 값을 불러와 URL 요청 양식에 맞게 요청을 한다면

    원하는 페이지가 불러와질 것이다.

    from bs4 import BeautifulSoup
    from selenium import webdriver
    import requests
    
    driver = webdriver.Chrome()
    url = 'http://www.cgv.co.kr'
    driver.get('http://www.cgv.co.kr/reserve/show-times/')
    html = driver.page_source
    driver.close()
    soup = BeautifulSoup(html, 'html.parser')
    soup2 = soup.find('div', id='contents')
    
    
    for area in soup2.select('ul > li:nth-child(1) > div.area > ul > li > a ') :
        area_link = url + area.get('href')
        print(area_link)

     

    결과 

    성공적으로 페이지들이 불러와지는 것을 확인 할 수 있다

    'Web Crawler' 카테고리의 다른 글

    Ajax 웹 크롤러 ( 롯데시네마 )  (0) 2019.12.11
    CGV 파싱  (0) 2019.11.27
    CGV 필요한 데이터 파싱  (0) 2019.11.27
    CGV 크롤러 (Requests & selenium)  (0) 2019.11.27
    C.G.V 영화 크롤러  (0) 2019.11.27

    댓글

Designed by Tistory.