CGV 필요한 데이터 파싱

Web Crawler 2019. 11. 27. 20:43

이전에 셀레니움을 통해서 각 CGV 지역별 상영관 페이지에 대한 정보를 가져왔다.

이제부터는 가져온 페이지들을 반복문을 통해서 하나하나씩 페이지를 불러와서 필요한 정보만 파싱해오는 것을 할 것이다.

파싱할 페이지를 보니 파싱할 데이터가 있는 부분이 iframe 태그로 되어 있는 것을 확인 할 수 있다

니움을 통해서 각 CGV 지역별 상영관 페이지에 대한 정보를 가져왔다.

이제부터는 가져온 페이지들을 반복문을 통해서 하나하나씩 페이지를 불러와서 필요한 정보만 파싱해오는 것을 할 것이다.

파싱할 페이지를 보니 파싱할 데이터가 있는 부분이 iframe 태그로 되어 있는 것을 확인 할 수 있다

해당 iframe 태그는 현재 페이지에 새로운 페이지를 하나더 추가 할 수 있게 해주는 태그라는 것을 찾을 수 있었다.

즉 내가 필요한 데이터가 있는 곳은 새롭게 추가된 하나의 페이지안에 데이터가 있다는 의미이기 때문에

해당 iframe의 src 속성 값에 내가 필요로 하는 데이터가 담긴 페이지를 요청할 때 필요한 파라미터 값이 있다는 것을 알 수 있다.

이제 src 속성 값을 빼와서 요청을 한다면 본격적으로 내가 필요로 하는 정보가 담긴 페이지를 불러올 수 있을 것 이다.

from bs4 import BeautifulSoup
import requests

url = "http://www.cgv.co.kr/reserve/show-times/?areacode=01&theaterCode=0056&date=20191127"

res = requests.get(url)
soup = BeautifulSoup(res.content, "html.parser")

for i in soup.select("iframe#ifrm_movie_time_table") :
    print("http://www.cgv.co.kr" + i.get("src"))

위와 같이 요청을 하면 성공적으로 원하는 페이지가 불러와지는 것을 확인 할 수 있다

'Web Crawler' 카테고리의 다른 글

Ajax 웹 크롤러 ( 롯데시네마 ) (0)	2019.12.11
CGV 파싱 (0)	2019.11.27
크롤링 시작 ( 각 지역별 상영관 ) (0)	2019.11.27
CGV 크롤러 (Requests & selenium) (0)	2019.11.27
C.G.V 영화 크롤러 (0)	2019.11.27

ABOUT ME

JongSeok_AP JongSeok_AP

'Web Crawler' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'Web Crawler' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바