ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • C.G.V 영화 크롤러
    Web Crawler 2019. 11. 27. 13:54

    가장 먼저 영화 정보를 크롤링하기 전에 정확히 크롤러가 어떠한 역할을 할 것 인지 확실히 정해두고 만들 필요가 있음

    일단 시험 삼아 가장 먼저 서울권 에서만 1시간 단위로 모든 상영 정보를 불러오게 만들 것 임

     

    내가 만들고 싶은 것 은 ?

    C.G.V 페이지에서 영화에 관한 정보를 불러오는 프로그램

     

    해당 크롤러가 해야 할 일은?

    6하 원칙에 맞게 

     

    누가 ? 크롤러가

    언제 ? 1시간 간격 마다

    어디서 ? C.G.V 강남 웹 페이지에서

    무엇을 ? 영화 이름, 영화 상영관 위치, 영화 상영 시간, 상영관 잔여 좌석, 상영 날짜를

    어떻게 ? Python 라이브 러리를 통해 ( requests, bs4 ) 데이터를 추출해서 

    왜 ? 불러온 정보를 최종적으로 DB에 담기 위해

     

    내가 어떠한 프로그램을 만들지 생각을 정리 해 보았다면 정리한 생각을 세부적으로 나열

     

    1. 모든 주체를 정의 해 본다

    주체는 3가지로 정의 할 수 있음

    • CGV 웹 사이트
    • 크롤링 프로그램
    • DB

     

    2. 이제 주체들이 각각 어떤 기능을 하게 되는지 정의하며 데이터를 어떠한 형태로 만들지 기술

    CGV 웹 사이트

    1. 크롤링 해야할 데이터들을 제공

    -> HTML 형태로 제공

     

    크롤링 프로그램

    2. 1에서 제공하는 데이터를 요청 ( Requests )

    -> HTML 형태로 응답 해줌

    3. 2에서 불러온 데이터를 가지고 필요한 부분만 파싱 

    -> 데이터 형태를 HTML 형태에서 파싱이 가능한 DOM 형태로 바꾼 뒤 작업 수행

    -> DOM 형태로 불러온 데이터는 다시 딕셔너리 형태로 저장

    4. DB에 쿼리 요청 

    -> 딕셔너리 형태로 묶여 있는 데이터를 데이터베이스에 INSERT 쿼리문으로 추기

    DB

    5. Python에서 불러온 데이터를 DB에 저장

     

     

     

     

     

     

    'Web Crawler' 카테고리의 다른 글

    Ajax 웹 크롤러 ( 롯데시네마 )  (0) 2019.12.11
    CGV 파싱  (0) 2019.11.27
    CGV 필요한 데이터 파싱  (0) 2019.11.27
    크롤링 시작 ( 각 지역별 상영관 )  (0) 2019.11.27
    CGV 크롤러 (Requests & selenium)  (0) 2019.11.27

    댓글

Designed by Tistory.