크롤링 2

[Python] Selenium 을 이용한 뉴스 크롤링 해오기 (feat. Beutiful Soup)

오늘은 Beutiful Soup 과 Selenium 을 통해 뉴스 헤드라인, url > 작성 날짜, 작성 기자, 뉴스 기사 를 크롤링 해 볼 것이다. +) 뉴스 기사는 기자 및 출판사에 저작물 등록이 되어있으므로 상업적 용도로 사용 불가능하다. 또한 크롤링도 해당 사이트의 robots.txt 가 허용되는지 확인 후 크롤링 하도록 하자. 먼저 Selenium 을 추가적으로 사용하는 이유는 뉴스 페이지들의 동작 방식 때문인데, 반응형 웹페이지 같은 동적 페이지에서는 Beutiful soup의 selector 가 제 기능을 못하기 때문이다. 첫번째로, 환경 세팅을 해보자! 사용할 라이브러리, ChromeDriver들을 다운 받아준다. pip install bs4 pip install selenium . (중요..

Code/파이썬 2021.10.22

[Python]Selenium 을 이용한 이미지 크롤링 해오기(+추가 21.07.30)

오늘은 구글에서 이미지를 크롤링할 일이 생겨서, 파이썬을 통해 구현해 보았다. 간단한 검색어를 입력하면 그 검색어에 해당하는 이미지들을 모두 저장하는것으로, 특히 중요한점은 썸네일 이미지저장이 아닌 온전한 이미지! 를 저장한다는 점이다. (+ timeout thread 추가 21.07.30) 셀리니움 구글 이미지 다운도중 정확한 원인은 모르겠지만(서버문제인가?) 무튼, 로딩된 전체 스크롤을 다운하지 못하고 중간에서 멈추는 현상이 있었다. 때문에 해당 이미지 다운 과정에 일정 시간이 지나면, Exception 을 반환하는 타임아웃 스레드를 추가로 정의해주었다. 또한 Xpath는 크롬 버전 업데이트마다 변동될 때가 있는것같다. (주기적으로 확인해주어야함.) . . sites.google.com/chromiu..

Code/파이썬 2021.05.11
반응형