티스토리 뷰

스크랩핑이란?

인터넷을 정보의 바다라고 합니다. 아주 방대한 정보를 가진 인터넷의 정보를 모두 살펴보는 것은 이미 불가능한 일입니다. 우리에게 필요한 정보만 빠르게 받아서 볼 수 있다면 아주 효율적이면서 유익하다고 할 수 있겠죠? 그래서 스크래핑이 필요합니다. 스크래핑은 웹사이트에서 내가 필요한 정보를 추출해 가져오는 기술입니다. 지금부터 파이썬을 활용해서 오늘자 뉴스를 스크래핑 해오는 크롤러를 만들어보도록 하겠습니다.

뉴스를 스크래핑한 화면뉴스 스크래핑을 실행한 화면입니다.


필요한 모듈 알아보기

뉴스 스크랩핑에서 우리가 사용할 모듈은 requests와 beautiful soup입니다. 간단히 설명하자면 requests는 우리가 필요한 정보가 있는 웹페이지를 가지고 오고, beautifuls soup는 가져온 페이지에서 우리가 필요한 부분을 골라낼 수 있습니다. 그리고 이러한 환경을 구축할 가상환경까지도 다운받아서 실행해보겠습니다.

가상환경 구축하기

가상환경을 만들어서 모듈을 설치하면 다른 프로젝트에 영향을 주지 않습니다. 전역으로 설치했다면 모든 환경에 영향을 준다는 뜻이니까요. 또 가상환경을 사용하면 파이썬2로 된 프로젝트로 쉽게 만들 수 있습니다. 파이썬2로 된 환경을 구축하고 그에 맞는 모듈을 설치하면 됩니다. 파이썬3를 전역에서 사용하더라도 말이죠.


pip install pipenv


(윈도우 기준으로) 커맨드 창에 해당 명령어를 입력하면 pipenv가 다운로드 됩니다. 파이썬3를 다운 받으셨을 때 pip를 자동으로 받기 때문에 그냥 입력하시면 됩니다. 다운을 다 받은 뒤에는 뉴스 스크래핑 프로그램을 만들 디렉토리로 이동해주세요.


가상환경 구축하기이동한 디렉토리에서 pipenv --three 라는 명령어를 실행해주세요.


pipenv --three는 파이썬3 환경을 구축하겠다는 뜻입니다. 파이썬2 환경을 구축하려면 pipenv --two를 실행하면 됩니다. 조금 시간이 지나서 완료가 되면 디렉토리에 Pipfile이 만들어져 있는 것을 볼 수 있습니다. 이제 우리가 만든 가상환경을 실행해보겠습니다.


pipenv shell


해당 명령을 실행하면 가상환경을 실행할 수 있습니다.(가상 환경을 종료할 때는 exit라는 명령으로 입력하시면 됩니다.)


가상환경에 필요한 모듈 다운로드 받기

전역으로 설치할 때는 pip install 모듈명이라는 명령어를 사용했습니다. 해당 가상환경에 설치할 땐 pipenv install 모듈명을 사용하시면 됩니다. 이제 requests와 beautiful soup를 다운받아보도록 하겠습니다.

pipenv install requests


해당 명령어를 실행하면 리퀘스트를 다운받을 수 있습니다.



리퀘스트는 원하는 페이지를 가져오고, 이제 가져온 페이지에서 우리가 원하는 부분을 골라낼 것을 다운로드 해야겠죠?


pipenv install beautifulsoup4
pipenv install lxml


뷰티풀소프4를 다운받고나서 lxml도 다운받아주세요. lxml은 html이나 xml의 구문을 파악할 수 있게 도와주는 역할(파서)입니다.




다 다운로드 받았으면 이제 기본적인 준비는 다 된 것입니다. 내용이 길어지니 다음 포스팅으로 이어집니다.



공감은 제작자에게 큰 힘이 됩니다.


댓글