티스토리 뷰
스크랩핑이란?
뉴스 스크래핑을 실행한 화면입니다.
필요한 모듈 알아보기
가상환경 구축하기
가상환경을 만들어서 모듈을 설치하면 다른 프로젝트에 영향을 주지 않습니다. 전역으로 설치했다면 모든 환경에 영향을 준다는 뜻이니까요. 또 가상환경을 사용하면 파이썬2로 된 프로젝트로 쉽게 만들 수 있습니다. 파이썬2로 된 환경을 구축하고 그에 맞는 모듈을 설치하면 됩니다. 파이썬3를 전역에서 사용하더라도 말이죠.
pip install pipenv
(윈도우 기준으로) 커맨드 창에 해당 명령어를 입력하면 pipenv가 다운로드 됩니다. 파이썬3를 다운 받으셨을 때 pip를 자동으로 받기 때문에 그냥 입력하시면 됩니다. 다운을 다 받은 뒤에는 뉴스 스크래핑 프로그램을 만들 디렉토리로 이동해주세요.
이동한 디렉토리에서 pipenv --three 라는 명령어를 실행해주세요.
pipenv --three는 파이썬3 환경을 구축하겠다는 뜻입니다. 파이썬2 환경을 구축하려면 pipenv --two를 실행하면 됩니다. 조금 시간이 지나서 완료가 되면 디렉토리에 Pipfile이 만들어져 있는 것을 볼 수 있습니다. 이제 우리가 만든 가상환경을 실행해보겠습니다.
pipenv shell
해당 명령을 실행하면 가상환경을 실행할 수 있습니다.(가상 환경을 종료할 때는 exit라는 명령으로 입력하시면 됩니다.)
가상환경에 필요한 모듈 다운로드 받기
pipenv install requests
해당 명령어를 실행하면 리퀘스트를 다운받을 수 있습니다.
리퀘스트는 원하는 페이지를 가져오고, 이제 가져온 페이지에서 우리가 원하는 부분을 골라낼 것을 다운로드 해야겠죠?
pipenv install beautifulsoup4 pipenv install lxml
뷰티풀소프4를 다운받고나서 lxml도 다운받아주세요. lxml은 html이나 xml의 구문을 파악할 수 있게 도와주는 역할(파서)입니다.
다 다운로드 받았으면 이제 기본적인 준비는 다 된 것입니다. 내용이 길어지니 다음 포스팅으로 이어집니다.
공감은 제작자에게 큰 힘이 됩니다.
'Backend-dev > python' 카테고리의 다른 글
파이썬을 활용한 뉴스 스크래핑 3 (3) | 2018.04.28 |
---|---|
파이썬을 활용한 뉴스 스크래핑 2 (0) | 2018.04.26 |
파이썬 인터프리터를 활용한 단어 테스트기 만들기 2 (1) | 2018.04.21 |
파이썬 인터프리터를 활용한 단어 테스트기 만들기 (0) | 2018.04.20 |
파이썬 예외처리를 알아봅시다. (0) | 2018.04.19 |