저번 포스팅에서는 크롬 개발자 도구를 활용해 우리가 스크랩핑 할 부분의 태그를 확인했고, 필요한 모듈을 불러오기까지 했습니다. 파이썬을 활용한 뉴스 스크래핑 1파이썬을 활용한 뉴스 스크래핑 2 지난 포스팅들을 보려면 위의 링크를 확인해주세요.의사 코드(pseudo code) 작성하기의사 코드(수도 코드)는 실제 프로그래밍언어로 구성된 것이 아니라 일반적인 언어로 코드를 흉내내서 알고리즘을 써 넣은 코드입니다. 일단 코드가 어떻게 구성될지 미리 생각해보고 작성하는 것이 더 효율적이겠죠? 항상 미리 의사코드를 작성한 후에 그에 맞게 코드를 작성해보시는 것을 추천드립니다. 일단 rss를 통해 링크를 가져온 후 다시 링크에 접속해서 기사의 내용을 가져오는 것이 우리의 목표입니다. 그래서 크롤러 함수를 한 개 만..
저번 포스팅에서는 스크래핑을 할 때엔 필요한 모듈들과 가상환경을 구축하는 방법에 대해서 다뤘습니다. 지난 포스팅에 다룬 것이 기억나지 않는다면 아래 링크를 통해서 복습해주세요. 파이썬을 활용한 뉴스 스크래핑 1rss를 통하여 오늘자 뉴스 링크 가져오기오늘자 뉴스를 스크래핑하는 것이 우리의 목표였습니다. 오늘자 뉴스를 어떻게 받을 수 있을까요? 여러 방법이 있겠지만 저는 rss를 활용해보겠습니다. rss(Rich Site Summary)는 뉴스나 블로그에서 주로 사용하는 컨텐츠 표현 방식으로, 웹 사이트의 내용을 보여줍니다. 중앙일보의 rss를 이용하면 오늘자 뉴스들을 접할 수 있습니다. 중앙일보 전체 기사 rss 바로가기 rss를 보면 문제점을 하나 발견할 수 있습니다. 오늘자 뉴스 전체를 가져오고 싶은..
스크랩핑이란?인터넷을 정보의 바다라고 합니다. 아주 방대한 정보를 가진 인터넷의 정보를 모두 살펴보는 것은 이미 불가능한 일입니다. 우리에게 필요한 정보만 빠르게 받아서 볼 수 있다면 아주 효율적이면서 유익하다고 할 수 있겠죠? 그래서 스크래핑이 필요합니다. 스크래핑은 웹사이트에서 내가 필요한 정보를 추출해 가져오는 기술입니다. 지금부터 파이썬을 활용해서 오늘자 뉴스를 스크래핑 해오는 크롤러를 만들어보도록 하겠습니다. 필요한 모듈 알아보기뉴스 스크랩핑에서 우리가 사용할 모듈은 requests와 beautiful soup입니다. 간단히 설명하자면 requests는 우리가 필요한 정보가 있는 웹페이지를 가지고 오고, beautifuls soup는 가져온 페이지에서 우리가 필요한 부분을 골라낼 수 있습니다. ..