본문 바로가기

전체 글305

네이버 API 이용해 헤드라인 뉴스 기사 가져오기 웹 크롤링을 통해 자료를 수집할 때 가장 큰 문제점은 허가를 받지 않고 데이터를 수집한다는 거다. 언제 내 크롤러가 차단을 당해도 할 말이 없다. 웹 사이트 개편이라도 하면 크롤링 소스를 모두 수정해야 하는 상황에 봉착하게 된다. 그렇다면 공식적인 방법은 뭐가 있을까? 바로 API를 이용하는거다. 네이버를 예로 들면 로그인부터 뉴스, 쇼핑, 카페 데이터 검색을 위한 다양한 API를 제공한다. 사용한도는 있지만 꽤 넉넉하게 무료제공한다. 이 API를 이용해 뉴스기사를 수집해 보자. 1. 네이버 API 신청네이버 데이터랩에 접속해 오픈 api를 신청한다.- Client ID와 Client Secret 를 발급해 준다. 네이버 API를 이용하는 키라고 보면 된다. https://developers.naver... 2025. 1. 27.
블로그 포스팅 자동화 구글 애드센스 수익 이어질까? 결론부터 말하면 구글이나 네이버 헤드라인 뉴스를 크롤링해 블로그 포스팅을 자동화하고 이를 통해 구글 애드센스 수익을 올리는 것은 가능하다. 아주 미약하게나마 수익이 난다는 것이지 실질적인 수익이라 말하기 어렵다. 최신 뉴스는 검색 수요가 많아 트래픽을 유도할 가능성이 높다. 또한 특정 키워드에 대한 순위를 잘 잡으면 방문자가 늘어날 것이다. 재수 좋으면 광고까지 클릭하게 된다. 정기적인 발행까지 된다면 활성화된 사이트로 간주해 SEO 점수가 개선될 것이다. 하지만 치명적인 문제가 발생할 수 있다.첫 번째는 바로 저작권 문제다. 구글의 경우 뉴스 컨텐츠는 보통 원 출처 사이트의 저작권을 따른다. 따라서 크롤링한 데이터를 그대로 복사해 블로그 포스팅하면 저작권 침해가 될 수도 있다. 심한 경우 구글은 저작권.. 2025. 1. 26.
BeautifulSoup 이용해 웹 데이터 추출하기 - select, select_one, find, find_all BeautifulSoup의 메서드 select, select_one, find, find_all은 HTML 문서에서 데이터를 추출하는 데 사용됩니다. 웹 사이트마다 다양한 방식으로 페이지를 구성되어 있어서 각 메서드에 대한 완벽한 이해가 필요합니다. 메서드 정의와 예제를 통해 사용법을 익혀보아요.1. find()정의조건에 맞는 첫 번째 태그를 반환합니다.태그 이름, 속성, 문자열 조건 등을 사용해 검색할 수 있습니다.예제 from bs4 import BeautifulSouphtml = """ Title 1 Description 1 """soup = BeautifulSoup(html, 'html.parser')# 첫 번째 태.. 2025. 1. 12.
비트코인 헤드라인 뉴스 사이트 자동으로 만들기 암호화 화폐를 다루는 미디어 사이트에 접속해 주요 헤드라인 뉴스를 추출해 나만의 뉴스 사이트를 만들어 보자. 1. 뉴스 원천은 어디? 블록미디어 최신 뉴스를 사용한다.  (https://www.blockmedia.co.kr/)2. 기사 스크래핑은 누가?인공지능을 이용한다. Claude로 시작해 ChatGpt로 마무리했다. 무료로 사용하다 보니 사용 제한이 걸렸기 때문이다. 3. 코드 작성을 위한 사이트 분석Claude에 블로미디어 url을 입력하고 뉴스기사 스크래핑을 요청했는데 결과가 제대로 나오지 않았다. 그래서 최신 기사가 있는 웹 페이지 위치를 알려주었다.  여기 copy element 소스를 Claude에 입력하고 기사 스크래핑을 했다. 4. 스크래핑 소스코드 작성해줘.claude는 다음 기능을 .. 2025. 1. 11.
라면 레시피로 쉽게 이해하는 Docker Docker는 이미지이자 컨테이너다. 세상에서 가장 맛있는 라면을 만드는 식당이 있다. 그 라면을 먹기 위해 식당 앞은 손님들로 장사진을 친다. 하지만 물리적 공간 제한으로 고작 20명만 먹을 수 있다. 나머지는 발걸음을 돌려야 한다. 요리사는 좀 더 많은 사람들에게  라면을 판매할 수 없을까 고민한다.그는 라면 레시피와 라면 제조기를 판매하기로 마음머고 레시피를 웹 사이트에 게시한다. 라면 제조기는 이 레시피를 입력하면 식당에서 판매하는 라면과 100% 같은 맛과 풍미를  느끼게 요리해 준다. 발걸음을 돌린 손님은 이 레시피를 내려받아 라면 제조기에 입력한다. 5분 뒤에 세상에서 가장 맛있는 라면을 먹을 수 있게 된다. 이제 더이상 라면을 먹기 위해 긴 줄을 설 필요가 없다. Docker는 라면 레시피.. 2025. 1. 1.
웹 페이지 조회 건수 보여주기 - docker compose 이용 웹 사이트 접속할 때 조회 건수를 보여주는 페이지를 만들어 보자. 파이썬 flask와 redis를 이용한다. flask는 초경량 웹서버, redis는 간단한 기록을 담당한다. app.pyfrom flask import Flaskfrom redis import Redisimport osapp = Flask(__name__)redis = Redis(host='redis', port=6379)@app.route('/')def hello(): redis.incr('hits') return f'안녕하세요! 이 페이지는 {redis.get("hits").decode("utf-8")}번 조회되었습니다!\n'if __name__ == "__main__": app.run(host="0.0.0.0", de.. 2024. 12. 29.
뉴스 기사 추출하는 코드 만들어 줄래? 3탄 docker 결과 파일 가져오기 지난 포스팅에 뉴스기사 크롤링 소스를 도커에 올려서 실행해 보았다. 한 걸음 더 나아가서 도커 컨테이너가 생성한 크롤링 결과 파일을 확인하고 로컬에 옮겨보자. 크롤링 및 도커 기본 지식이 필요하면 이전 포스팅을 참고하자. 2024.12.27 - [코드리뷰/chatGPT(Python)코드] - 뉴스 기사 추출하는 코드 만들어 줄래? 1탄 (Chatgpt / Claude) 뉴스 기사 추출하는 코드 만들어 줄래? 1탄 (Chatgpt / Claude)네이버 최신 뉴스 헤드라인을 추출해 보자. 일반적으로 웹 데이터를 추출하는 것을 웹크롤링이라 한다. 주로 파이썬을 이용해 웹 페이지 분석 후 필요한 데이터를 가져오는 코드를 작성하는데,iamgus.tistory.com2024.12.27 - [분류 전체보기] - 뉴.. 2024. 12. 28.
뉴스 기사 추출하는 코드 만들어 줄래? 2탄 docker 올려보자 지난 시간에 인공지능에 지시해 만든 웹 크롤링 프로그램을 docker로 배포해 보자. 2024.12.27 - [코드리뷰/chatGPT(Python)코드] - 뉴스 기사 추출하는 코드 만들어 줄래? (Chatgpt / Claude) 뉴스 기사 추출하는 코드 만들어 줄래? (Chatgpt / Claude)네이버 최신 뉴스 헤드라인을 추출해 보자. 일반적으로 웹 데이터를 추출하는 것을 웹크롤링이라 한다. 주로 파이썬을 이용해 웹 페이지 분석 후 필요한 데이터를 가져오는 코드를 작성하는데,iamgus.tistory.com장점은 이미지로 배포하고 실행할 때는 컨테이너에 올리기 때문에 호환성 문제와 독립된 환경을 가질 수 있다. 즉, 파이썬 설치하거나 selenium은 같은 패키지 등을 배포하는 작업 없이 dock.. 2024. 12. 27.
뉴스 기사 추출하는 코드 만들어 줄래? 1탄 (Chatgpt / Claude) 네이버 최신 뉴스 헤드라인을 추출해 보자. 일반적으로 웹 데이터를 추출하는 것을 웹크롤링이라 한다. 주로 파이썬을 이용해 웹 페이지 분석 후 필요한 데이터를 가져오는 코드를 작성하는데, 웹 페이지 소스코드 분석과 파이썬 크롤링 코드 작성이란 쉽지 않은 관문이 있다. 물론 웹 개발 경험이 있다면 쉽게 코드를 구현할 수 있겠지만 그렇지 않을 경우는 자동화 코드를 만들기 쉽지 않다. 이런 어렵고 복잡한 부분은 인공지능에게 작업하게 하고 우리는 그 결과에 피드백을 제공하면 원하는 결과물을 얻을 수 있지 않을까 생각한다. 인공지능과의 채팅은 누구든 할 수 있으니 말이다. 1. 어떤 데이터를 추출할 것인가?네이버 뉴스 기사 웹 페이지에 접속해  URL 을 카피하자  > https://news.naver.com/se.. 2024. 12. 27.
Docker 이해하는 세상에서 제일 쉬운 예제 만들기 - 도커허브에 올리기 Docker를 언제 어디서든 사용하려면 공유 공간에 이미지를 올려야 한다. 디폴트는 도커허브다. https://hub.docker.com/ Docker Hub Container Image Library | App ContainerizationIncrease your reach and adoption on Docker Hub With a Docker Verified Publisher subscription, you'll increase trust, boost discoverability, get exclusive data insights, and much more.hub.docker.com도커허브에 사용자 계정을 만들고 이미지 저장소를 이용해 보자. 1. docker hub login 하기 (1) dock.. 2024. 12. 22.