Jupyter Notebook
기상청 자료 크롤링 하기 기상청 rss https://www.weather.go.kr/weather/lifenindustry/sevice_rss.jsp endpoint http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=108 import urllib.request as req import requests from bs4 import BeautifulSoup import os.path import time url = 'http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=108' dt = time.strftime('%Y%m%d', time.localtime(time.time())) xml_..
로그인하여 데이터 크롤링하기 특정한 경우, 로그인을 해서 크롤링을 해야만 하는 경우가 존재 예) 쇼핑몰에서 주문한 아이템 목록, 마일리지 조회 등 이 경우, 로그인을 자동화 하고 로그인에 사용한 세션을 유지하여 크롤링을 진행 HTTP 상태 코드 1xx (정보): 요청을 받았으며 프로세스를 계속한다 2xx (성공): 요청을 성공적으로 받았으며 인식했고 수용하였다 3xx (리다이렉션): 요청 완료를 위해 추가 작업 조치가 필요하다 4xx (클라이언트 오류): 요청의 문법이 잘못되었거나 요청을 처리할 수 없다 5xx (서버 오류): 서버가 명백히 유효한 요청에 대해 충족을 실패했다 로그인 후 데이터 크롤링 하기 endpoint 찾기 (개발자 도구의 network를 활용) id와 password가 전달되는 fo..
다음뉴스 크롤링하기 %%html import requests from bs4 import BeautifulSoup 제목 가져오는 함수 def get_daum_news_title(news_id): url = 'https://news.v.daum.net/v/{}'.format(news_id) response = requests.get(url) status_code = response.status_code if status_code == 200: soup = BeautifulSoup(response.text) title_h3 = soup.select_one('h3.tit_view') ret_title = title_h3.text.replace('\'','').replace('"','') else: soup =..
네이버 영화 %%html import requests from bs4 import BeautifulSoup import datetime 날짜 지정하는 함수 def get_date(day): now = datetime.datetime.now() #tomorrow = now + datetime.timedelta(days=1) #print(type(tomorrow)) #yesterday = now + datetime.timedelta(days=-1) # date object -> str ret_date = now + datetime.timedelta(days=day) return ret_date.strftime('%Y%m%d') p_date = get_date(-10) p_date '20200526' 함수 작..
네이버 책 검색기 네이버 책 메뉴에서 빅데이터를 검색 해 책 제목, 저자, 출판사, 출판일, 정가, 할인가 출력 %%html import requests from bs4 import BeautifulSoup 주소 작업 url = 'https://book.naver.com/search/search.nhn' params = {'sm':'sta_hty.book', 'sug':'', 'where':'nexearch', 'query':'bigdata'} get 요청 response = requests.get(url, params=params) status_code = response.status_code print(status_code) if status_code == 200: text = response.tex..
스크래핑과 크롤링 스크래핑(Scraping) 웹사이트에 있는 특정 정보를 추출하는 기술크롤링(Crawling) 웹사이트를 정기적으로 돌며 정보를 추출하는 기술1.1 데이터 다운로드 파이썬 네트워크 라이브러리 urllib urllib를 이용한 다운로드 urllib.request 사용 urllib.request.urlretrieve() : 파일 직접 다운로드 %%html #import import urllib.request #다운받을 파일 경로 url = 'https://t1.daumcdn.net/daumtop_chanel/op/20170315064553027.png' downfile = 'daum_logo.png' #다운로드 urllib.request.urlretrieve(url, downfile) pri..
Jupyter Notebook ◎ 다큐먼트 생성 새로 생성된 다큐먼트의 이름은 'Untitled' 이며, 해당부분을 누르고 이름 변경 가능 ◎ 단축키 다큐먼트 상단 [Help] - [Keyboard shortcuts] 클릭 ◎ Edit 모드 / Command 모드 셀을 선택하면 좌측에 띠가 생기는데 녹색 : Edit 모드 / 파랑색 : Command 모드 셀 선택한 상태(Edit 모드)에서 Esc 혹은 셀 바깥을 선택하면 Command 모드로 전환 Command 모드에서 ' Y ' 키 or [Code]의 드롭다운 메뉴 중 [Code]를 누르면 python 코드 작성 가능 Command 모드에서 ' M ' 키 or [Code]의 드롭다운 메뉴 중 [Markdown] 을 선택하면 Markdown 작성 가능
아나콘다 설치 https://www.anaconda.com/products/individual Individual Edition | Anaconda 🐍 Open Source Anaconda Individual Edition is the world’s most popular Python distribution platform with over 20 million users worldwide. You can trust in our long-term commitment to supporting the Anaconda open-source ecosystem, the platform of choice www.anaconda.com Anaconda Prompt 실행 파이썬 버전 확인 python --version ..