-
팀명 : GB the finance
작업기간 : 8/3 ~ 8/14 (2주) 평일 2시~7시 작업
주제 : 금융 데이터 분석
담당 : 커뮤니티 키워드
링크 : https://kimhg9511.github.io/bigdata_project/home
작업물 : 대시보드 - 심은식 notebook
아쉬운점
1. 셀레니움으로 크롤링 진행에 에러가 많아 시간이 생각보다 많이 소요됨(첫주는 거의 오류수정으로 날리게됨)
2. 구글링 해보고 나서 requests로 크롤링 진행하는데 time.sleep() 옵션을 안주면 디도스로 오해받아 약 1시간 정도 크롤링 불가능하여 적절한 값을 찾아야 했음
3. 크롤링 시간이 약 4일정도 걸려서 작업이 딜레이됨
4. 2019년 한 해 글이 가장 많았던 디시인사이드 '비트코인 갤러리'를 크롤링 하였는데 막상 작업 하고보니 쓰레기 데이터들이 많았음 -> 커뮤니티 말고도 뉴스기사 데이터들을 찾아서 같이 크롤링 진행 하였으면 더 좋은 결과물이 ??
'포트폴리오' 카테고리의 다른 글
스타벅스 매장 지도에 표시하고 csv 파일로 저장하기 (2) 2020.06.19 카카오 API를 사용하여 '호식이두마리치킨' 가맹점 찾기 (2) 2020.06.15 카카오 API와 openpyxl를 이용한 서울시 무인발급기 지도에 표시하기 (0) 2020.06.10 카카오 API를 이용한 지도에 식당위치 표시하기 (0) 2020.06.10