전체 글
-
팀 프로젝트포트폴리오 2020. 8. 18. 15:04
팀명 : GB the finance 작업기간 : 8/3 ~ 8/14 (2주) 평일 2시~7시 작업 주제 : 금융 데이터 분석 담당 : 커뮤니티 키워드 링크 : https://kimhg9511.github.io/bigdata_project/home 작업물 : 대시보드 - 심은식 notebook 아쉬운점 1. 셀레니움으로 크롤링 진행에 에러가 많아 시간이 생각보다 많이 소요됨(첫주는 거의 오류수정으로 날리게됨) 2. 구글링 해보고 나서 requests로 크롤링 진행하는데 time.sleep() 옵션을 안주면 디도스로 오해받아 약 1시간 정도 크롤링 불가능하여 적절한 값을 찾아야 했음 3. 크롤링 시간이 약 4일정도 걸려서 작업이 딜레이됨 4. 2019년 한 해 글이 가장 많았던 디시인사이드 '비트코인 갤러리..
-
교차검증머신러닝 2020. 7. 28. 11:11
데이터를 검증하는 방법 모델의 타당성을 검증하는 크로스 밸리데이션 교차 검증 - Cross-validation 모델의 타당성을 검증하는 방법 중 하나 특정 데이터를 훈련 전용데이터와 테스트 전용 데이터로 분할 훈련데이터로 학습하고 테스트 데이터로 학습의 타당성 검증하는 방법 K 분할 교차 검증 : K-fold cross validation 3-fold cross validation 집합 X 를 3개로 분할 : A, B, C A:테스트, (B,C):훈련 => 정밀도 s1 B:테스트, (A,C):훈련 => 정밀도 s2 C:테스트, (A,B):훈련 => 정밀도 s3 s1, s2, s3의 평균을 구해 최종적인 분류 정밀도 구하기 붓꽃 데이터 데이터 검증해보기 scikit-learn 이용 model_selecti..
-
랜덤 포레스트머신러닝 2020. 7. 28. 11:00
랜덤 포레스트 - Random Forest 집단 학습을 기반으로 고정밀 분류, 회귀, 클러스트링 구현 학습 데이터로 다수의 의사결정 트리를 만들고 그 결과의 다수결로 결과 유도로 높은 정밀도 무작위 샘플링과 다수의 의사결정 트리 => Random Forest 결정 트리(Decision Tree) 분류(Classification)와 회귀(Regression) 모두 가능한 지도 학습 모델 중 하나 결정 트리는 스무고개 하듯이 예/아니오 질문을 이어가며 학습 한번의 분기 때마다 변수 영역을 두 개로 구분 매, 펭귄, 돌고래, 곰을 구분한다고 생각해봅시다 Terminal Node는 LeafNode 라고도 함 프로세스 먼저 데이터를 가장 잘 구분할 수 있는 질문을 기준으로 나누기 나뉜 각 범주에서 또 다시 데이터..
-
SVM머신러닝 2020. 7. 28. 10:25
머신러닝 서포트 벡터 머신(SVM) - Support Vector Machine 다양한 연구를 통해 굉장히 높은 인식 성능 발휘 선을 구성하는 매개변수를 조정해서 요소의 구분선을 찾고 이른 기반으로 패턴 인식 주어진 데이터가 어느 카테고리에 속할지 판단하는 이진 선형 분류 모델 서포트 벡터 머신(SVM) 개념 빨간 X와 파란 O 구분하는 선중 두 데이터를 잘 구분한 선은? Margin의 최대화 가운데 선이 Margin을 최대화 Margin은 선과 가장 가까운 양 옆 데이터와의 거리 서포트 백터(Support) : 선과 가장 가까운 포인트 Margin은 선과 서포트 벡터와의 거리 Descision Boundary : 데이터 구분하는 선 Robustness 양 옆 서포트 벡터와의 Margin을 최대화하면 r..
-
데이터 전처리머신러닝 2020. 7. 23. 17:34
데이터 전처리 Data Preprocessing 어떤 데이터를 입력으로 가지느냐에 따라 결과가 크게 달라짐 (Garbage In, Garbage Out) 사이킷런 ML 알고리즘을 적용하기 전 처리할 기본 사항 결손값, NaN, Null 허용 안됨 문자열값 허용 안됨 결손값, NaN, Null 처리 결손값등이 얼마 되지 않는 다면 피처의 평균값 등으로 간단히 처리 결손값등이 대분이라면 해당 피처 Drop 결손값등이 일정 수준 이상되는 경우 일정 수준의 기준이 없어 선택이 어려움 중요도가 높은 피처이고 단순히 평균값등로 대체할 경우 예측 왜곡이 심할 수 있다면 상세히 검토해 더 정밀한 대체 값을 선정 해야 함 문자열값 처리 모든 문자열은 인코딩돼서 숫자로 변환 문자열 피처는 카테고리형 피처와 텍스트 피처를 ..
-
Machine-Learning머신러닝 2020. 7. 23. 17:19
머신러닝이란? 머신러닝(machine learning) 개요 머신러닝이란 인공지능 연구 과제 중 하나 인간의 뇌가 학습하는 것처럼 학습의 능력을 컴퓨터로 구현하는 방법 샘플 데이터 입력 => 분석 => 특징과 규칙 발견 => 데이터분류 또는 예측 어떻게 특징과 규칙을 찾을까? 특징량을 기반으로 구분선 그리기 머신러닝 계산을 통해 구분선을 찾아 내는 것 많은 경우 거리가 가까우면 비슷한 데이터라고 판정 특징 추출 Raw Data => 데이터가 어떤 특징을 가지고 있는 지 확인 => 벡터(vector) 벡터란 공간에서 크기와 방향을 가지는 것을 의미 어떤 특징을 추출할지가 포인트 회귀 분석 regression analysis Y가 연속된 값일 때 Y = f(x) 모델로 나타 내는 것 Y = aX + b 인 ..
-
자연어 처리 예제Python 2020. 7. 22. 17:56
여자친구 선물 고르기 네이버에서 여자친구 선물 검색 검색 결과를 가지고 텍스트 마이닝 작업 import pandas as pd import numpy as np import platform import matplotlib.pyplot as plt %matplotlib inline path = "c:/Windows/Fonts/malgun.ttf" from matplotlib import font_manager, rc if platform.system() == 'Darwin': rc('font', family='AppleGothic') elif platform.system() == 'Windows': font_name = font_manager.FontProperties(fname=path).get_name..
-
KoNLP(자연어처리)Python 2020. 7. 22. 17:25
자연어 처리 시작하기 https://wikidocs.net/book/2155 설치 목록 JDK (Java SE Downloads) JAVA_HOME 설정 JPype 설치 (https://lovit.github.io/nlp/2018/07/06/java_in_python/) KoNLPy 설치 (Lucy Park님이 개발 https://pinkwink.kr/1025) nltk 설치(https://wikidocs.net/22488), https://datascienceschool.net/view-notebook/8895b16a141749a9bb381007d52721c1/ Word Cloud 설치 한글 자연어 처리 기초 - KoNLPy 및 필요 모듈의 설치 콘다 콘솔에서 설치 KoNLPy : pip install..