분류 전체보기
-
Pandas - pivot_table, SeabornPython 2020. 7. 20. 18:34
pandas의 pivot_table 익히기 import pandas as pd import numpy as np df = pd.read_excel("DataScience_Ing/data/02. sales-funnel.xlsx") df.head() Account Name Rep Manager Product Quantity Price Status 0 714466 Trantow-Barrows Craig Booker Debra Henley CPU 1 30000 presented 1 714466 Trantow-Barrows Craig Booker Debra Henley Software 1 10000 presented 2 714466 Trantow-Barrows Craig Booker Debra Henley Mai..
-
Pandas 기초Python 2020. 7. 16. 17:25
가장 많이 사용하는 것들 위주로 정리 Pandas 시작 - 파일을 DataFrame 로딩, 기본 API 웨스 매키니(Wes McKinney) 월스트리트 금융회사 분석 전문가 회사에서 사용하는 분석용 데이터 핸들링 툴이 마음에 안들어서 Pandas 개발 행과 열로 이루어진 2차원 데이터를 효율적으로 가공/처리할 수 있는 기능 제공 파이썬의 리스트, 넘파이, CSV등 파일을 쉽게 DataFrame으로 변경해 데이터의 가공/분석을 편리하게 수행 Series 칼럼이 하나 뿐인 데이터 구조체 DataFrame 컬럼이 여러 개인 데이터 구조체 여러개의 Series로 구성 Index RDBMS의 PK 처럼 개별 데이터를 고유하게 식별하는 Key 값 Series, DataFrame은 모두 index를 Key 값으로 가..
-
Numpy 기본Python 2020. 7. 16. 17:16
가장 많이 사용하는 것들 위주로 정리 Numpy ndarray 개요 머신러닝 주요 알고리즘은 선형대수와 통계 등에 기반함 Numpy는 선형대수 기반 프로그램을 쉽게 만들 수 있는 패키지 루프 없이 대량의 데이터 배열 연산을 빠르게 처리 2차원 행과 열의 데이터 처리는 판다스(Pandas)가 더 편리 기반 데이터 타입 : ndarray #pip install numpy import numpy as np # 파이썬의 list 값을 ndarray로 변환 array1 = np.array([1,2,3]) print('array1 type : ', type(array1)) # 1차원 리스트를 넣으면 행이 기본 print('array1 array 형태 : ', array1.shape) array2 = np.array..
-
추정치 구하기R 2020. 7. 14. 17:31
추정치 구하기 predict() 사용 야구 데이터 추정하기 홈런(HR)에 대한 루타(TB) 회귀분석 하기 # 데이터 로드 df_kbo |t|) (Intercept) -109.26964 24.92619 -4.384 0.00234 ** TB 0.14411 0.01661 8.677 2.42e-05 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 7.963 on 8 degrees of freedom Multiple R-squared: 0.9039, Adjusted R-squared: 0.8919 F-statistic: 75.28 on 1 and 8 DF, p-value: 2.423e-05 #..
-
회귀분석R 2020. 7. 13. 18:22
회귀 분석 단순 선형 회귀모델(Simple linear regression) 키가 큰 아이를 낳기 위해서는 키 큰 배우자와 결혼? 연구자 : 칼톤(Galton) => 피어슨(Pearson) 진화론 반박을 위해 연구 가설 : 진화론에 따르면 키가 큰 아버지의 자직은 점점 커지고 키가 작은 아버지의 자식은 점점 작아 진다 피어슨 공식 : Y = 83.73 + 0.516 X , X는 아버지의 키 키가 큰 아버지의 자식은 아버지보다 작고 전체 평균보다는 크다 키가 작은 아버지의 자식은 아버지보다 크고 전체 평균보다는 작다 자식의 키는 아버지 키에 영향을 받는다 하더라도 결국 평균으로 돌아가려는 현상 아버지의 키와 아들의 키가 서로 연관성이 있다는 사실 회귀분석 상관계수는 관계의 긴밀함을 수치적으로 계산 회귀분석..
-
확률 - 예제R 2020. 7. 13. 17:53
확률(Probability) 실전예제 10년치 편의점 판매 데이터 분석하기 1500만건 특정 상품을 정해 시간당 몇 개씩 팔리는 지 분석 확률실험 관측값(팔린갯수)를 확률변수로 사용 ★ 확률변수 : 무작위 실험을 했을 때, 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수 ex) 동전 2개를 던져 숫자가 나오는 경우의 확률변수 = [0, 1, 2] / 주사위 2개를 던져 나온 눈의 합의 평균을 구할때 확률변수 = [2~12] https://drhongdatanote.tistory.com/49 https://namu.wiki/w/%ED%99%95%EB%A5%A0%20%EB%B3%80%EC%88%98 시간당 판매갯수 확률변수로 분석하기 # 대량의 데이터 빠르게 library(data.table..
-
확률R 2020. 7. 13. 17:45
확률(Probability) 기술통계 : 시각화와 표본 확률 : 모집단 확률 실험 => 확률 변수 => 확률 분포 => 모수 추론 => 검증 => 의미파악 위 과정을 거처 모집단의 특징을 말하는 것 => 추론 통계학은 모두 조사할 수 없는 모집단을 알기 위해 표본을 설명하면서 발전 최근에는 IT 기술 발전으로 큰데이터를 다룰 수 있어 그 의미가 변해가고 있음 정해진 확률 구하기 확률실험 실험으로 나올 수 있는 결과를 모두 알고 있지만 어떤 결과가 나올지 모르는 실험 동전 던지기 앞면 나올 확률 주사위 던지기 2 나올 확률 표본 공간 확률실험에서 나올 수 있는 결과 집합 동전 : {앞면, 뒷면} 주사위 : {1, 2, 3, 4, 5, 6} 사건 표본 공간에서 알고 싶은 결과 표본 공간의 부분집합 동전던지기..
-
시각화 - D3.jsR 2020. 7. 9. 18:23
시각화 보고를 위한 그래프 그리기 D3.sj 와 그 외 JS 그래프 D3.js 는 html, javascirpt 로 만들 수 있는 그래프 R에서는 rCharts 를 이용 html, js를 몰라도 사용 가능 rChart : JS 라이브러리를 R 에서 직접 사용하게 해주는 패키지 D3.js 는 인터랙티브 그래프 install.packages('devtools') also installing the dependencies 'ini', 'gh', 'rematch2', 'rex', 'crosstalk', 'xopen', 'brew', 'usethis', 'covr', 'DT', 'git2r', 'memoise', 'rcmdcheck', 'remotes', 'roxygen2', 'rversions', 'sessio..