분류 전체보기
-
시각화 - 예제R 2020. 7. 9. 14:33
시각화 EDA 연습 상관관계가 높은 변수쌍 찾기 DataSet : mtcars - R 기본 내장 Motor Trend Car Road Test Motor Trend 잡지로 부터 추출된 자료 1973~1974년도 각기 종류가 다른 32대의 자동차 자료 mpg(Miles/gallon) : 연비 cyl(Number of cylinders) : 실린더 수 disp(Displacement) : 배기량 hp(Gross horsepower) : 마력 drat(Rear axle ratio) : 후방 차축 비율 wt(Weight) : 차체 무게 qsec (1/4 mile time) : 400m 까기 걸리는 시간 vs(V/S) am (Transmission 0 = auto, 1 = manual) gear (Number o..
-
시각화R 2020. 7. 7. 18:37
시각화 여러 그래프로 데이터 나타내기 분석 탐색적 자료 분석(EDA, Exploratory Data Analysis) 확증적 자료 분석(CDA, Cofirmatory Data Analysis) 탐색적 자료 분석(EDA, Exploratory Data Analysis) 빠르게 자료의 특징을 찾는 행위 확증적 자료 분석(CDA, Cofirmatory Data Analysis) 느리더라도 확실한 결론을 내리는 행위 자료의 현시성 자료를 빠르게 그래프로 그리고 그래프를 통해 자료의 특징을 찾아내고 탐색하는 것 시각화 시각화를 통해 데이터의 특징을 찾아내는데 효과적 자료의 특징은 어떤 결론을 확증하는 증거 Report 탐색적 자료 분석의 정신이 필요 아무것도 보이지 않는 데이터를 가지고 조금씩 길을 찾아가는 정신..
-
기술통계R 2020. 7. 6. 17:15
기술통계 통계로 개념 이해하기 기술통계 데이터를 수학으로 기술하는 것 수치로 특징을 말하는 이유는 정확하기 때문 어떤 사실을 말할 때 높은 설득력 평균(mean) 모든 데이터를 끌어안고 무게중심을 지키는 평균 기호( Summation) 의 정의는 다음과 같다. 모집답 vs 표본 모평균 vs 표본평균 모분산 vs 표본분산 모표준편차 vs 표본표준편차 기술통계에서 말하는 값들은 모두 표본에 해당하는 값 아웃라이어(outlier) 평균을 크게 변하게 만드는 값 아웃라이어를 찾기 위한 그래프 Box Plot 무조건 제거 대상이 아니라 1차적 분석대상 왜 발생했는지와 데이터에 어떤 영향을 미치는 지등 파악 중앙값(median) outlier에 의해 데이터 대표값(평균등)이 많이 변하는 점 보완 [52, 52, 6..
-
데이터 개념 예제로 이해하기R 2020. 7. 6. 15:22
데이터 개념 이해하기 예제로 이해하기 hflights 패키지 - 20만건 이상의 데이터 # 패키지 설치 install.packages('hflights') package 'hflights' successfully unpacked and MD5 sums checked The downloaded binary packages are in C:\Users\205\AppData\Local\Temp\RtmpwtIKSj\downloaded_packages # 공통 패키지 로드 library(ggplot2) Warning message: "package 'ggplot2' was built under R version 3.6.3" library(hflights) # 구조 살펴보기 - str() str(hflights) ..
-
데이터 개념 이해하기R 2020. 7. 2. 15:44
데이터 개념 이해하기 통계로 개념 이해하기 표로 데이터 정리하기 통계에서 데이터를 다루는 것은 데이터를 '표'로 잘 정리하고 나타내는 것 데이터의 종류 데이터의 종류에 따라 데이터 분석 방법이 다름! 수치형 데이터 이산형 데이터 : 독립적인 값, 정수 > 이항 분포를 따르는 확률질량함수 연속형 데이터 : 연속적인 값, 실수 > 확률밀도함수 범주형 데이터 명목형 데이터 : 순서 없는 문자 > 남,여 순서형 데이터 : 순서 있는 문자 > 학점(A~F) 데이터 손질하기 데이터를 표로 잘 정리하는 것은 통계 전체 작업에서 50%이상을 완성 했다는 의미 명목형 변수 - 도수분포표 도수 : 거듭하는 횟수 측정한 값의 빈도수를 정리한 표 명목형 변수 - 상대도수분포표 상대도수 : 변수값이 전체 변수값에서 어떤 비중을..
-
R 필수 설치 패키지R 2020. 7. 2. 15:12
진행에 필요한 예제파일 다운로드 https://cafe.naver.com/peelr/1070 압축 풀고 폴더명 'r-ggagi-data'로 변경할 것 필수 설치 패키지 install.packages('ggplot2') Installing package into 'C:/Users/205/Documents/R/win-library/3.6' (as 'lib' is unspecified) also installing the dependency 'isoband' package 'isoband' successfully unpacked and MD5 sums checked package 'ggplot2' successfully unpacked and MD5 sums checked The downloaded binar..
-
Python 가상환경 생성 및 R 주피터 노트북 연결R 2020. 7. 2. 12:37
Python 가상환경 생성 및 R 주피터 노트북 연결 Anaconda Prompt 실행 파이썬 버전 확인 python --version / python -V 아나콘다 버전 확인 conda --version / conda -V 아나콘다 update conda update conda 가상환경 list conda info --envs 가상환경 생성 conda create --name (venv_name) python python=3.7 venv_name 에 원하는 가상환경 이름 넣기 r_study로 작성 가상환경 삭제 conda remove --name (venv_name) --all 가상환경 활성화 conda activate (venv_name) 주피터 노트북 설치 conda install jupyter n..